🤗Huggingface последний год уважаемо упарываются в образование студентов в плане AI. Выкатили новый блог пост про поддержку nanochat от Karpathy, который в целом и предназначается для образования молодого поколения, чтобы те могли потрогать микро LLM которая написана в примерно 500 строк кода на голом torch с хорошей инженерной проработкой и соверемнными методами стабилизации обучения.
То есть можно поиграться при желании с претреном, потратив 100 долларов на 4 часа с 8 H100, ну или взять готовые чекпоинты поиграться, хз. Более того, инженеры hf справедливо замечают, что можно потыкаться будет в разного рода встроенные механизмы удобные в экосистеме трансформерс. Например квантизовать с lamma.cpp за 0$ или поэксперементирлвать с инференсом.
В общем, в моих глазах выглядит, как крайне хороший механизм для практики, а в особенности с сочетанием их очень полного блогпоста «The Smol Training Playbook» о всех стадиях трена, про который написали при выходе ну примерно все тг каналы….
🤗 Всем школьничкам, и тем кто в душе школьничек, почитать подробнее можно вот тут
То есть можно поиграться при желании с претреном, потратив 100 долларов на 4 часа с 8 H100, ну или взять готовые чекпоинты поиграться, хз. Более того, инженеры hf справедливо замечают, что можно потыкаться будет в разного рода встроенные механизмы удобные в экосистеме трансформерс. Например квантизовать с lamma.cpp за 0$ или поэксперементирлвать с инференсом.
В общем, в моих глазах выглядит, как крайне хороший механизм для практики, а в особенности с сочетанием их очень полного блогпоста «The Smol Training Playbook» о всех стадиях трена, про который написали при выходе ну примерно все тг каналы….
🤗 Всем школьничкам, и тем кто в душе школьничек, почитать подробнее можно вот тут
huggingface.co
The Smol Training Playbook - a Hugging Face Space by HuggingFaceTB
The secrets to building world-class LLMs
1🔥26❤11👍4 4 1
Forwarded from ML Underhood
Сегодня вышел техрепорт Alice AI
Ниже — краткий обзор ключевых технических решений и результатов, а подробнее обо всех деталях, экспериментах и выводах можно почитать в полной версии отчёта на Хабре.
Alice AI LLM
Alice AI LLM Search
Alice AI ART
Alice AI VLM
Инфраструктура инференса
ML Underhood
Ниже — краткий обзор ключевых технических решений и результатов, а подробнее обо всех деталях, экспериментах и выводах можно почитать в полной версии отчёта на Хабре.
Alice AI LLM
На этапе претрейна улучшили качество данных: фильтрация и аугментация повысили фактологичность ответов (+4–7% на внутреннем бенчмарке). Также собрали специализированные данные по школьным предметам, что дало прирост на образовательных задачах — модель обошла конкурентов по истории, литературе, математике и русскому языку. Усилили навыки программирования и математики за счёт алгоритмических и кодовых данных (+4,5 п.п. на LiveCodeBench). В alignment-фазе перешли к единому RLHF-пайплайну с мультиаспектным ревордом (полезность, фактологичность и др.) вместо одного «суперсигнала».
Alice AI LLM Search
Пайплайн объединяет планировщик поисковых запросов, фильтрацию и ранжирование результатов и генерацию ответа, а также поддерживает мультимодальные источники — тексты, изображения, видео и геоданные — для более полных ответов. Для обучения использовали RLHF с мультиаспектными ревордами вместо одной метрики, что упростило оценку сложных ответов. В RL-тренировке перешли к онлайн-методу GRPO, сократили этапы обучения, повысили эффективность GPU и в итоге улучшили полезность и актуальность ответов.
Alice AI ART
Обучающий датасет проанализировали с помощью Alice AI VLM, извлекли структурированные JSON-описания изображений и выявили дисбалансы в данных. На основе этого датасет для файнтюна переработали и дополнили недостающими категориями запросов, чтобы лучше соответствовать реальным пользовательским сценариям. Архитектура модели сделана двухступенчатой: на первом этапе формируется общая композиция изображения, на втором — прорабатываются высокочастотные детали. Дополнительно обучили отдельный «рефразер» — компактную LLM, которая преобразует сырые пользовательские промпты в детализированное описание сцены, сохраняя исходный смысл перед генерацией.
Alice AI VLM
Объём данных претрейна увеличили с 400 до 600 млрд токенов и расширили контекст до 32 тыс. Обновили OCR-датасет, улучшив качество чтения текста с изображений, включая рукописный, и описание визуального контента. VLM тесно интегрирован с текстовой LLM и обучается с теми же RLHF-подходами. Дополнительно в систему добавлен специализированный VLM-«решатель» для задач, требующих глубокой визуально-математической экспертизы.
Инфраструктура инференса
Инференс оптимизировали, повторно использовав KV-кэш для одинаковых частей промпта. Также помогла полная FP8-квантизация весов, активаций и KV-кэша. За счёт этого объём KV-кэша сократился почти вдвое. Дополнительно внедрили спекулятивное декодирование EAGLE-3, повысив пропускную способность генерации.
В результате новый инференс-стек обеспечивает около 5,8× ускорение по сравнению с BF16 и примерно 1,3× относительно лучших открытых решений, что позволило достичь целевых показателей скорости.
ML Underhood
👍16❤8💅8🔥4🤮2
Пока мы с командой тащим до нашего релиза, коллеги, которые занимаются VLM, уже релизнули что-то очень крутое😎 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
❤10
Forwarded from ML Underhood
Alice AI VLM dev на MWS Vision Bench: что конкретно изменилось в модели (и вокруг неё)
Сегодня наша базовая визуально-языковая модель Alice AI VLM dev появились на втором месте в MWS Vision Bench с результатами Overall private test: 0,646 (img→text: 0,885, img→markdown: 0,776, Grounding: 0,060, KIE (JSON): 0,729, VQA: 0,781). Alice AI VLM dev — часть большой Alice AI VLM. Расскажем, как всё обучалось.
Инженеры Яндекса сумели добиться хороших результатов благодаря обучению модели не только под пользовательские сценарии, но и под бизнесовые. Внутри компании используют VLM для автоматизации документооборота, разметок и многого другого. На этих доменах модель обучается как на стадии претрейна, так и на стадии алайнмента.
В сценарии «картинка + вопрос» качество упирается не только в генерацию ответа, но и в то, как модель видит изображение, читает текст на нём и следует инструкции. В продакшене Alice AI VLM работает в связке: «называтель» извлекает объекты и строит их иерархию с учётом текстового запроса, а VLM‑рефразер маршрутизирует запрос либо в основной VLM‑генератор, либо в специализированные ветки (например, «решатель»), либо в Alice AI LLM. Alice AI VLM dev (она же базовая VLM) — это та же модель, которая работает в продакшене как «генератор» и «решатель», но обрабатывающая запросы пользователя напрямую, без предыдущих этапов.
Обучение VLM двухэтапное: на претрейне мультимодальное next‑token-обучение на большом корпусе, а на алайнменте — SFT + RL, где модель доводят до «ассистентского» поведения.
Претрейн
Увеличили Image‑encoder и размер картинки на входе без деградации — с 896×896 до 1024×1024. Благодаря этому выросло качество работы с деталями, вроде формул, таблиц, этикеток и дорожных знаков.
Также переформатировали OCR‑данные. Раньше в датасете часто встречались пары «картинка + весь распознанный текст», что хорошо помогало учить модель непосредственно на чтение, но этого было недостаточно для некоторых других сценариев. Например для задач на понимание логической и пространственной связи между блоками текста.
Теперь обучают VLM отвечать в разных форматах на OCR-данных: выписывая весь текст самостоятельно, выписывая координаты текста вместе с ним, используя текст внешнего OCR или напрямую отвечая на вопрос пользователя. Такой grounded‑OCR улучшает извлечение таблиц и списков, а также выполнение задач на поиск контента.
Объём претрейна увеличился с 400 миллиардов до 600 миллиардов токенов, а максимальную длину контекста целенаправленно проучили до 32 тысяч. Это позволяет обрабатыватьдлинные документы и несколько изображений в одном запросе.
Алайнмент
Раньше фотоинпут получался через дообучение поверх базовой VLM Яндекса: это давало продуктовые фичи, но обновления базовой модели требовали пересборки датасетов, а по пути могли проседать базовые навыки (OCR, следование некоторым инструкциям).
В последнем релизе сделали «Алису из коробки»: та же базовая VLM стала Alice AI VLM — моделью, отвечающей пользователю. А датасеты и метрики алайнмента объединили так, чтобы одновременно контролировать показатели как «технической» мультимодальности, так и продуктовой.
Отдельно перенесли сетап RL из текстовой Alice AI LLM. Теперь оптимизируют не только правильность, но и полноту, полезность и проактивность ответа. На потоковой корзине SbS новая версия выигрывает у предыдущей в 63% случаев.
Подробнее об обучении нашей VLM — читайте в соответствующем разделе технического отчёта. Там же можно узнать и об изменениях в других моделях семейства.
Сегодня наша базовая визуально-языковая модель Alice AI VLM dev появились на втором месте в MWS Vision Bench с результатами Overall private test: 0,646 (img→text: 0,885, img→markdown: 0,776, Grounding: 0,060, KIE (JSON): 0,729, VQA: 0,781). Alice AI VLM dev — часть большой Alice AI VLM. Расскажем, как всё обучалось.
Инженеры Яндекса сумели добиться хороших результатов благодаря обучению модели не только под пользовательские сценарии, но и под бизнесовые. Внутри компании используют VLM для автоматизации документооборота, разметок и многого другого. На этих доменах модель обучается как на стадии претрейна, так и на стадии алайнмента.
В сценарии «картинка + вопрос» качество упирается не только в генерацию ответа, но и в то, как модель видит изображение, читает текст на нём и следует инструкции. В продакшене Alice AI VLM работает в связке: «называтель» извлекает объекты и строит их иерархию с учётом текстового запроса, а VLM‑рефразер маршрутизирует запрос либо в основной VLM‑генератор, либо в специализированные ветки (например, «решатель»), либо в Alice AI LLM. Alice AI VLM dev (она же базовая VLM) — это та же модель, которая работает в продакшене как «генератор» и «решатель», но обрабатывающая запросы пользователя напрямую, без предыдущих этапов.
Обучение VLM двухэтапное: на претрейне мультимодальное next‑token-обучение на большом корпусе, а на алайнменте — SFT + RL, где модель доводят до «ассистентского» поведения.
Претрейн
Увеличили Image‑encoder и размер картинки на входе без деградации — с 896×896 до 1024×1024. Благодаря этому выросло качество работы с деталями, вроде формул, таблиц, этикеток и дорожных знаков.
Также переформатировали OCR‑данные. Раньше в датасете часто встречались пары «картинка + весь распознанный текст», что хорошо помогало учить модель непосредственно на чтение, но этого было недостаточно для некоторых других сценариев. Например для задач на понимание логической и пространственной связи между блоками текста.
Теперь обучают VLM отвечать в разных форматах на OCR-данных: выписывая весь текст самостоятельно, выписывая координаты текста вместе с ним, используя текст внешнего OCR или напрямую отвечая на вопрос пользователя. Такой grounded‑OCR улучшает извлечение таблиц и списков, а также выполнение задач на поиск контента.
Объём претрейна увеличился с 400 миллиардов до 600 миллиардов токенов, а максимальную длину контекста целенаправленно проучили до 32 тысяч. Это позволяет обрабатыватьдлинные документы и несколько изображений в одном запросе.
Алайнмент
Раньше фотоинпут получался через дообучение поверх базовой VLM Яндекса: это давало продуктовые фичи, но обновления базовой модели требовали пересборки датасетов, а по пути могли проседать базовые навыки (OCR, следование некоторым инструкциям).
В последнем релизе сделали «Алису из коробки»: та же базовая VLM стала Alice AI VLM — моделью, отвечающей пользователю. А датасеты и метрики алайнмента объединили так, чтобы одновременно контролировать показатели как «технической» мультимодальности, так и продуктовой.
Отдельно перенесли сетап RL из текстовой Alice AI LLM. Теперь оптимизируют не только правильность, но и полноту, полезность и проактивность ответа. На потоковой корзине SbS новая версия выигрывает у предыдущей в 63% случаев.
Подробнее об обучении нашей VLM — читайте в соответствующем разделе технического отчёта. Там же можно узнать и об изменениях в других моделях семейства.
🔥10❤4👍4 2
Это я в такой вайбе под конец года сижу пишу итоги года в статьях и на работу. 2 лайка (от меня и моей бести) и ищу розовые ручки с розовыми помпонами, чтобы сохранять бимбо вайб в 2026
❤24💅11 8🤮2
Релизы зарелижены, поэтому время показать папищекам, что я жива💀 . Все подводят какие-то итоги года, типо New year Вайбик, а у меня Вайбик был повспоминать что принес 2025 год в эйай мир
💅 Закрыли эру «закинем больше денег на компьют и станет хорошо»
В январе китайцы выпустили Deepseak R1 и устроили всем веселую неделю. Модель показала результаты на уровне o1 при заявленных $5.6M на трейн. NVIDIA потеряла 17% за день, твиттер рыдал, а я сидела в кафе в Минске и ахуевала
Главный поинт тут был не в цене, а в том как они это сделали)). Чистый RL без sft на страте + GRPO. Научили модель саморефлексии и перепроверке своих ответов
Отдельно обращу внимание на GRPO. Оно теперь абсолютно везде. В каждом моем дне и сердечке🥹 . Убиваем critic model – экономим до 50% памяти. Advantage считается относительно группы ответов
💅 Test-time compute scaling aka мы думаем дольше, значит это лучше
OpenAI зарядили o1 конечно еще в 2024, но несправедливо будет сказать, что 2025 год – это не год, когда все побежали делать ризонинг🍎 . Идея простая, вместо того, чтобы тренить дольше, надо дольше подумать на инференсе
S1 буквально показали, что можно с 1к примеров + форсингом бюджета (добавляем wait в генерацию, чтобы модель думала дольше) получить результаты уровня o1 на математике. sft на малом количестве семплов активирует capabilities ризонинга, которые были в модели после претрена
💅 Агенты. Как же я дрочу на агентов каждый день на работе
Ну это буквально главная тема 2025 года. Внедрили все компании и продолжают это делать
MCP от Антропика стал де-факто стандартом. Все компании подключились: OpenAI, Google и тд. В декабре Anthropic передали его в Linux Foundation под названием Agentic AI Foundation.
Claude Code, Cursor с background agents, Google Antigravity, AWS Kiro. 2025 стал буквально годом кредо «модель сама все сделает за ночь, пойду попью пиво». Подобие операторов также встраивается повсеместно, когда агентик тыкает курсорчиком вам по экрану
💅 Мультимодальность теперь видится скорее стандартом
Gemini 2.0 вышел с native image output. Не отдельная модель для генерации, а прям в одном потоке с текстом. GPT-4o в марте получил то же самое. Теперь можно в одном conversation и текст и картинки генерить и редактировать. Это меняет UX ужасно. Вместо сгенерируй картинку, а теперь отредактируй, а я потерял контекст начинай заново теперь один multi-turn где модель помнит что делала
💅 Синтетика. К 2030 году ее станет больше обычных данных??
Такое предсказывает Gartner. DeepSeak R1 distillation использует 800k синтетических семплов от большой модели для тренировки маленьких. Microsoft Phi использует синту для ризонинга. Главный риск тут – это model collapse. Когда тренируешь на своём же аутпуте. Но с правильными варификациями и миксовками с настоящими данными будет ок.
💅 Post-training > Pre-training
Теперь если просто скармливать модели ещё больше терабайтов текста, прирост качества уже не такой впечатляющий. Diminishing returns, как говорится. Зато выяснилось где настоящий буст: mid-training и post-training. Mid-training – это когда после основного претрейна добавляешь целевые данные. Типа если я хочу чтобы модель кодила хорошо на питоне, мне стоило бы долить больше подобных качественных данных в эту стадию). А post-training – это финальная доводка через SFT и RLHF.
Тут и появился RLVR. Суть в том, что если есть задачи, где ответ можно проверить объективно. Математика? У ответа есть правильное значение. Код? Можно запустить тесты. Не нужны люди, которые скажут "ну вот этот ответ мне нравится больше". Мы можем просто запускать автоматическую проверку.
💕 💕 💕 💕 💕 💕 💕 💕 💕 💕 💕
Ну и моя скромная номенация на мастхев прочтения за этот год, если вы пропустили достается
Sebastian Raschka State of LLM Reasoning.
Лучший обзор inference scaling
В январе китайцы выпустили Deepseak R1 и устроили всем веселую неделю. Модель показала результаты на уровне o1 при заявленных $5.6M на трейн. NVIDIA потеряла 17% за день, твиттер рыдал, а я сидела в кафе в Минске и ахуевала
Главный поинт тут был не в цене, а в том как они это сделали)). Чистый RL без sft на страте + GRPO. Научили модель саморефлексии и перепроверке своих ответов
Отдельно обращу внимание на GRPO. Оно теперь абсолютно везде. В каждом моем дне и сердечке
OpenAI зарядили o1 конечно еще в 2024, но несправедливо будет сказать, что 2025 год – это не год, когда все побежали делать ризонинг
S1 буквально показали, что можно с 1к примеров + форсингом бюджета (добавляем wait в генерацию, чтобы модель думала дольше) получить результаты уровня o1 на математике. sft на малом количестве семплов активирует capabilities ризонинга, которые были в модели после претрена
Ну это буквально главная тема 2025 года. Внедрили все компании и продолжают это делать
MCP от Антропика стал де-факто стандартом. Все компании подключились: OpenAI, Google и тд. В декабре Anthropic передали его в Linux Foundation под названием Agentic AI Foundation.
Claude Code, Cursor с background agents, Google Antigravity, AWS Kiro. 2025 стал буквально годом кредо «модель сама все сделает за ночь, пойду попью пиво». Подобие операторов также встраивается повсеместно, когда агентик тыкает курсорчиком вам по экрану
Gemini 2.0 вышел с native image output. Не отдельная модель для генерации, а прям в одном потоке с текстом. GPT-4o в марте получил то же самое. Теперь можно в одном conversation и текст и картинки генерить и редактировать. Это меняет UX ужасно. Вместо сгенерируй картинку, а теперь отредактируй, а я потерял контекст начинай заново теперь один multi-turn где модель помнит что делала
Такое предсказывает Gartner. DeepSeak R1 distillation использует 800k синтетических семплов от большой модели для тренировки маленьких. Microsoft Phi использует синту для ризонинга. Главный риск тут – это model collapse. Когда тренируешь на своём же аутпуте. Но с правильными варификациями и миксовками с настоящими данными будет ок.
Теперь если просто скармливать модели ещё больше терабайтов текста, прирост качества уже не такой впечатляющий. Diminishing returns, как говорится. Зато выяснилось где настоящий буст: mid-training и post-training. Mid-training – это когда после основного претрейна добавляешь целевые данные. Типа если я хочу чтобы модель кодила хорошо на питоне, мне стоило бы долить больше подобных качественных данных в эту стадию). А post-training – это финальная доводка через SFT и RLHF.
Тут и появился RLVR. Суть в том, что если есть задачи, где ответ можно проверить объективно. Математика? У ответа есть правильное значение. Код? Можно запустить тесты. Не нужны люди, которые скажут "ну вот этот ответ мне нравится больше". Мы можем просто запускать автоматическую проверку.
Ну и моя скромная номенация на мастхев прочтения за этот год, если вы пропустили достается
Sebastian Raschka State of LLM Reasoning.
Лучший обзор inference scaling
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via...
General reasoning represents a long-standing and formidable challenge in artificial intelligence. Recent breakthroughs, exemplified by large language models (LLMs) and chain-of-thought prompting,...
100❤36👍5🔥5 2
Forwarded from Запрети мне псевдолейблить
Однажды я убил два месяца, пытаясь понять, как писать из Spark, который управляется Airflow в Redis Cluster (101) и в итоге справился. Смешно, но я видимо был первым и последним человеком, который столкнулся с этой проблемой на всем stack overflow.
В итоге, через 23 дня я просто руками перебрал все варианты и сам себе ответил. Проект тот кстати помер, так и не дойдя до релиза, так что о эффективности связки я так и не узнал.
С тех пор я совершенно не перестал дружить разные инструменты в очень странных конфигурациях и встречайте:
Я взял коннектор датадога для Dagster и расширил его функционал так, чтобы он работал ну хотя бы так же гибко, как оригинальный Datadog.
Вы тоже так можете.
Dagster — это оркестратор дата-процессов: штука, которая превращает «кучу джобов/скриптов» в нормальную систему с графом зависимостей, ретраями, расписаниями, параметрами и понятным UI. Нужен, чтобы пайплайны не были магией на кронах: быстро понять, что упало, что именно пересчитать, и чтобы прод не держался на вере и одном человеке. А, ну или если коротко- это Airflow здорового человека и сразу на стерройдах
Datadog — это наблюдаемость “всё в одном”: метрики, логи, трейсы, алерты и дашборды, которые склеивают картину от «почему сервис тормозит» до «вот конкретный запрос и вот строчка лога». Нужен, чтобы дебажить и мониторить прод не по ощущениям, а по телеметрии. Вот мы его и используем, чтобы понять, что какие-то важные продовые джобы померли.
Это наверно не самая горячая связка из двух инструментов, но надеюсь кому-то кроме меня будет полезна. Опять же, изи вклад в популярный инструмент. У меня кстати есть бывший коллега, который в дагстере успел поработать: @nadya_nafig
Делитесь своими изи-контрибьюшнами в комментах. А я пойду убежу 5 немцев подписать петицию о признании вклада в open source как службу обществу.
В итоге, через 23 дня я просто руками перебрал все варианты и сам себе ответил. Проект тот кстати помер, так и не дойдя до релиза, так что о эффективности связки я так и не узнал.
С тех пор я совершенно не перестал дружить разные инструменты в очень странных конфигурациях и встречайте:
Я взял коннектор датадога для Dagster и расширил его функционал так, чтобы он работал ну хотя бы так же гибко, как оригинальный Datadog.
Вы тоже так можете.
Dagster — это оркестратор дата-процессов: штука, которая превращает «кучу джобов/скриптов» в нормальную систему с графом зависимостей, ретраями, расписаниями, параметрами и понятным UI. Нужен, чтобы пайплайны не были магией на кронах: быстро понять, что упало, что именно пересчитать, и чтобы прод не держался на вере и одном человеке. А, ну или если коротко- это Airflow здорового человека и сразу на стерройдах
Datadog — это наблюдаемость “всё в одном”: метрики, логи, трейсы, алерты и дашборды, которые склеивают картину от «почему сервис тормозит» до «вот конкретный запрос и вот строчка лога». Нужен, чтобы дебажить и мониторить прод не по ощущениям, а по телеметрии. Вот мы его и используем, чтобы понять, что какие-то важные продовые джобы померли.
Это наверно не самая горячая связка из двух инструментов, но надеюсь кому-то кроме меня будет полезна. Опять же, изи вклад в популярный инструмент. У меня кстати есть бывший коллега, который в дагстере успел поработать: @nadya_nafig
Делитесь своими изи-контрибьюшнами в комментах. А я пойду убежу 5 немцев подписать петицию о признании вклада в open source как службу обществу.
❤7😁2🤡1
Срочно, отмена, писала итоги года по статьям 2025, а сама пропустила важнейшее исследование 2024. Благо мои коллеги всегда в тонусе и скидывают важные статьи для сообщества в рабочий чат.
The Ballmer Peak: An Empirical Search
Концепция Ballmer Peak появилась в 2007 году и постулирует существование узкого диапазона концентрации алкоголя в крови, при котором способности к программированию резко возрастают. Несмотря на широкое распространение этой идеи в инженерной культуре, до 2024 года не было прямых исследований влияния различных уровней интоксикации на качество кода
Авторы провели эксперимент: 100 задач на LeetCode (easy) при различных уровнях BAC от 0% до 0.2%. Измерялось время решения, фиксировались качественные наблюдения о процессе
Методология работы:
💛 напивали чувака до разных уровней BAC (от 0 до 0.2%)
💛 замеряли время решения задач
💛 записывали наблюдения (пока могли)
Результаты шокировали
Ballmer Peak в оригинальной формулировке НЕ СУЩЕСТВУЕТ. Никакого магического пика на 0.1337% нет НО с p < 0.001 обнаружен реальный эффект: при ~0.043% BAC (примерно полтора пива) задачи решались на 45% БЫСТРЕЕ чем трезвым. После этого всё катится в пропасть. Чем больше пьёшь тем хуже. При 0.2% автор просто вырубился посреди задачи
Ну и важнейшие качественные наблюдения в ходе эксперимента
💛 Пьяный программист дольше держится за «this approach is basically perfect I just need to fiddle with the algorithm a bit» вместо того чтобы попробовать другой подход
💛 Трезвый пытается придумать ёмкую шутку про генераторы списков и вместо дела тратит время на ерунду
💛 Иногда под градусом «просто видит решение» и решает мгновенно, но как только нужен разбор ошибок всё катится к чертям
💛 При высоком содержании алкоголя в крови автор замечал, что покупает чипсы и пытается вспомнить оскароносные фильмы 70-х вместо того, чтобы писать код
📖 статья
P.S. пойду к первой рабочей неделе закуплю по 1.5 пива в день. Кст, рекомендую Duvel, встретимся на сходке в продуктовом
The Ballmer Peak: An Empirical Search
Концепция Ballmer Peak появилась в 2007 году и постулирует существование узкого диапазона концентрации алкоголя в крови, при котором способности к программированию резко возрастают. Несмотря на широкое распространение этой идеи в инженерной культуре, до 2024 года не было прямых исследований влияния различных уровней интоксикации на качество кода
Авторы провели эксперимент: 100 задач на LeetCode (easy) при различных уровнях BAC от 0% до 0.2%. Измерялось время решения, фиксировались качественные наблюдения о процессе
Методология работы:
Результаты шокировали
Ballmer Peak в оригинальной формулировке НЕ СУЩЕСТВУЕТ. Никакого магического пика на 0.1337% нет НО с p < 0.001 обнаружен реальный эффект: при ~0.043% BAC (примерно полтора пива) задачи решались на 45% БЫСТРЕЕ чем трезвым. После этого всё катится в пропасть. Чем больше пьёшь тем хуже. При 0.2% автор просто вырубился посреди задачи
Ну и важнейшие качественные наблюдения в ходе эксперимента
P.S. пойду к первой рабочей неделе закуплю по 1.5 пива в день. Кст, рекомендую Duvel, встретимся на сходке в продуктовом
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁29👍7🔥4❤3🤮1
Я проработала 2 дня и поняла, что мне срочно нужно поправлять ментальное здоровье, скинув много мэмов сюда в канал
Предпоследний это тот кому пишет🎀 она🎀 с последнего: «чел, выходи в 19 после моего последнего мита. Успеем сгонять до сабмита в 23:59 UTC»
#воскрестныйStrongGirlsVibe (почти)
Предпоследний это тот кому пишет
#воскрестныйStrongGirlsVibe (почти)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤29 5
А ЧТО БУДЕТ ЕСЛИ ДАТЬ АГЕНТУ ПОДУМАТЬ ПОДОЛЬШЕ?
Scaling Test-time Compute for LLM Agents
Первое систематическое исследование test-time scaling для языковых агентов. Не для LLM на задачках по математике, а прям для агентов с тулами, мультистепами и тд. Тестировали на GAIA бенчмарке (165 задач, 3 уровня сложности), базовая модель GPT-4.1
Суть проблемы в том, что обычные LLM BoN работают тривиально (сгенерил N ответов, выбрал лучший). В агентах всё сложнее. У нас есть цепочка шагов, ошибки накапливаются, и если ты рандомно генеришь N ответов на каждом шагу, можешь только навредить
Что пробовали и что нашли:
✨ Parallel sampling
BoN, BoN-wise (посттеповый), Beam Search, DVTS. BoN победил всех с 63.03 (baseline 55.76). НО на самых сложных задачах (level 3) лучше всех оказался BoN-wise (38.46), потому что он расширяет пространство поиска на каждом шаге решения, а не просто перезапускает всю траекторию. Beam Search и DVTS почти не дали прироста потому что зависят от точности верификатора при прунинге
✨ Рефлексия
вот тут самое вкусное. Сделали модель RefM, которая суммаризирует предыдущие шаги и подсказывает агенту. Рефлексия НА КАЖДОМ ШАГЕ слегка УХУДШИЛА результат (55.15 vs 55.76). Модель сбивается с мысли от постоянного самоанализа. Но если рефлексировать только на плохих шагах (score < 2) результат растёт до 56.36.
✨ Мерджинг результатов
Тестили три подхода: voting (голосовалка большинством), scoring (верификатор ставит оценку каждому), list-wise (LLM видит все варианты сразу и выбирает лучший). List-wise уверенно победил и в мерджинге финальных ответов, и в верификации промежуточных шагов. Прямое сравнение вариантов оказалось эффективнее, чем независимая оценка каждого
✨ Multi-agent diversity
микс из разных SOTA моделей (GPT-4.1 + Claude-3.5 + Claude-3.7 + Gemini-2.5-PRO) даёт Pass@4 = 74.55, что выше open-source SOTA. Разные модели хороши в разном. Кто-то лучше кодит, кто-то лучше с тулами, и в итоге ансамбль разнородных моделей покрывает больше кейсов, чем 4 копии одной модели
Статья разъеб. Пару моментиков есть чтобы забрать в экспы + пересекается с тем, что я буду рассказать на OpenTalks в конце февраля (об этом в следующем посте). Схожесть в проблематике и ее решении. Авторы по сути нашли, что credit assignment в мультистеповых агентах это ключевая проблема, и решают её на инференсе через selective reflection и list-wise verification. То же самое мы в команде решали на трене через умную группировку наград
📖 Папир
🖥 Код
Scaling Test-time Compute for LLM Agents
Первое систематическое исследование test-time scaling для языковых агентов. Не для LLM на задачках по математике, а прям для агентов с тулами, мультистепами и тд. Тестировали на GAIA бенчмарке (165 задач, 3 уровня сложности), базовая модель GPT-4.1
Суть проблемы в том, что обычные LLM BoN работают тривиально (сгенерил N ответов, выбрал лучший). В агентах всё сложнее. У нас есть цепочка шагов, ошибки накапливаются, и если ты рандомно генеришь N ответов на каждом шагу, можешь только навредить
Что пробовали и что нашли:
BoN, BoN-wise (посттеповый), Beam Search, DVTS. BoN победил всех с 63.03 (baseline 55.76). НО на самых сложных задачах (level 3) лучше всех оказался BoN-wise (38.46), потому что он расширяет пространство поиска на каждом шаге решения, а не просто перезапускает всю траекторию. Beam Search и DVTS почти не дали прироста потому что зависят от точности верификатора при прунинге
вот тут самое вкусное. Сделали модель RefM, которая суммаризирует предыдущие шаги и подсказывает агенту. Рефлексия НА КАЖДОМ ШАГЕ слегка УХУДШИЛА результат (55.15 vs 55.76). Модель сбивается с мысли от постоянного самоанализа. Но если рефлексировать только на плохих шагах (score < 2) результат растёт до 56.36.
Цитата из статьи, которую я выделила, пока читала: knowing when to reflect is more important than reflecting at every step.
Тестили три подхода: voting (голосовалка большинством), scoring (верификатор ставит оценку каждому), list-wise (LLM видит все варианты сразу и выбирает лучший). List-wise уверенно победил и в мерджинге финальных ответов, и в верификации промежуточных шагов. Прямое сравнение вариантов оказалось эффективнее, чем независимая оценка каждого
микс из разных SOTA моделей (GPT-4.1 + Claude-3.5 + Claude-3.7 + Gemini-2.5-PRO) даёт Pass@4 = 74.55, что выше open-source SOTA. Разные модели хороши в разном. Кто-то лучше кодит, кто-то лучше с тулами, и в итоге ансамбль разнородных моделей покрывает больше кейсов, чем 4 копии одной модели
Статья разъеб. Пару моментиков есть чтобы забрать в экспы + пересекается с тем, что я буду рассказать на OpenTalks в конце февраля (об этом в следующем посте). Схожесть в проблематике и ее решении. Авторы по сути нашли, что credit assignment в мультистеповых агентах это ключевая проблема, и решают её на инференсе через selective reflection и list-wise verification. То же самое мы в команде решали на трене через умную группировку наград
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19🔥4🥴2 1