ML Underhood

Постеры — хорошо, а что там на оралах?

А там — не менее интересно. Несём несколько обзоров, сделанных по горячим следам выступлений.

Is it Thinking or Cheating? Detecting Implicit Reward Hacking by Measuring Reasoning Effort

Работа о скрытом взломе награды у ризонинг-моделей. Идея: модель может получать высокий reward не потому, что честно решает задачу, а потому что эксплуатирует «лазейку».

Авторы рассматривают два типа loophole:
1) лазейка в контексте — утёк нужный сигнал или ответ;
2) лазейка в проверке награды — сам verifier / reward можно обмануть.

Признак такого поведения — когда модель проходит задачу только при наличии лазейки, а без неё разваливается.

Для детекции предлагают TRACE: обрезают цепочку рассуждений на разных процентах, форсят ранний ответ и смотрят, как рано модель может получать высокий reward. Если reward высокий уже при раннем обрыве, значит ответ, скорее всего, найден через shortcut, а остальная цепочка рассуждений декоративная.

По результатам TRACE — лучше обычного мониторинга по цепочке рассуждений и лучше ловит такие случаи в задачах по математике и коду.

Gaia2: Benchmarking LLM Agents on Dynamic and Asynchronous Environments

Meta* обновила популярный бенч Gaia. Новая версия Gaia2 оценивает агентов в динамической и асинхронной среде, а не в статичных задачах вида «запрос -> ответ». Теперь задача — это полноценный сценарий с течением времени, событиями и изменяемым состоянием (приложения, уведомления, ответы пользователей), где агент должен планировать, ждать и адаптироваться.

Оценка тоже другая: вместо финального ответа смотрят на последовательность действий агента. Учитываются только действия, которые меняют состояние, и они сравниваются с эталонным графом действий (oracle DAG). Проверяется правильность шагов, порядок, тайминг и полнота выполнения. Это позволяет измерять не текст, а реальное поведение агента в длинных сценариях с инструментами и событиями.

How Learning Rate Decay Wastes Your Best Data in Curriculum-Based LLM Pretraining

Авторы рассуждают о проблеме curriculum learning для LLM: если модель видит более качественные данные ближе к концу обучения, стандартный learning rate decay может почти «обнулить» пользу от этих данных. То есть лучшие данные приходят поздно, но именно в этот момент learning rate уже слишком мал. В итоге модель получает более чистый сигнал, но почти не способна существенно обновиться.

Как решение предлагают Curriculum Model Averaging (CMA): сохранить более высокий learning rate на поздней стадии, а шум и нестабильность компенсировать усреднением последних чекпоинтов. Такой подход позволяет продолжать извлекать пользу из качественных данных и одновременно снижать variance финальной модели. Как результат, одна только curriculum-стратегия не помогает, один только model averaging тоже не помогает. Но их комбинация даёт прирост.

Послушали и записали

❣

Даниил Беликов и Ярослав Ведерников

#YaICLR26

ML Underhood
__
Компания Meta признана экстремистской; её деятельность в России запрещена.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤16🔥9❤‍🔥6👍1

2.42K views08:02

ML Underhood

Свежая партия интересностей с ICLR

Конференция закончилась, а ~~ты ещё нет~~ обзоры докладов ещё нет.

AnyBCQ: Hardware Efficient Flexible Binary-Coded Quantization for Multi-Precision LLMs

Для максимальной эффективности инференса может быть полезно выбирать точность прогоняемой модели на лету. Простые фрагменты промпта или генерации можно прогонять через более квантизованную модель, а при переходе к сложным — вызывать модель в точности повыше. Однако хранить много версий модели в разных битностях накладно по памяти, а хотелось бы занимать места не больше, чем самая высокая битность.

В работе AnyPrecisionLLM предложили способ получать модели разной точности. Но используемое представление весов требовало довольно дорогостоящих операций транспонирования и считывания значений из таблицы.

В AnyBCQ, в свою очередь, предлагают использовать бинарную кодировку весов модели, когда каждый параметр квантизуется поразрядно в -1 или 1. На инференсе достаточно собрать требуемое число разрядов и сложить. Благодаря этому операция деквантизации становится довольно дешёвой. В итоге получают качество не хуже хорошей квантизации в фиксированную битность и при этом имеют достаточно быстрый инференс.

Compute-Optimal Quantization-Aware Training

Команда из Apple провела исследование того, как правильно распределять бюджет между обучением в полной точности и quantization-aware training, чтобы при фиксированном бюджете обучения выжать наилучшее качество.

Обыкновенно доля, выделяемая на QAT, зафиксирована вручную (например, 10%), но авторы замечают, что целесообразно её подстраивать под битность и продолжительность обучения:

• больше модель — меньше QAT;
• меньше битность — больше QAT;
• дольше учим — больше QAT.

Учат модели в разных битностях: от 1 до 6, вплоть до 2,3 миллиарда параметров и 1,4 триллиона токенов. Оптимальная стратегия позволяет сэкономить вычисления в два раза при 1-битном обучении.

MrRoPE: Mixed-radix Rotary Position Embedding

Новый — по утверждениям авторов — SotA-метод интерполяции ротари без дообучения для улучшения качества длинного контекста.
Формально, авторы интерпретируют вектора θ, соответствующие позициям m, как числа, заданные в rotix-смешанной системе отсчёта, и вводят кумулятивные коэффициенты для неё. Фактически заменяют линейную функцию изменения скейл-фактора YaRN на экспоненциальную со специфичными коэффициентами и немного меняют правила подбора диапазона частот для Qwen2.5 (для Llama3.1 оставляют как в YaRN).

Авторы решили замеряться только на длинных бенчмарках, где доминируют над обычным YaRN в большинстве случаев — и на Qwen, и на Llama.

Из минусов: фактически тестировали базовый YaRN против своего метода, в котором перебирали достаточное количество гиперпараметров. Это делает сравнение не до конца честным — особенно с учётом того, что для обеих моделей были разные оптимальные параметры.

Интересное увидели ❣ Денис Кузнеделев и Борис Груздьев

#YaICLR26

ML Underhood

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8🔥6👍1

2.27K views09:42

ML Underhood

ICLR 2026: подборка трендов от CTO Яндекс Поиска

Екатерина Серажим рассказала об агентских системах и связанных с ними подходах к обучению и оптимизации моделей.

Отношение к агентским системам стало более «взрослым»: не как к набору эвристик вокруг модели, а как к полноценной инженерной системе, где каждый компонент заслуживает внимания и постепенно становится отдельным объектом оптимизации.

1. Написание промптов превращается в ML-задачу

Понравилась линия работ вроде GEPA и ACE. Главная мысль: промпт — это уже не «текст, который хорошо написал человек», а оптимизируемый компонент системы.

В GEPA промпт улучшают эволюционным алгоритмом, но мутации придумывает не случайность, а LLM-рефлектор: он смотрит на траектории текущего кандидата (рассуждения, вызовы инструментов, ответы), формулирует на естественном языке, что пошло не так, и на основе этой критики предлагает правку c красивым названием — natural language reflection. Кандидаты держатся на Pareto-фронте по разным задачам, чтобы отбор не схлопывал разнообразие в один «усреднённо хороший» промпт.

На фото — «было-стало»: стартовый промпт и тот, до которого дошла система.

ACE расширяет эту идею: оптимизировать можно не только промпт, но и рабочий контекст агента — инструкции, память, накопленные стратегии. Мне понравилась формулировка context as an evolving playbook: контекст не переписывается целиком (что ведёт к потере деталей), а обновляется инкрементально: новые наблюдения добавляются, старые — уточняются или удаляются.

2. Оптимальный выбор примеров для обучения

Хорошая мысль — обучать модель на примерах из «зоны её ближайшего развития». Слишком простые примеры не развивают — модель и так хорошо умеет их решать. Слишком сложные — тоже плохо: модель не может извлечь из них стабильный сигнал. Самые ценные — те, где модель уже почти может, но ещё ошибается.

Ниже — несколько докладов примерно на эту тему.

В работе Prompt Curriculum Learning авторы показывают, что задачи промежуточной сложности — где модель имеет около 50% вероятности успеха — оказываются наиболее эффективными. Предлагают PCL — алгоритм, в котором обученная value-модель за один forward pass предсказывает вероятность, что текущая политика справится с промптом, и отбирает в батч примеры с вероятностью ~0,5. Value-модель обучается параллельно с политикой, поэтому понятие «средней сложности» сдвигается вместе с ростом модели.

Похожая, но с другим механизмом — работа Actor-Curator. Идея в том, чтобы обучить модель-«куратора», которая отбирает не просто сложные или лёгкие примеры, а те, что должны дать максимальный прирост качества текущей модели.

Ещё одна интересная работа — Cram Less to Fit More — о том, что у модели есть ограниченная «память» на факты. Если пытаться запихнуть в обучение слишком много фактической информации, она начинает запоминать хуже. Авторы показывают, что иногда лучше не добавлять всё подряд, а аккуратно отбирать данные — тогда модель удерживает больше полезного.

В целом это рифмуется с DATA-FM invited talk Baharan Mirzasoleiman — о том, что для SFT/RL нужно не просто «больше данных», а данные правильной сложности и разнообразия.

3. Для tool-calling-агентов можно оценивать не только финальный ответ

Если агент ответил правильно, это ещё не значит, что он хорошо пользовался инструментами. Может быть, поиск вообще был не нужен. Или поиск был нужен, но запрос был плохой. Идея в том, чтобы оценивать тулколы независимо: был ли вызов инструмента нужен, был ли он полезен, улучшил ли вероятность правильного ответа. В Tool-call Reward Model предлагают делать реворд на уровне каждого вызова инструмента.

4. О выборе рецепта обучения

Percy Liang красочно рассказал о Marin — опенсорсном проекте, где с нуля обучили 32B-модель. В докладе много интересного о факапах, практические рецепты обучения, scaling laws, и то, как их вывели. Автор постулирует открытость — не только весов, но и всего процесса обучения модели. Команда Marin открыла даже свою очередь тикетов.

#YaICLR26

ML Underhood

❤27🔥17❤‍🔥8👍7💩2

4.45K views14:52

ML Underhood

Ещё несколько мыслей про ICLR 2026

Конференция, которая закончилась в Рио, оставила после себя много впечатлений и любопытных мыслей. Ими сегодня поделится с нашим каналом СТО поисковых сервисов и ИИ Яндекса Алексей Гусаков.

RL сейчас становится одним из самых дорогих и плохо предсказуемых этапов после претрейна — особенно, если много генерировать длинные reasoning/tool-calling-траектории. Допустим, мы используем GRPO: берём батч запросов, и для каждого сэмплируем G траекторий/ответов. Для них считаем reward, а advantage определяется относительно остальных ответов на тот же запрос.

Если запрос слишком лёгкий или слишком сложный, все G ответов могут получить одинаковый reward — например, все правильные или все неправильные. Тогда такой пример даёт мало полезного RL-сигнала. Помимо этого, цепочки генерировать дорого, а длинные — очень дорого. Несколько классов идей о борьбе с этим:

1. Curriculum — идея не новая. Давайте растить сложность запросов в процессе улучшения модели. Есть много вариантов, как это делать. Один из них — использовать трансформерное предсказание сложности и бандитов. Думаю, конкретная реализация не так важна, главное, что при смешивании множества RL-сред в одном обучении единой модели нужно иметь хорошие мониторинги доли успехов по каждой задаче и бороться, если возникает проблема.

2. Генерировать роллауты не каждый раз с нуля, а начинать с префиксов предыдущих. Тогда можно получить больше бит информации на единицу компьюта и получить дерево траекторий. Для внутренних вершин дерева можно подсчитывать статистику успехов и использовать для process reward.

3. В случае, если основной тул в цепочках — это web search, то можно отдельно оценивать, насколько очередное добавление в инфоконтекст полезно: нельзя ли было дать ответ без него и продвинуло ли оно к правильному ответу (observation reward).

Комбинация второго и третьего подходов заставила меня вспомнить AlphaZero, где модель предсказывает распределение по возможным ходам P и оценку позиции Value. Затем Tree Search строит дерево и получает более информативную статистику по ходам, после чего модель учится приближать результаты этого Tree Search.

В LLM-случае «ход» — это не дискретный шахматный ход, а кусок reasoning плюс очередной tool call, плюс observation, и пространство ходов не только больше, но и гораздо менее структурированное. Напрямую не используешь, но точно интересно подумать над экспериментами, где после генерации скольки-то роллаутов из позиции переранжируем их по process и observation reward.

4. Scaling recipes плюс scaling laws для RL. Тема неплохо изучена для претрейна. В Meta* считают, что у них работает для RL. Scaling там устроен по-другому — имеет форму сигмоиды и можно экстраполировать качество с малых запусков на более крупные. Если правда работает, точно надо использовать — особенно, когда смешиваем несколько RL-сред для понимания, сколько нужно тратить компьюта на оптимизацию каждой.

И немного о том, как всё (или почти всё) успеть на конференции.

Чтобы повысить продуктивность, к каждому дню нужно готовиться минимум по паре часов, составляя с LLM-ассистентом план того, что хочешь посетить. Помогают промпты в стиле «Завтра утренняя постер-сессия на ICLR, интересны такие-то темы, в основном топовые лабы, раньше были интересны такие-то работы. Что посмотреть?» Дальше фильтруешь, просишь отсортировать постеры, часть просишь удалить, а где-то предлагаешь добавить. Затратно, но зато не просто бродишь, читая бесконечные названия статей.

#YaICLR26

ML Underhood
__
Компания Meta признана экстремистской; её деятельность в России запрещена.

❤12👍9🔥7😁2👏1

2.14K views13:44

ML Underhood

Немного о погоде в Рио

Вернее, не в Рио, а на прошедшей ICLR. И не то чтобы о погоде — о статьях, связанных с её прогнозированием. Руководитель группы ML в Яндекс Погоде Пётр Вытовтов поделился мыслями о трендах и занятными публикациями на тему. Слово Петру.

Первое, что я заметил, ещё до приезда в Рио, что в этом году на ICLR было заметно больше погодных работ, чем раньше. С одной стороны, это хорошо, что область погодного ML развивается. С другой — конкуренция растёт, и надо постоянно больше и качественнее работать, чтобы успевать за отраслью и сохранять лидирующие позиции. Основная масса работ была по двум направлениям: foundation-погодные модели и наукаст.

А теперь к самим статьям.

Task-Adaptive Parameter-Efficient Fine-Tuning for Weather Foundation Models

Есть такое направление, как тюнинг fountation-погодных моделей под различные downstream-задачи. Это связано с тем, что для финальной решаемой задачи не всегда необходимо моделировать с хорошим качеством всю атмосферу, но при этом всё-таки хочется учитывать эту информацию. Поэтому можно подтюнить модель под необходимый параметр и немного принебречь качеством остальных.

Здесь авторы предлагают не тюнить модель целиком, а использовать, так называемый, обучаемый soft prompt, чтобы говорить модели, какую именно задачу она должна сейчас решать. Утверждается, что модель хорошо учится с ним работать. Авторы проверяли работу своего подхода поверх модели Aurora от Microsoft и получили хорошие результаты для задач super-resolution, прогноза осадков и постпроцессинга ансамблевых прогнозов.

Идейно подход выглядит интересно, но пока он проверялся только на грубом разрешении сетки, и не совсем понятно как этот подход себя покажет на продовых моделях.

Extreme Weather Nowcasting via Local Precipitation Pattern Prediction

Если рассматривать наукаст, как задачу перемещения существующих осадков, то она — по большей части — уже решена. Но есть две открытых проблемы в этой области: возникновение новых осадков и прогноз экстремальных значений. Здесь авторы концентрируются на второй подзадаче.

Они делают предположение, что одна из причин плохого восстановления сильных осадков — структура декодера, и предлагают его модификацию. При этом в работе сравнивают разные варианты того, как можно делать апсемплинг картинки в процессе декодирования. Интересно, что авторы — одни из немногих, у которых Фурье-лосс для задачи наукаста заработал лучше стандартно используемых MSE и MAE.

Авторы проверялись на стандартных датасетах SEVIR и MeteoNet, а также на их собственном KMA, который должен быть публично доступен. Не во всех сетапах удалось получить SotA, но картинки выглядят заметно чётче по сравнению с аналогами.

#YaICLR26

ML Underhood

❤8👍6🔥5

2.1K views13:04

ML Underhood

Как мы научили модель понимать структуру архивных записей

В Поиске по архивам появилась новая модель, которая не только распознаёт текст, но и извлекает связи между людьми — например, определяет, кто в документе отец, мать, жених, невеста, свидетель и прочее. Это умение очень важно, чтобы действительно помогать пользователям находить родственников.

Дарья Виноградова, руководитель команды универсального применения компьютерного зрения в Яндексе, и Анна Сидорова, главный разработчик распознавания архивов, рассказали на Хабре, почему универсальные VLM-модели не подошли для этой задачи и как удалось перейти от распознавания текста к извлечению структуры и смысла из документов.

Как было раньше

Прошлая версия системы представляла собой классический OCR-пайплайн. Детектор находил на скане строки, OCR-модель распознавала их по отдельности, а другая модель собирала в текстовые блоки.

Поиск работал в основном по текстовым совпадениям. Из-за этого вместе с нужными данными в выдачу попадали имена священников, номера записей, служебные пометки и другие нерелевантные части документа. Со временем проблемы стали чаще возникать на уровне структуры документа — из-за разбиения текста на строки и последующей склейки.

Как модель научили понимать структуру документов

В новой версии OCR остаётся отдельным этапом, но сам пайплайн строится уже вокруг структуры документа.

По сути, перед нами стояла KIE-задача (Key Information Extraction) — нужно было по изображению документа извлекать ключевую информацию о людях и их ролях. Но довольно быстро стало понятно, что работать со страницей целиком не получится. Типичный архивный скан имеет размер больше 2500 пикселей по стороне, содержит сразу несколько записей, а суммарно в них может упоминаться до 35 человек. Такой объём информации слишком большой и для модели, и для обучения. Поэтому мы решили сначала находить на странице отдельные записи — о рождении, браке или смерти — а уже потом извлекать информацию о людях из каждой выделенной области.

Для этого используют дообученную VLM‑модель Alice AI. Она получает изображение записи вместе с текстом от OCR и извлекает из документа структуру и связи между людьми. Ключевая метрика — доля людей, которых затем можно корректно найти по ФИО в сервисе. По ней модель достигает качества 90,5% на всех типах архивных записей.

Как усовершенствовали OCR

Параллельно команда перешла от строкового OCR к блочному. Так удалось убрать целый этап сборки строк в блоки, сократить количество моделей в пайплайне и уменьшить объём дополнительного процессинга при обработке сканов.

Однако переход к блочной архитектуре сильно усложнил требования к детектору. Если раньше ошибка означала, что какие-то строки просто плохо склеятся, то теперь модель рисковала целиком потерять нужный фрагмент документа.

При этом сами блоки оказались очень разными по размеру: модель могла получить как маленький кусок с одним словом, так и огромный фрагмент на много строк. Из-за этого команде пришлось отдельно дорабатывать энкодер и оптимизировать токенизацию — иначе обработка больших блоков становилась слишком дорогой по вычислениям.

После перехода на новый OCR-пайплайн recall распознавания вырос до 93,2% на основной выборке и до 88,1% — на сложной.

Детали реализации и сложные кейсы распознавания вы найдёте в полной версии статьи.

ML Underhood

❤18🔥15👍8🥰2🤣1

2.76K views11:14

ML Underhood

0:19

This media is not supported in your browser

VIEW IN TELEGRAM

Как прошёл первый день ICRA 2026 в Австрии

Не успели инженеры Яндекса стряхнуть бразильскую пыль с сапог после ICLR, как в Вене стартовала ICRA 2026 — одна из главных мировых конференций по робототехнике и автономным системам. Наши коллеги уже на месте, а это их впечатления от первого дня.

Максим Спорышев, руководитель службы поведения и предсказания движения в Автономном транспорте Яндекса:

Один из основных воркшопов в первый день был целиком посвящён теме reinforcement learning в робототехнике. Рассказывали о разных вариантах претрейна на демонстрационных данных (IL, Offline RL), как делать ризонинг в embodied-моделях, sim2real/real2sim, world modelling. Основные кейноуты, постеры и выставки начинаются во второй день, чего мы очень ждём!

Егор Волков, разработчик группы претрейна модели планирования движения в Автономном транспорте Яндекса:

На воркшопе по автономным автомобилям, организованном Мюнхенским университетом, рассказали о новых симуляторах для обучения World Engine и AlpaSim, а также поделились планами выложить в опенсорс весь пайплайн автономного автомобиля.

Другой интересный воркшоп первого дня — о предсказании траекторий пешеходов. Обсудили ключевую сложность задачи: движение пешехода зависит от взаимодействия с машинами и того, что он считает безопасным. К сожалению, прорывных решений проблемы пока не предложили.

В целом, поражает количество компаний и стартапов, которые специализируются на роборуках, манипуляторах и прочем. Масштаб интереса к этой области огромен.

Впереди ещё несколько дней конференции. Технические разборы и подборки интересных работ будем публиковать в @DriverNotFound.

#YaICRA26

ML Underhood

❤19🔥13❤‍🔥10🥰2👍1🤔1

1.46K views11:20

ML Underhood

0:28

This media is not supported in your browser

VIEW IN TELEGRAM

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

0:23

This media is not supported in your browser

VIEW IN TELEGRAM

ICRA — день второй, насыщенный

Вена продолжает удерживать статус столицы робототехники — по крайней мере, на время проведения конференции. Вот что интересного увидели, услышали и узнали на мероприятии.

• В задаче генерации сцены предлагают EP-Diffuser. Модель похожа на MotionDiffuser, но использует полиномы в качестве входов и выходов диффузера (в отличии от MotionDiffuser, где вход — сырые вектора, а выход — PCA компоненты).
• Много статей об автоматической парковке: есть end-to-end-решения и подходы с декомпозицией задачи на предсказание интентов агентов и дальнейшую генерацию траектории, согласованной с интентами агентов.
• Несколько работ посвящены предсказанию опасных траекторий. Например, манёвров перестроения с подрезанием автономного автомобиля для последующей проверки в симуляции.
• Одни авторы собрали целый мини-город в масштабе 1:15 для тестирования планера.

Бонусом — пачка весёлых роботов: они играют в казике, гоняют мячик и машут крыльями.

Ну и напоминаем, что если хотите почитать больше разборов с ICRA, подписывайтесь на наш канал @DriverNotFound. Там в ближайшее время будет прямо много ИКРЫ. Простите, пожалуйста.

Интересное увидели ❣ Егор Волков и Максим Спорышев

#YaICRA26

ML Underhood

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8❤‍🔥7🔥4

1.44K views16:19

ML Underhood

Какие ML-тренды принесла прошедшая ICLR 2026

О собаках на постерах и моде на микростенды мы уже писали. Но на конференции были замечены и другие (более серьёзные) тренды, о которых рассказали на Хабре Мария Никифорова, старший разработчик службы качества претрейна YandexGPT, и Дарья Шатько, руководитель ML в Yandex Crowd. Делимся главным.

Агентские системы — везде и всюду

2026-й стал для ICLR годом автономных агентов. Фокус исследований сместился с отдельных моделей на проектирование долгоживущих агентских систем, которые могут планировать на несколько шагов вперёд, выстраивать сложные цепочки зависимых вызовов инструментов, накапливать память и опыт, поддерживать мультиагентность и даже эволюционировать без дообучения базовой модели.

Новые подходы к развитию памяти агентских систем

Простое расширение контекстного окна до миллионов токенов не решило проблему памяти агентских систем. Большая история диалога зашумляет контекст, увеличивает вычислительную сложность и ведёт к деградации качества ответов. На ICLR оформился тренд: агенту нужна управляемая, структурированная память, способная к компрессии и абстрагированию опыта. На конференции было много подходов на эту тему, и среди них можно выделить два особенно интересных. Первый — переход от сырых трейсов к семантическим графам знаний. Второй — многоуровневая компрессия памяти и предсказание пользовательского интента.

Speculative Execution в агентах

Чем автономнее становятся агенты, тем сильнее растёт latency. Если нужно последовательно вызвать несколько инструментов, дождаться ответов, сделать выводы и спланировать следующий шаг, инференс растягивается на десятки секунд. Исследователи предложили перенести фундаментальный принцип спекулятивного выполнения (Speculative Execution) из многопоточных CPU и спекулятивного декодирования LLM на уровень агентской оркестрации.

Интерактивные среды — новый стандарт оценки агентов

Обычные бенчмарки с вопросом и правильным ответом всё хуже отражают реальные способности агентских систем. Агент может ошибиться не только в финальном ответе — он также может выбрать не тот инструмент, плохо спланировать шаги, зациклиться, неправильно понять состояние среды или сломаться из-за изменений интерфейса.

На смену привычным тестам с фиксированным инпутом и golden-ответом пришли динамические платформы, которые изолируют агента в интерактивном окружении и замеряют его живучесть на долгих задачах. В основном исследователи фокусировались на трёх вещах: поведении агента на длинных горизонтах, стратегии сбора информации и устойчивости к изменениям UI и среды.

RL учит поведению, а не ответам

RL для агентских систем перестает быть способом дообучить модель на правильный финальный ответ. Теперь систему учат правильно вести себя в процессе: исследовать среду, пользоваться памятью, выбирать инструменты, общаться с пользователем и не делать лишних действий.

Текстовая диффузия выходит в прод

Ещё недавно Diffusion LLMs воспринимались как необычная альтернатива авторегрессионным LLM, но к ICLR 2026 она уже оформилась в заметное направление. Теперь изучают не то, работает ли это вообще, а более практичные вещи: как масштабировать DLM, при каких режимах обучения они ведут себя лучше авторегрессионных моделей, и в каких задачах не-авторегрессионная параллельная генерация действительно даёт преимущество.

Продолжаем экономить компьют

По мере роста моделей и датасетов эксперименты становятся всё дороже. Исследователи чаще оптимизируют сам процесс разработки: какую смесь данных брать, какие гиперпараметры переносить на большой масштаб, как понять, какие примеры реально повлияли на поведение модели.

На ICLR особенно выделялись два направления: 1) data selection — поиск максимально полезных данных в рамках ограниченных экспериментов, 2) ускорение инференса моделей.

В наш пост уместился только верхенеуровневый рассказ о заметных тенденциях, а в полной статье вы найдёте ещё и структурированную подборку работ по каждой теме.

#YaICLR26

ML Underhood

❤10🔥6💘5👍2👏1

683 views11:05

About

Blog

Apps

Platform