Душный NLP

DMPO — модификация DPO

Сегодняшняя статья — о Direct Multi-Turn Preference Optimization. Это модификация DPO, которая позволяет получить лучшие результаты. Но не всё так просто.

Традиционный DPO заточен на работу с парами «префикс и суффикс» — то есть запрос пользователя и ответ. Авторы статьи задались целью распространить его на длинные цепочки. Однако в публикации работают не диалогами, а с окружением из трёх датасетов: ALFWorld, WebShop и ScienceWorld.

Скажем, в ScienceWorld агенту даётся задание — например, выяснить, обладает ли металлическая вилка электропроводностью — и текстовое представление нескольких «комнат» с разными объектами. С ними можно выполнять некоторые действия, чтобы достигнуть поставленной цели. В ScienceWorld задачи чуть сложнее, чем, например, в ALFWorld, где может потребоваться, к примеру, просто убрать посуду в шкаф.

Авторы статьи отмечают, что при обучении на цепочках использование стандартной формулы для KL-дивергенции приводит к большой накопительной ошибке. Поэтому они обращаются к State-Action Occupancy Measure (SAOM). Суть этого метода заключается в модификации обычного RL-лосса (изображение 1), введении дисконта так, чтобы у более ранних шагов был больший вес.

Формула SAOM добавляется в формулу DPO вместо KL-дивергенции, после чего авторы добавляют нормализацию на длины траекторий и получают ещё одну формулу (изображение 2). Согласно ей, каждый следующий шаг в диалоге меньше влияет на лосс.

Такова основная идея статьи, но самое интересное — это эксперименты. Авторы проводили SFT-модели на датасетах, о которых сказано выше, а затем проводили тесты на других кусках этих же датасетов и определяли, успешно ли справилась модель.

Далее есть два сетапа. Первый — Noisy (RQ1) — включает все безуспешные траектории в качестве негативов. Как позитивные примеры используются не успехи модели, а экспертные траектории из датасетов. Для clean-сетапа (RQ2) отфильтровывают noisy-траектории (как именно, не сообщают) и выбирают высококачественные в качестве проигравших.

DMPO в RQ2 даёт весьма ощутимый прирост относительно SFT (изображение 3), а в RQ1 различия не столь ощутимы. Хотя метод авторов статьи всё ещё побеждает. При этом DMPO, по их словам, «не убивает» длину цепочек.

Разбор подготовил ❣ Сергей Дуликов

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥14👍6❤1

4.42K views09:30

Душный NLP

Cognitive Behaviors that Enable Self-Improving Reasoners, or, Four Habits of Highly Effective STaRs

Сегодня разберём статью от группы исследователей из Стэнфордского университета про когнитивное поведение. Авторы выясняют, при каких условиях модель становится self-improving reasoner: то есть, может учиться находить правильное решение без специальной разметки.

Test-time compute scaling — довольно мощная парадигма для задач, которые требуют рассуждения. Для DeepSeek-R1-Zero было показано: обучаясь решать задачи по математике и программированию, модель самостоятельно учится генерировать цепочки рассуждений. В этой статье авторы применяют тот же принцип к моделям Qwen-2.5-3B и Llama-3.2-3B с одинаковым сетапом обучения (RL+GRPO) для задачи Countdown.

Countdown — это когда из нескольких чисел с помощью стандартных арифметических операций (сложение, вычитание, умножение и деление) нужно получить целевое число. Как видно из графиков, модель Qwen довольно быстро достигла неплохого качества, в то время как Llama сходится медленнее и работает хуже. Проанализировав результаты, авторы обнаружили четыре главных когнитивных паттерна для решения логических задач:

— Verification. Проверка, верно ли логически выдвинутое рассуждение.
— Backtracking. Отказ от бесперспективных подходов.
— Subgoal setting. Разделение сложных задач на более простые подзадачи.
— Backward chaining. Подход от конца к началу: попытка понять по ответу, какие действия подходят к нему.

Эти паттерны вполне соответствуют человеческой логике. Авторы предположили, что обучающая выборка Qwen содержит в том или ином виде четыре ключевых паттерна, а Llama — нет. Чтобы научить Llama вышеописанным паттернам, авторы сгенерировали мощной проприетарной моделью (Claude 3.5 Sonnet) небольшой датасет с этими паттернами.

Оказалось, что дообучение на небольшом количестве таких примеров приводит к существенному приросту качества работы Llama для задачи Countdown: оно сравнялось с Qwen.

Примечательно, что итоговое качество не снижают даже примеры с неправильными ответами в обучающей выборке. Это говорит о том, что демонстрация когнитивного поведения важнее правильных ответов.

Разбор подготовил ❣ Денис Кузнеделев

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

👍19🔥5🤯3

3.63K views13:46

Душный NLP

Параллельная генерация с Hogwild! Inference

Сегодня — статья инженеров Yandex Research, HSE и IST Austria. Речь в публикации идёт о Hogwild! Inference — движке параллельного инференса для LLM.

Авторы задались целью ускорить выполнение задачи одной моделью за счёт параллельной генерации. При этом инференс должен был оставаться интуитивно простым, а фреймворк — достаточно гибким, чтобы сделать эффективной коммуникацию между параллельными ветками генерации. Наконец, авторы стремились к тому, чтобы характер взаимодействия инстансов зависел в первую очередь от самой модели, а не от фреймворка параллельной генерации, то есть оставить принцип параллельной работы на откуп самим моделям.

Метод Hogwild! Inference предполагает использование нескольких экземпляров LLM — они называются «рабочими» (workers), — которые выполняют одну задачу параллельно, синхронизируясь через общий KV-кэш. Это позволяет им видеть и учитывать генерации друг друга в реальном времени. Идея в том, чтобы дать моделям возможность самим организовывать координацию без заранее заданных правил взаимодействия.

В этот общий KV-кэш каждый рабочий добавляет свои токены, которые затем дополняют общий контекст. Кэш организован как чат: завершённые абзацы reasoning каждого рабочего перемещаются в «историю», а текущие абзацы остаются в отдельном сегменте. При этом каждый рабочий видит текущую работу других — всё благодаря разделённым KV-блокам.

Чтобы избежать повторной обработки представлений на каждом шаге, авторы предлагают использовать свойства RoPE: для генерации нового токена каждым из рабочих блоки KV-кэша упорядочиваются по-разному для каждого рабочего (см. изображение). При этом сдвиг осуществляется не над всем блоком, а над query-токенами, что резко снижает вычислительные издержки. Таким образом, каждый рабочий может видеть новые токены других рабочих сразу после их генерации.

Система использует zero-shot prompting: рабочим предлагается обсуждать решение задачи, разделять работу между собой, не дублировать друг друга. Также авторы используют специальные интервенции в процесс генерации, чтобы сократить случаи, когда несколько рабочих совершают одну и ту же работу. Каждую N токенов одному из агентов подсовывается промпт вида «Делаю ли я лишнюю работу?» и предлагается ответить «да» или «нет». Эксперименты показывают, что такая вставка часто позволяет рабочему понять, что его работа уже сделана другим и можно двигаться дальше, либо изменить свою стратегию решения задачи.

Авторы оценивают Hogwild! Inference на задачах, требующих длительных рассуждений и предполагающих тривиального разбиения на независимые подзадачи: LIMO, LiveCodeBench, OlympiadBench, AIME. Эксперименты на разных моделях (Qwen3, QwQ, Deepseek R1, Phi4-R) показывают, что метод позволяет решать задачи за меньшее число последовательных шагов, чем обычная генерация. Например, QwQ-32B в LIMO (817 задач на математику) c использованием Hogwild! даёт прирост точности до 0,6 при 4000 токенах, в то время как бейзлайн — на уровне 0,4. Эксперименты также подтверждают масштабируемость: при двух рабочих генерация ускоряется в 1,8 раза, при четырёх — в 3,4.

Разбор подготовил

❣

Глеб Родионов

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥32❤8👍3

3.22K views12:16

Душный NLP

Scaling Laws for Precision

Scaling laws успешно применяются при проектировании LLM, позволяя определить оптимальное число параметров модели N и объём обучающих данных D (в токенах) для минимизации лосса L при фиксированных вычислительном бюджете C. Эта методология, например, использовалась при создании флагманской модели LLaMA 3. Сегодня разберём публикацию о чувствительном к точности scaling law.

Авторы статьи подчёркивают, что традиционные scaling laws предполагают фиксированную точность представления параметров модели P (например, FP16) как на этапе обучения, так и на инференсе. В свете развития аппаратной поддержки вычислений с пониженной точностью (например, FP4 в архитектуре NVIDIA Blackwell), исследование оптимального компромисса между P, N и D становится важной задачей. Поэтому авторы публикации решили проанализировать влияние квантизации после обучения (post-training quantization) модели на качество и модификации scaling laws с учётом точности параметров.

Авторы провели 465 экспериментов с моделями размером от 30M до 1,7B (N), обученными на 1,5–26B токенов (D), с использованием точности от 3 до 16 бит (P). В основе исследований — архитектура OLMo и датасет Dolma v1.7, а в качестве алгоритма квантизации — GPTQ. Основные выводы:

— Деградация качества после квантизации усиливается при росте соотношения D/(N⋅P) и сильном сжатии весов. Перетренированные (overtrainned) модели — с высоким D/(N⋅P) — демонстрируют наибольшую чувствительность к квантизации. В крайних случаях увеличение D приводит к ухудшению итогового качества после квантизации, то есть дополнительное обучение начинает вредить инференсу. Тут можно заметить противоречие, если мы захотим обучить модель с фиксированным числом параметров N: с одной стороны, уменьшение точности весов модели при обучении делает её менее чувствительной к пост-квантизации, а с другой — это увеличивает отношение D/(N⋅P), из-за чего качество будет деградировать. Однако эксперименты показали, что первый эффект перевешивает второй.

— В статье предложили модифицированную формулу для scaling laws с учётом post-train-квантизации, а также точности P для весов, активаций и KV-кэша.

— Авторы пришли к выводам, что оптимальная битность при совместной оптимизации N, D, P в их пайплайне составила 7–8 — независимо от бюджета C=N⋅D⋅P. Это говорит о том, что на практике обучение в FP16 может быть избыточным, в то время как погоня за слишком низкой битностью (ниже 4 бит) потребует непропорционального увеличения N (более чем в четыре раза) и сделает такие подходы неэффективными.

— Обнаруженная авторами зависимость показывает, что при фиксированном C уменьшение P приоритезирует рост N над увеличением D. Например, при переходе от FP16 к FP8 освободившиеся ресурсы в первую очередь стоит потратить на увеличение размера модели.

— В случае, если мы обучаем модель с фиксированным числом параметров N (например, когда обучаем семейство моделей на общем претрейн-датасете), оптимальная точность весов P для перетренерованной модели без post-train-квантизации растёт, при увеличении числа токенов в претрейне D.

Несмотря на интересные результаты, авторы отмечают, что у их работы есть ограничения, которые ещё необходимо исследовать. Так, они использовали единую архитектуру для моделей с различной точностью P; в расчётах полагали, что скорость вычислений линейно зависит от P, а это не всегда верно на практике. Также для оценки качества модели использовали только лосс без метрик в downstream-задачах.

Разбор подготовил ❣ Дмитрий Ульянов

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥19🤯4❤3

3.83K views11:00

Душный NLP

SRPO — альтернатива DPO

Сегодняшняя статья о Self-Improving Robust Preference Optimization (SRPO). Это алгоритм оффлайн-RLHF, подобный DPO, но более подходящий для off-policy датасета ранжирования. Кроме того, SRPO лучше переносится на OOD-задачи.

Основная идея метода заключается в состязательном обучении двух политик: генерирующей и улучшающей. Задача улучшающей политики — на основании запроса и имеющегося ответа создать улучшенную версию этого ответа; задача генерирующей — научиться создавать ответы, которые нельзя значительно улучшить.

Обе политики обучаются на парах предпочтений, полученных от людей. Решение состязательной задачи сводится к минимизации линейной комбинации из двух сонаправленных функций потерь. В работе показано, что оптимальное решение этой задачи не зависит от политики, из которой был собран датасет предпочтений. Благодаря этому SRPO оказывается более устойчивым к изменению в распределении данных.

Метод можно реализовать с помощью одной LLM, которая выступает и в качестве генератора, и в качестве «улучшатора». Обученную модель можно применять итеративно, каждый раз корректируя ответ, полученный на предыдущем шаге, чего не предполагают методы вроде DPO или IPO.

Даже без итераций, SRPO выигрывает у DPO и IPO: на сложных Arena-Hard-промптах метод показывает 56% win-rate. На задаче суммаризации Reddit TL;DR SRPO на 4-й итерации SRPO достигает максимального качества.

Разбор подготовил ❣ Алексей Зотов

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥17❤7👍1💯1

3.27K views08:15

Душный NLP

ICLR 2025: что нового в мультимодальном ранжировании

На Хабре вышла статья Алексея Спасёнова и Кирилла Никорова из Поиска Яндекса по картинкам и видео. Алексей и Кирилл побывали на конференции ICLR, которая прошла в апреле в Сингапуре, и привезли с собой не только впечатления, но и (возможно) загар, и (совершенно точно) подборку интересных статей. Полностью ознакомиться с ней вы можете на Хабре, а здесь расскажем о нескольких работах.

Multi-Field Adaptive Retrieval

Работа от авторов из Northeastern University, Augment Code и Microsoft посвящена улучшению поиска по структурированным данным с произвольным числом блоков с помощью подхода под названием Multi-Field Adaptive Retrieval (MFAR).

Авторы комбинируют близость лексикографическую (BM25) и семантическую — на основе векторных представлений. Для вычисления близости между запросом и документом используется скалярное произведение (dot product), а энкодеры дообучаются в контрастивном режиме.

Также применяется механизм внимания: модель учится определять значимость каждого блока документа относительно запроса. На этапе генерации кандидатов сначала выбираются топ-k документов стандартными методами ретривала, после чего проводится уточнение результатов с помощью MFAR.

Multimodal Unsupervised Domain Generalization by Retrieving Across the Modality Gap

Авторы из Boston University предлагают подход к задаче Domain Generalization — улучшение обобщающей способности моделей без доступа к целевому домену.

Они улучшают качество поиска с использованием Approximate Nearest Neighbor (ANN) за счёт уточнённых эмбеддингов объектов. Для этого используется аугментация текстовых описаний классов: к каждому классу генерируется набор вариантов запросов, после чего вычисляются эмбеддинги этих текстов.

Центроиды изображений смещаются в сторону усреднённых позиций, рассчитанных относительно эмбеддингов аугментированных текстов. Полученные представления используются для дообучения CLIP — таким образом модель становится более устойчивой к вариативности запросов и доменных сдвигов.

TempMe: Video Temporal Token Merging for Efficient Text-Video Retrieval

В этой статье авторы предлагают новую архитектуру для ранжирования видео по текстовому запросу. Temporal Token Merging (TempMe) — эффективная в вычислительном плане архитектура с небольшим количеством параметров. Основа архитектуры — text-video-CLIP-модель.
Выигрыш в вычислительном плане достигается благодаря так называемым блокам Intra- и Cross-clip Merging. В них происходят агрегации эмбеддингов похожих кадров и патчей. Тем самым от слоя к слою уменьшается не только пространственная размерность, но и временная.

Авторы получают ускорение в 1,8 раза и улучшение качества ранжирования видео на 4,4% (в терминах mAR@10), по сравнению с предыдущими вычислительно эффективными методами text-video retrieval. В данных использовались как очень короткие видео по 4–5 секунд (датасет LSMDC), так и довольно продолжительные — вплоть до 20 минут (датасет ActivityNet). Однако домен всех датасетов, конечно же, сильно смещён относительно стандартного поискового потока.

#YaICLR

Душный NLP

👍9❤2🔥2

3.66K viewsedited 08:11

Душный NLP

DAPO: An Open-Source LLM Reinforcement Learning System at Scale

Сегодня разберём короткую, но ёмкую статью из Китая. Авторы предлагают опенсорсный метод работы с большими LLM RL: алгоритмы, инфраструктуру кода и датасеты. Забавно, что на момент подготовки обзора у ребят почти пустой GitHub — большая его часть заполнена картинками.

DAPO — Dynamic sAmpling Policy Optimization — не представляет из себя чего-то кардинально нового. Использованные авторами подходы либо витали в воздухе, либо публиковались в других статьях.

Этот метод — модификация GRPO, который в свою очередь получился после улучшения PPO. Все эти алгоритмы объединяет возможность переиспользовать генерации. В обычных on-policy RL-алгоритмах каждый шаг оптимизации требует генерации свежей модели. А в PPO-подобных можно заранее создать большой батч ответов и сделать для него не один, а сразу несколько шагов оптимизации. Зачем? Большой батч эффективнее генерировать!

Новое классное свойство появляется за счёт использования importance sampling и трюка с обрезкой градиентов там, где свежая политика и так уже слишком сильно отличается от той, что сгенерировала данные.

Конкретно DAPO отличается от GRPO четырьмя вещами. Здесь есть:

— Модификация процедуры обрезки градиентов — Clip-Higher. Верхний порог обрезки выше, чем у GRPO, что улучшает итоговое качество.
— Динамическое сэмплирование: авторы предлагают с запасом генерировать ответы и выкидывать те, которые набрали одинаковую награду.
— Усреднение функционала ошибки по токенам, а не по запросам. Это придаёт больший вес длинным генерациям в общем функционале.
— Фильтрация слишком длинных ответов. Ответы, превысившие рекомендуемую длину получают небольшой штраф, а ответы вышедшие за максимальную длину — вообще не участвуют в оптимизации.

Кроме прочего, авторы модифицируют обучающий датасет: используют LLM, которая модифицирует запросы так, чтобы правильные ответы на них были целыми числами. Это упрощает парсинг ответов модели и их валидацию.

Самый классный, на мой взгляд, результат, — авторам DAPO удалось обойти SoTA DeepSeek-R1-Zero-Qwen-32B в решении задач олимпиадной математики. При этом они потратили 50% от мощностей, которые использовали для аналогичного обучения Qwen.

Разбор подготовил ❣ Павел Темирчев

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍2🔥2

3.06K views10:15

Душный NLP

Впечатления от конференции ICLR 2025

Минувшая ICLR была насыщенной и полезной. Мы попросили инженеров Яндекса, посетивших конференцию, поделиться впечатлениями и рассказать о том, что им запомнилось.

Материалы, которые упоминаются в карточках:

— Asynchronous RLHF. Faster And More Efficient Off-Policy RL For LLMs
— Learning Dynamics of LLM Finetuning
— Cheating Automatic LLM Benchmarks: Null Models Achieve High Win Rates
— Strong Model Collapse
— Maximizing the Potential of Synthetic Data: Insights from Random Matrix Theory
— IST-DASLab/MoE-Quant: Code for data-aware compression of DeepSeek models

*Компания Meta признана экстремистской организацией в России.

Душный NLP

👍16❤3🔥2

3.44K views09:27

Душный NLP

Соскучились по конференциям? Тогда ICML 2025 спешит на помощь!

В Ванкувере стартовала конференция ICML, а это значит, что мы — уже по традиции — будем делиться самым интересным с мероприятия. И вот первая подборка постеров, с пылу с жару.

Scion: Training Deep Learning Models with Norm-Constrained LMOs

Самый популярный оптимизатор — AdamW — не делает никаких предположений о геометрии весов модели. Из-за этого во время обучения надо накапливать и хранить статистики градиента. В Scion сразу вводят предположение о норме весов и используют linear minimization oracle для вычисления их апдейта на каждой итерации. Для разных типов слоёв можно (и нужно) использовать разные нормы.

Получаем менее требовательный к памяти алгоритм — не надо хранить первый и второй моменты градиента. Кроме того, оптимальные гиперпараметры переносятся между моделями разных размеров. А главное — Scion находит лучший лосс по сравнению с AdamW и позволяет сократить общее время обучения на 25-40% . Это происходит благодаря большому батчу.

Learning Dynamics in Continual Pre-Training for Large Language Models

Было много постеров о scaling laws. На этом — исследуют динамику дообучения (continual Pre-training), зависимость от lr schedule и от данных. Заметили, что на дообучении лосс сходится к тому же значению, что и при обучении на этом же датасете с нуля. Кроме того, лосс повторяет форму lr scheduler с некоторой задержкой. Опираясь на это, выводят scaling law. Ну а дальше подбирают некоторые оптимальные гиперпараметры обучения.

Scaling Collapse Reveals Universal Dynamics in Compute-Optimally Trained Neural Networks

Ещё один интересный постер о scaling law. Здесь показали, что если построить график нормированного лосса (нормируем на финальное значение) от нормированного компьюта (переводим в [0; 1]), то кривые для моделей разных размеров накладываются друг на друга. Причём этот феномен зависит от lr и lr scheduler. Для переобученных моделей кривые будут накладываться с некоторым шумом, а для неоптимальных lr — могут и вовсе расходиться. Также выводят scaling law, который зависит от lr scheduler. Как это можно использовать на практике — пока вопрос открытый.

Layer by Layer: Uncovering Hidden Representations in Language Models

Интересный постер об эмбеддингах промежуточных слоёв трансформера. Всегда считалось, что если нужны эмбеддинги для какой-нибудь задачи (например, классификации), то надо просто снять их с последнего слоя, и будет хорошо. А здесь авторы исследовали, насколько хороши эмбеддинги промежуточных слоёв (проверяют на MTEB), и оказалось, что всегда лучше брать какой-то промежуточный. Чтобы узнать, какой именно — считаем метрику prompt entropy для каждого слоя по некоторому набору входных данных. Чем она меньше — тем лучше будут работать эмбеддинги с этого слоя.

Интересным поделился ❣ Ермек Капушев

#YaICML25

Душный NLP

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥20👍6❤5

2.84K views11:43

About

Blog

Apps

Platform