gonzo-обзоры ML статей
24.3K subscribers
3.64K photos
3 videos
3 files
1.66K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
регион интернациональных форумов на карте эмбеддингов
😁1
а это на тему стабильности — так выглядел moltface, когда я начинал писать этот пост. сейчас вроде уже отпустило
🤯3😁1
Прикольная статья, хорошо объясняет работу некоторых RL-методов со странными ревордами
🔥4
Spurious Rewards Paradox

Когда бахнул R1 и все дружным строем побежали пилить статьи про вариации GRPO, появилась проблема: многие новые методы показывали классные метрики на Qwen-2.5, но вообще не генерализовались на модели вроде Olmo-2 или Llama-3. Было дофига как многообещающих методов (Spurious Rewards, RL with one example, VeriFree, Entropy Minimization, Can LRM Self-Train), так и драмы по их поводу (Incorrect Baseline Evaluations Call into Question Recent LLM-RL Claims). Общая идея этих методов — что для RLVR либо надо мало данных, либо вообще можно обойтись без ревардов. Просто жжём электричество на роллауты, а дальше метрики квена сами поползут вверх.

В самой интересной, имхо, статье из "списка многообещающих методов" говорится: модель будет учиться даже если мы будем выдавать ей неверные реварды. Например, если мы будем выдавать всегда 0 или 1, если мы будем называть верные решения неверными или ревард вообще будет рандомным, метрики на, к примеру, MATH500 могут вырасти аж на 25%. Из этого можно сделать два альтернативных вывода: либо RLVR работает как эксплорейшн, а модель сама разберётся на чём учиться (то есть, верификатор не нужен), либо кое-кто очень удачно пролил тест в трейн и теперь модель так интересно оверфитится на бенчи. В сегодняшней статье авторы используют мехинтёрп, чтобы доказать, что всё же ситуация с Qwen-2.5 ближе ко второму варианту.

В статье есть целых шесть страниц с описанием разных методик мехинта и чтобы нормально объяснить, что происходит и что они доказывают, надо дать немного объяснений по поводу используемых методов. Авторы используют:

- Path Patching — заменяем активации в модели, считаем логиты, смотрим на разницу. Если разница большая — часть модели с заменёнными активациями важна для изменения логитов => используется для получения результата.
- Logit Lens — хидден по всей модели, как правило, стандартного размера, так что мы можем наложить LM Head на модель и посмотреть на эволюцию предсказанного токена по слоям. Это полезно, потому что можно увидеть, с какого слоя модель начинает быть уверена в том или ином ответе.
- Neural ODE — в резнете (в том числе в трансформере) к резидуал стриму добавляется сигнал из блоков этого самого резнета, так что мы можем записать формулу хиддена на каждом слое как h_{t+1} = h_t + f(h_t, \theta), что, по сути, есть метод эйлера для решения ОДУ с шагом 1. Если так, мы можем переформулировать резнет в диффур dh/dt = f(h, t, \theta) и анализировать непрерывную эволюцию хидденов в любом интересном нам разрешении (а не только по слоям!) через любые солверы, которые мы хотим — к примеру, Рунге-Кутта.
- Partial Prompt Evaluation (PPE) — суём в модель часть промпта из вопроса, смотрим на exact match вопроса и ответа. Если вспомнит — в модель это пролили. Из прикольного, по нашим внутренним экспериментам gpt-oss-120b вспоминает почти весь MMLU :)
🤔52
Дальше авторы начали делать разные эксперименты над Qwen-2.5-Math-7B, OLMo-2 и Llama-3.1-8B. Чтобы выделить бенчмарки, на которых проверять результаты, они стали смотреть на PPE на разных бенчах и выделили три штуки: MATH-500 и MinervaMath как контаминированные (+23-25% после Spurious RL), LiveMathBench как неконтаминированные (улучшения нет).

Первым делом, авторы посмотрели на перплексию ответов и промпта с ответом на четырёх чекпах во время Spurious RL. Выяснился интересный факт — по мере обучения, у Qwen-2.5-Math-7B перплексия ответов падает (модель считает их более вероятными), но перплексия промптов растёт (модель считает промпты менее вероятными). У Llama и OLMo — перплексия везде растёт. Вывод: во время spurious RL с рандомными ревардами модель разучается генерить текст, но если модель уже видела ответы, то хоть модель и разучается генерить, метрики всё равно растут. Получается, что Spurious RL обучает не генерализации, а меморизации, вспоминая полузабытые факты из сфт/претрейна. В статье они это называют memorization shortcut.

Затем берут две модели — до и после spurious RL — и, используя path patching, заменяют активации базовой модели активации модели после RLVR. Там два интересных файндинга — во первых, замена активаций из аттеншна вытягивает меньше скора, чем замена активаций MLP (то есть, MLP действительно хранит в себе знания), а во-вторых, на 18-20 слоях есть пик по восстановлению качества. Эти слои авторами назвали Functional Anchor — почему так, скажу позднее.

Дальше на модели после RLVR накладывают Logit Lens и смотрят на Jensen-Shannon Divergence (как KLD, но симметричная — в математику не вникал :)) между финальными логитами после полного форварда и промежуточными логитами из Logit Lens. Это позволяет нам посмотреть, насколько модель определилась в генерации конкретного токена и как много конкретный блок докидывает в резидуал стрим трансформера, чтобы сгенерировать финальный токен*. Здесь появляется ещё одно различие между Llama и Qwen — у лламы увеличение JSD монотонное, а у квена есть конкретные слои, на которых JSD максимальное (21-22). Эти слои авторы назвали Structural Adapters — они, грубо говоря, поворачивают пространство эмбеддингов в сторону генерации конкретного токена, то есть там хранятся знания модели, необходимые для генерации токена.

Что же такое Functional Anchors и Structural Adapters? Первое — это те слои, в которых модель решает, какую конкретно задачу модель будет делать. Это как Task Vectors, только у них находили слои, где кодировалась математика, перевод и прочие прикладные задачи, а тут FA выбирают между меморизацией и генерацией, которая происходит в слоях Structural Adapter. То есть, если простыми словами — FA нужны для решения, вспоминать или генерить, А SA нужны, чтобы вспоминать, что генерить.

*Примерно как в Do Llamas Work in English. Вторая статья, которую я разобрал у себя в канале, между прочим.
🌚1
Дальше авторы взяли заликанный вопрос из MATH-500 и собрали Logit Lens с двух траекторий с температурой 0.7 — траекторией с корректным ответом и с некорректным ответом. Выводы как в прошлых экспериментах — на 21-22 слоях (SA-слои) есть яркий пик верного ответа. В неверной траектории верный ответ тоже есть в top-k (в разных видах — ответ "4" может быть, например, записан как "four"), но последние слои (не SA) не могут вытянуть корректный ответ из некорректного, потому что не хватает силы поворота пространства. Это ещё раз валидирует, что в SA слоях находятся знания о верных ответах, вытащенные через RLVR.

Потом авторы смотрят на PCA-проекцию траекторию хидденов с заликанных и незаликанных примеров из Neural ODE-версии модели и видно, что на 18-20 слоях сила сепарации самая высокая. То есть, траектории заликанных и незаликанных примеров отличаются в Functional Anchor слоях — модель понимает, что она не знает ответа и начинает ризонить, а не отвечать.

Два самых интересных эксперимента находятся в конце статьи. Первый эксперимент — в Spuriously Trained модель подкладывают слои из базовой модели — и если на пролитых бенчах при замене FA или SA слоёв метрики падают драматически, на непролитых изменений почти нет. Причём очень важно заменять и FA и SA комплектом — если заменить только одно, то метрики будут падать и там и там. Кроме того, авторы попробовали стирить активации нейронов из FA и SA — опять же, на незаликанном сете разницы нет, а на заликанном сете стиринг на FA слоях получается наибольшая чувствительность. Получается, мы можем подавлять меморизацию моделей через уменьшение активаций из FA слоёв — логично, уменьшаем "хотение" модели выбирать меморизацию, модель не вспоминает. Похоже на Abliteration, кстати.

Ну и финалочка — всё воспроизводится на Qwen-3. То есть Spurious RL будет работать и на более новых моделях, с аналогичными выводами: метрики растут, а разговаривать модель разучается. Увы.

Выводы:

- Статья очень плотная, я часть деталей опустил, прочитайте её сами. Это того стоит.
- Perplexity Paradox даёт возможность отслеживать здоровье RL: если перплексия на вопросах растёт, ответах падает, а бенчи растут — модель с пролитыми бенчами. Если перплексия и там и там растёт — мы калечим модель.
- RL экспы на Qwen не гоняем. А на OLMo или лламе гоняем. Знакомый из соседней команды сказал "да блин, на лламе ничего не заводится, а на квене всё легко, за что нам ты это рассказал, теперь придётся работать". Жаль чуваков.
- Не всё то золото, что блестит — делайте нормальные абляции своих методов на разных семействах моделей.
- PPE помогает найти лики данных в модель.
- Если мы можем найти FA слои в RLVR квенах, отвечающие за меморизацию или генерацию, можем ли мы найти FA-слои, отвечающие за галлюцинацию?

Статья
👍83🔥3
Метрики моделей на бенчах — обратите внимание насколько растут метрики на MinervaMath и MATH-500.
Эксперименты с Path Patching и JSD от Logit Lens.
Абляция с заменой FA и SA слоёв.
🔥5
В последнее время было возрождение интереса к эволюционным стратегиям (1, 2). Они работают, но с засадой. Оказывается, они приводят к катастрофическому забыванию других задач, и на уровне объяснения это даже логично — GRPO обновляет веса точечно в разреженных подсетях, а ES бахает по всем сразу.

Evolutionary Strategies lead to Catastrophic Forgetting in LLMs

Immanuel Abdi, Akshat Gupta, Micah Mok, Alexander Lu, Nicholas Lee, Gopala Anumanchipalli
Статья: https://arxiv.org/abs/2601.20861
Ревью: https://arxiviq.substack.com/p/evolutionary-strategies-lead-to-catastrophic
Код: https://github.com/akshat57/es-catastrophic
Модель: https://huggingface.co/collections/immanuelabdi/es-at-scale-lead-to-catastrophic-forgetting

# TL;DR

ЧТО сделали: Авторы провели тщательный анализ Эволюционных Стратегий (Evolutionary Strategies, ES) для файнтюнинга LLM, сравнив их с Group Relative Policy Optimization (GRPO). Они подтвердили, что ES может сравниться с градиентными методами на конкретных задачах на рассуждение, но показали, что ценой этого является тяжелое катастрофическое забывание предыдущих знаний.

ПОЧЕМУ это важно: Индустрия стремится к обучению на устройствах (on-device learning), где эффективные по памяти методы без градиентов (как ES) выглядят спасением. Однако исследование вскрывает критическую проблему: ES достигает результата за счет плотных обновлений параметров с огромной нормой, что глобально ломает веса модели. Это делает метод непригодным для непрерывного обучения (continual learning), несмотря на его аппаратную эффективность.

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2311
🔥7🤔2
Фильтрация на уровне токенов при обучении даёт сильно более безопасные модели, чем другие способы.

Shaping capabilities with token-level data filtering

Neil Rathi, Alec Radford
Статья: https://arxiv.org/abs/2601.21571
Ревью: https://arxiviq.substack.com/p/shaping-capabilities-with-token-level
Код: https://github.com/neilrathi/token-filtering
Модель: Custom Transformers (up to 1.8B)

# TL;DR

ЧТО сделали: Предложили метод потокенной фильтрации данных (token-level data filtering) для хирургического удаления конкретных способностей модели (на примере медицинских знаний) на этапе предобучения. Обучая легковесные классификаторы находить и маскировать специфические токены, авторы не дают модели выучивать опасные концепты, сохраняя при этом соседние общие знания.

ПОЧЕМУ это важно: Это сдвиг парадигмы от безопасности "постфактум" (RLHF/Unlearning) к безопасности "ab initio" (изначальной). Результаты впечатляют: потокенная фильтрация масштабируется значительно лучше, чем удаление целых документов, создавая замедление в 7000 раз (по вычислительным затратам), необходимое модели для повторного обретения забытых знаний на масштабе 1.8B параметров. Кроме того, среди авторов — Алек Рэдфорд (создатель GPT-2 и GPT-3), что сигнализирует о серьезном повороте индустрии в сторону курирования данных как главного рычага безопасности.

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2319
12🔥8🤔2😱1
Forwarded from gonzo_ML_podcasts
😁15👍8💩1
Снова про проблемы перплексии. Недавно рассматривали альтернативную метрику, Epiplexity (https://xn--r1a.website/gonzo_ML/4543). А сегодня про опасный трейдофф внутри самой перплексии.

Perplexity Cannot Always Tell Right from Wrong
Petar Veličković, Federico Barbero, Christos Perivolaropoulos, Simon Osindero, Razvan Pascanu
Статья: https://arxiv.org/abs/2601.22950
Ревью: https://arxiviq.substack.com/p/perplexity-cannot-always-tell-right

# TL;DR

ЧТО сделали: Авторы строго доказали, что для decoder-only трансформеров перплексия — теоретически ошибочная метрика для выбора моделей. Опираясь на свойства непрерывности, они показали: если модель уверена и точна на одной последовательности, всегда найдётся соседняя последовательность, где модель будет так же уверена, но неправа, сохраняя при этом исчезающе низкую перплексию.

ПОЧЕМУ это важно: Работа разрушает постулат «меньше перплексия = лучше генерация», особенно для OOD (Out-of-Distribution). Это вскрывает «слепое пятно»: модели могут обманывать метрику, разменивая точность на необоснованную самоуверенность. Текущие лидерборды рискуют систематически отбирать переуверенные галлюцинации вместо моделей с качественными рассуждениями.

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2328
🔥20🫡7👍4
Forwarded from gonzo_ML_podcasts
😁24👍143👻3🔥2
Правильная дистилляция помогает избавиться от лишнего запоминания моделью!

Memorization Dynamics in Knowledge Distillation for Language Models
Jaydeep Borkar, Karan Chadha, Niloofar Mireshghallah, Yuchen Zhang, Irina-Elena Veliche, Archi Mitra, David A. Smith, Zheng Xu, Diego Garcia-Olano
Статья: https://arxiv.org/abs/2601.15394
Ревью: https://arxiviq.substack.com/p/memorization-dynamics-in-knowledge

# TL;DR

ЧТО сделали: Систематически изучили проблему запоминания обучающих данных (memorization) в LLM, обученных с помощью дистилляции знаний (Knowledge Distillation, KD). Сравнив дистиллированные модели («студентов») с независимо зафайнтюненными бейзлайнами и исходными «учителями» (семейства Pythia, OLMo-2, Qwen-3), авторы обнаружили, что дистилляция снижает запоминание тренировочных данных более чем на 50%.

ПОЧЕМУ это важно: Работа опровергает устоявшееся мнение, что модели-студенты неизбежно наследуют уязвимости приватности своих учителей. Исследование показывает, что KD действует как регуляризатор, который избирательно отфильтровывает высокоэнтропийный «шум» (сложные для обучения примеры), сохраняя при этом обобщающую способность. Кроме того, авторы показали, что запоминание отлично предсказывается с помощью метрик сжатия (zlib), что позволяет проводить санитарную обработку данных (data sanitation) ещё до начала обучения.

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2336
👍10🤔3❤‍🔥1🔥1