Прикольная статья, хорошо объясняет работу некоторых RL-методов со странными ревордами
🔥4
Forwarded from Гречневые мысли
Spurious Rewards Paradox
Когда бахнул R1 и все дружным строем побежали пилить статьи про вариации GRPO, появилась проблема: многие новые методы показывали классные метрики на Qwen-2.5, но вообще не генерализовались на модели вроде Olmo-2 или Llama-3. Было дофига как многообещающих методов (Spurious Rewards, RL with one example, VeriFree, Entropy Minimization, Can LRM Self-Train), так и драмы по их поводу (Incorrect Baseline Evaluations Call into Question Recent LLM-RL Claims). Общая идея этих методов — что для RLVR либо надо мало данных, либо вообще можно обойтись без ревардов. Просто жжём электричество на роллауты, а дальше метрики квена сами поползут вверх.
В самой интересной, имхо, статье из "списка многообещающих методов" говорится: модель будет учиться даже если мы будем выдавать ей неверные реварды. Например, если мы будем выдавать всегда 0 или 1, если мы будем называть верные решения неверными или ревард вообще будет рандомным, метрики на, к примеру, MATH500 могут вырасти аж на 25%. Из этого можно сделать два альтернативных вывода: либо RLVR работает как эксплорейшн, а модель сама разберётся на чём учиться (то есть, верификатор не нужен), либо кое-кто очень удачно пролил тест в трейн и теперь модель так интересно оверфитится на бенчи. В сегодняшней статье авторы используют мехинтёрп, чтобы доказать, что всё же ситуация с Qwen-2.5 ближе ко второму варианту.
В статье есть целых шесть страниц с описанием разных методик мехинта и чтобы нормально объяснить, что происходит и что они доказывают, надо дать немного объяснений по поводу используемых методов. Авторы используют:
- Path Patching — заменяем активации в модели, считаем логиты, смотрим на разницу. Если разница большая — часть модели с заменёнными активациями важна для изменения логитов => используется для получения результата.
- Logit Lens — хидден по всей модели, как правило, стандартного размера, так что мы можем наложить LM Head на модель и посмотреть на эволюцию предсказанного токена по слоям. Это полезно, потому что можно увидеть, с какого слоя модель начинает быть уверена в том или ином ответе.
- Neural ODE — в резнете (в том числе в трансформере) к резидуал стриму добавляется сигнал из блоков этого самого резнета, так что мы можем записать формулу хиддена на каждом слое как h_{t+1} = h_t + f(h_t, \theta), что, по сути, есть метод эйлера для решения ОДУ с шагом 1. Если так, мы можем переформулировать резнет в диффур dh/dt = f(h, t, \theta) и анализировать непрерывную эволюцию хидденов в любом интересном нам разрешении (а не только по слоям!) через любые солверы, которые мы хотим — к примеру, Рунге-Кутта.
- Partial Prompt Evaluation (PPE) — суём в модель часть промпта из вопроса, смотрим на exact match вопроса и ответа. Если вспомнит — в модель это пролили. Из прикольного, по нашим внутренним экспериментам gpt-oss-120b вспоминает почти весь MMLU :)
Когда бахнул R1 и все дружным строем побежали пилить статьи про вариации GRPO, появилась проблема: многие новые методы показывали классные метрики на Qwen-2.5, но вообще не генерализовались на модели вроде Olmo-2 или Llama-3. Было дофига как многообещающих методов (Spurious Rewards, RL with one example, VeriFree, Entropy Minimization, Can LRM Self-Train), так и драмы по их поводу (Incorrect Baseline Evaluations Call into Question Recent LLM-RL Claims). Общая идея этих методов — что для RLVR либо надо мало данных, либо вообще можно обойтись без ревардов. Просто жжём электричество на роллауты, а дальше метрики квена сами поползут вверх.
В самой интересной, имхо, статье из "списка многообещающих методов" говорится: модель будет учиться даже если мы будем выдавать ей неверные реварды. Например, если мы будем выдавать всегда 0 или 1, если мы будем называть верные решения неверными или ревард вообще будет рандомным, метрики на, к примеру, MATH500 могут вырасти аж на 25%. Из этого можно сделать два альтернативных вывода: либо RLVR работает как эксплорейшн, а модель сама разберётся на чём учиться (то есть, верификатор не нужен), либо кое-кто очень удачно пролил тест в трейн и теперь модель так интересно оверфитится на бенчи. В сегодняшней статье авторы используют мехинтёрп, чтобы доказать, что всё же ситуация с Qwen-2.5 ближе ко второму варианту.
В статье есть целых шесть страниц с описанием разных методик мехинта и чтобы нормально объяснить, что происходит и что они доказывают, надо дать немного объяснений по поводу используемых методов. Авторы используют:
- Path Patching — заменяем активации в модели, считаем логиты, смотрим на разницу. Если разница большая — часть модели с заменёнными активациями важна для изменения логитов => используется для получения результата.
- Logit Lens — хидден по всей модели, как правило, стандартного размера, так что мы можем наложить LM Head на модель и посмотреть на эволюцию предсказанного токена по слоям. Это полезно, потому что можно увидеть, с какого слоя модель начинает быть уверена в том или ином ответе.
- Neural ODE — в резнете (в том числе в трансформере) к резидуал стриму добавляется сигнал из блоков этого самого резнета, так что мы можем записать формулу хиддена на каждом слое как h_{t+1} = h_t + f(h_t, \theta), что, по сути, есть метод эйлера для решения ОДУ с шагом 1. Если так, мы можем переформулировать резнет в диффур dh/dt = f(h, t, \theta) и анализировать непрерывную эволюцию хидденов в любом интересном нам разрешении (а не только по слоям!) через любые солверы, которые мы хотим — к примеру, Рунге-Кутта.
- Partial Prompt Evaluation (PPE) — суём в модель часть промпта из вопроса, смотрим на exact match вопроса и ответа. Если вспомнит — в модель это пролили. Из прикольного, по нашим внутренним экспериментам gpt-oss-120b вспоминает почти весь MMLU :)
🤔5❤2
Forwarded from Гречневые мысли
Дальше авторы начали делать разные эксперименты над Qwen-2.5-Math-7B, OLMo-2 и Llama-3.1-8B. Чтобы выделить бенчмарки, на которых проверять результаты, они стали смотреть на PPE на разных бенчах и выделили три штуки: MATH-500 и MinervaMath как контаминированные (+23-25% после Spurious RL), LiveMathBench как неконтаминированные (улучшения нет).
Первым делом, авторы посмотрели на перплексию ответов и промпта с ответом на четырёх чекпах во время Spurious RL. Выяснился интересный факт — по мере обучения, у Qwen-2.5-Math-7B перплексия ответов падает (модель считает их более вероятными), но перплексия промптов растёт (модель считает промпты менее вероятными). У Llama и OLMo — перплексия везде растёт. Вывод: во время spurious RL с рандомными ревардами модель разучается генерить текст, но если модель уже видела ответы, то хоть модель и разучается генерить, метрики всё равно растут. Получается, что Spurious RL обучает не генерализации, а меморизации, вспоминая полузабытые факты из сфт/претрейна. В статье они это называют memorization shortcut.
Затем берут две модели — до и после spurious RL — и, используя path patching, заменяют активации базовой модели активации модели после RLVR. Там два интересных файндинга — во первых, замена активаций из аттеншна вытягивает меньше скора, чем замена активаций MLP (то есть, MLP действительно хранит в себе знания), а во-вторых, на 18-20 слоях есть пик по восстановлению качества. Эти слои авторами назвали Functional Anchor — почему так, скажу позднее.
Дальше на модели после RLVR накладывают Logit Lens и смотрят на Jensen-Shannon Divergence (как KLD, но симметричная — в математику не вникал :)) между финальными логитами после полного форварда и промежуточными логитами из Logit Lens. Это позволяет нам посмотреть, насколько модель определилась в генерации конкретного токена и как много конкретный блок докидывает в резидуал стрим трансформера, чтобы сгенерировать финальный токен*. Здесь появляется ещё одно различие между Llama и Qwen — у лламы увеличение JSD монотонное, а у квена есть конкретные слои, на которых JSD максимальное (21-22). Эти слои авторы назвали Structural Adapters — они, грубо говоря, поворачивают пространство эмбеддингов в сторону генерации конкретного токена, то есть там хранятся знания модели, необходимые для генерации токена.
Что же такое Functional Anchors и Structural Adapters? Первое — это те слои, в которых модель решает, какую конкретно задачу модель будет делать. Это как Task Vectors, только у них находили слои, где кодировалась математика, перевод и прочие прикладные задачи, а тут FA выбирают между меморизацией и генерацией, которая происходит в слоях Structural Adapter. То есть, если простыми словами — FA нужны для решения, вспоминать или генерить, А SA нужны, чтобы вспоминать, что генерить.
*Примерно как в Do Llamas Work in English. Вторая статья, которую я разобрал у себя в канале, между прочим.
Первым делом, авторы посмотрели на перплексию ответов и промпта с ответом на четырёх чекпах во время Spurious RL. Выяснился интересный факт — по мере обучения, у Qwen-2.5-Math-7B перплексия ответов падает (модель считает их более вероятными), но перплексия промптов растёт (модель считает промпты менее вероятными). У Llama и OLMo — перплексия везде растёт. Вывод: во время spurious RL с рандомными ревардами модель разучается генерить текст, но если модель уже видела ответы, то хоть модель и разучается генерить, метрики всё равно растут. Получается, что Spurious RL обучает не генерализации, а меморизации, вспоминая полузабытые факты из сфт/претрейна. В статье они это называют memorization shortcut.
Затем берут две модели — до и после spurious RL — и, используя path patching, заменяют активации базовой модели активации модели после RLVR. Там два интересных файндинга — во первых, замена активаций из аттеншна вытягивает меньше скора, чем замена активаций MLP (то есть, MLP действительно хранит в себе знания), а во-вторых, на 18-20 слоях есть пик по восстановлению качества. Эти слои авторами назвали Functional Anchor — почему так, скажу позднее.
Дальше на модели после RLVR накладывают Logit Lens и смотрят на Jensen-Shannon Divergence (как KLD, но симметричная — в математику не вникал :)) между финальными логитами после полного форварда и промежуточными логитами из Logit Lens. Это позволяет нам посмотреть, насколько модель определилась в генерации конкретного токена и как много конкретный блок докидывает в резидуал стрим трансформера, чтобы сгенерировать финальный токен*. Здесь появляется ещё одно различие между Llama и Qwen — у лламы увеличение JSD монотонное, а у квена есть конкретные слои, на которых JSD максимальное (21-22). Эти слои авторы назвали Structural Adapters — они, грубо говоря, поворачивают пространство эмбеддингов в сторону генерации конкретного токена, то есть там хранятся знания модели, необходимые для генерации токена.
Что же такое Functional Anchors и Structural Adapters? Первое — это те слои, в которых модель решает, какую конкретно задачу модель будет делать. Это как Task Vectors, только у них находили слои, где кодировалась математика, перевод и прочие прикладные задачи, а тут FA выбирают между меморизацией и генерацией, которая происходит в слоях Structural Adapter. То есть, если простыми словами — FA нужны для решения, вспоминать или генерить, А SA нужны, чтобы вспоминать, что генерить.
*Примерно как в Do Llamas Work in English. Вторая статья, которую я разобрал у себя в канале, между прочим.
Telegram
Гречневые мысли
Do Llamas Work in English? On the Latent Language of Multilingual Transformers
Одна из любимых статей последнего года, прям очень нравится и идея, и реализация, и мотивация, и выводы.
TLDR:
Смотрят на активации внутри llama-2, приходят к выводу, что разные…
Одна из любимых статей последнего года, прям очень нравится и идея, и реализация, и мотивация, и выводы.
TLDR:
Смотрят на активации внутри llama-2, приходят к выводу, что разные…
🌚1
Forwarded from Гречневые мысли
Дальше авторы взяли заликанный вопрос из MATH-500 и собрали Logit Lens с двух траекторий с температурой 0.7 — траекторией с корректным ответом и с некорректным ответом. Выводы как в прошлых экспериментах — на 21-22 слоях (SA-слои) есть яркий пик верного ответа. В неверной траектории верный ответ тоже есть в top-k (в разных видах — ответ "4" может быть, например, записан как "four"), но последние слои (не SA) не могут вытянуть корректный ответ из некорректного, потому что не хватает силы поворота пространства. Это ещё раз валидирует, что в SA слоях находятся знания о верных ответах, вытащенные через RLVR.
Потом авторы смотрят на PCA-проекцию траекторию хидденов с заликанных и незаликанных примеров из Neural ODE-версии модели и видно, что на 18-20 слоях сила сепарации самая высокая. То есть, траектории заликанных и незаликанных примеров отличаются в Functional Anchor слоях — модель понимает, что она не знает ответа и начинает ризонить, а не отвечать.
Два самых интересных эксперимента находятся в конце статьи. Первый эксперимент — в Spuriously Trained модель подкладывают слои из базовой модели — и если на пролитых бенчах при замене FA или SA слоёв метрики падают драматически, на непролитых изменений почти нет. Причём очень важно заменять и FA и SA комплектом — если заменить только одно, то метрики будут падать и там и там. Кроме того, авторы попробовали стирить активации нейронов из FA и SA — опять же, на незаликанном сете разницы нет, а на заликанном сете стиринг на FA слоях получается наибольшая чувствительность. Получается, мы можем подавлять меморизацию моделей через уменьшение активаций из FA слоёв — логично, уменьшаем "хотение" модели выбирать меморизацию, модель не вспоминает. Похоже на Abliteration, кстати.
Ну и финалочка — всё воспроизводится на Qwen-3. То есть Spurious RL будет работать и на более новых моделях, с аналогичными выводами: метрики растут, а разговаривать модель разучается. Увы.
Выводы:
- Статья очень плотная, я часть деталей опустил, прочитайте её сами. Это того стоит.
- Perplexity Paradox даёт возможность отслеживать здоровье RL: если перплексия на вопросах растёт, ответах падает, а бенчи растут — модель с пролитыми бенчами. Если перплексия и там и там растёт — мы калечим модель.
- RL экспы на Qwen не гоняем. А на OLMo или лламе гоняем.Знакомый из соседней команды сказал "да блин, на лламе ничего не заводится, а на квене всё легко, за что нам ты это рассказал, теперь придётся работать". Жаль чуваков.
- Не всё то золото, что блестит — делайте нормальные абляции своих методов на разных семействах моделей.
- PPE помогает найти лики данных в модель.
- Если мы можем найти FA слои в RLVR квенах, отвечающие за меморизацию или генерацию, можем ли мы найти FA-слои, отвечающие за галлюцинацию?
Статья
Потом авторы смотрят на PCA-проекцию траекторию хидденов с заликанных и незаликанных примеров из Neural ODE-версии модели и видно, что на 18-20 слоях сила сепарации самая высокая. То есть, траектории заликанных и незаликанных примеров отличаются в Functional Anchor слоях — модель понимает, что она не знает ответа и начинает ризонить, а не отвечать.
Два самых интересных эксперимента находятся в конце статьи. Первый эксперимент — в Spuriously Trained модель подкладывают слои из базовой модели — и если на пролитых бенчах при замене FA или SA слоёв метрики падают драматически, на непролитых изменений почти нет. Причём очень важно заменять и FA и SA комплектом — если заменить только одно, то метрики будут падать и там и там. Кроме того, авторы попробовали стирить активации нейронов из FA и SA — опять же, на незаликанном сете разницы нет, а на заликанном сете стиринг на FA слоях получается наибольшая чувствительность. Получается, мы можем подавлять меморизацию моделей через уменьшение активаций из FA слоёв — логично, уменьшаем "хотение" модели выбирать меморизацию, модель не вспоминает. Похоже на Abliteration, кстати.
Ну и финалочка — всё воспроизводится на Qwen-3. То есть Spurious RL будет работать и на более новых моделях, с аналогичными выводами: метрики растут, а разговаривать модель разучается. Увы.
Выводы:
- Статья очень плотная, я часть деталей опустил, прочитайте её сами. Это того стоит.
- Perplexity Paradox даёт возможность отслеживать здоровье RL: если перплексия на вопросах растёт, ответах падает, а бенчи растут — модель с пролитыми бенчами. Если перплексия и там и там растёт — мы калечим модель.
- RL экспы на Qwen не гоняем. А на OLMo или лламе гоняем.
- Не всё то золото, что блестит — делайте нормальные абляции своих методов на разных семействах моделей.
- PPE помогает найти лики данных в модель.
- Если мы можем найти FA слои в RLVR квенах, отвечающие за меморизацию или генерацию, можем ли мы найти FA-слои, отвечающие за галлюцинацию?
Статья
Lesswrong
Refusal in LLMs is mediated by a single direction — LessWrong
This work was produced as part of Neel Nanda's stream in the ML Alignment & Theory Scholars Program - Winter 2023-24 Cohort, with co-supervision from…
👍8❤3🔥3
Forwarded from Гречневые мысли
Метрики моделей на бенчах — обратите внимание насколько растут метрики на MinervaMath и MATH-500.
Forwarded from Гречневые мысли
Эксперименты с Path Patching и JSD от Logit Lens.
В последнее время было возрождение интереса к эволюционным стратегиям (1, 2). Они работают, но с засадой. Оказывается, они приводят к катастрофическому забыванию других задач, и на уровне объяснения это даже логично — GRPO обновляет веса точечно в разреженных подсетях, а ES бахает по всем сразу.
Evolutionary Strategies lead to Catastrophic Forgetting in LLMs
Immanuel Abdi, Akshat Gupta, Micah Mok, Alexander Lu, Nicholas Lee, Gopala Anumanchipalli
Статья: https://arxiv.org/abs/2601.20861
Ревью: https://arxiviq.substack.com/p/evolutionary-strategies-lead-to-catastrophic
Код: https://github.com/akshat57/es-catastrophic
Модель: https://huggingface.co/collections/immanuelabdi/es-at-scale-lead-to-catastrophic-forgetting
# TL;DR
ЧТО сделали: Авторы провели тщательный анализ Эволюционных Стратегий (Evolutionary Strategies, ES) для файнтюнинга LLM, сравнив их с Group Relative Policy Optimization (GRPO). Они подтвердили, что ES может сравниться с градиентными методами на конкретных задачах на рассуждение, но показали, что ценой этого является тяжелое катастрофическое забывание предыдущих знаний.
ПОЧЕМУ это важно: Индустрия стремится к обучению на устройствах (on-device learning), где эффективные по памяти методы без градиентов (как ES) выглядят спасением. Однако исследование вскрывает критическую проблему: ES достигает результата за счет плотных обновлений параметров с огромной нормой, что глобально ломает веса модели. Это делает метод непригодным для непрерывного обучения (continual learning), несмотря на его аппаратную эффективность.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2311
Evolutionary Strategies lead to Catastrophic Forgetting in LLMs
Immanuel Abdi, Akshat Gupta, Micah Mok, Alexander Lu, Nicholas Lee, Gopala Anumanchipalli
Статья: https://arxiv.org/abs/2601.20861
Ревью: https://arxiviq.substack.com/p/evolutionary-strategies-lead-to-catastrophic
Код: https://github.com/akshat57/es-catastrophic
Модель: https://huggingface.co/collections/immanuelabdi/es-at-scale-lead-to-catastrophic-forgetting
# TL;DR
ЧТО сделали: Авторы провели тщательный анализ Эволюционных Стратегий (Evolutionary Strategies, ES) для файнтюнинга LLM, сравнив их с Group Relative Policy Optimization (GRPO). Они подтвердили, что ES может сравниться с градиентными методами на конкретных задачах на рассуждение, но показали, что ценой этого является тяжелое катастрофическое забывание предыдущих знаний.
ПОЧЕМУ это важно: Индустрия стремится к обучению на устройствах (on-device learning), где эффективные по памяти методы без градиентов (как ES) выглядят спасением. Однако исследование вскрывает критическую проблему: ES достигает результата за счет плотных обновлений параметров с огромной нормой, что глобально ломает веса модели. Это делает метод непригодным для непрерывного обучения (continual learning), несмотря на его аппаратную эффективность.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2311
Telegram
gonzo-обзоры ML статей
Неужели мы наблюдаем возрождение эволюционных стратегий как альтернативы RL? Я помню ту работу 2017 года от OpenAI и Суцкевера в частности "Evolution Strategies as a Scalable Alternative to Reinforcement Learning" (https://arxiv.org/abs/1703.03864), где впервые…
🔥7🤔2
Фильтрация на уровне токенов при обучении даёт сильно более безопасные модели, чем другие способы.
Shaping capabilities with token-level data filtering
Neil Rathi, Alec Radford
Статья: https://arxiv.org/abs/2601.21571
Ревью: https://arxiviq.substack.com/p/shaping-capabilities-with-token-level
Код: https://github.com/neilrathi/token-filtering
Модель: Custom Transformers (up to 1.8B)
# TL;DR
ЧТО сделали: Предложили метод потокенной фильтрации данных (token-level data filtering) для хирургического удаления конкретных способностей модели (на примере медицинских знаний) на этапе предобучения. Обучая легковесные классификаторы находить и маскировать специфические токены, авторы не дают модели выучивать опасные концепты, сохраняя при этом соседние общие знания.
ПОЧЕМУ это важно: Это сдвиг парадигмы от безопасности "постфактум" (RLHF/Unlearning) к безопасности "ab initio" (изначальной). Результаты впечатляют: потокенная фильтрация масштабируется значительно лучше, чем удаление целых документов, создавая замедление в 7000 раз (по вычислительным затратам), необходимое модели для повторного обретения забытых знаний на масштабе 1.8B параметров. Кроме того, среди авторов — Алек Рэдфорд (создатель GPT-2 и GPT-3), что сигнализирует о серьезном повороте индустрии в сторону курирования данных как главного рычага безопасности.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2319
Shaping capabilities with token-level data filtering
Neil Rathi, Alec Radford
Статья: https://arxiv.org/abs/2601.21571
Ревью: https://arxiviq.substack.com/p/shaping-capabilities-with-token-level
Код: https://github.com/neilrathi/token-filtering
Модель: Custom Transformers (up to 1.8B)
# TL;DR
ЧТО сделали: Предложили метод потокенной фильтрации данных (token-level data filtering) для хирургического удаления конкретных способностей модели (на примере медицинских знаний) на этапе предобучения. Обучая легковесные классификаторы находить и маскировать специфические токены, авторы не дают модели выучивать опасные концепты, сохраняя при этом соседние общие знания.
ПОЧЕМУ это важно: Это сдвиг парадигмы от безопасности "постфактум" (RLHF/Unlearning) к безопасности "ab initio" (изначальной). Результаты впечатляют: потокенная фильтрация масштабируется значительно лучше, чем удаление целых документов, создавая замедление в 7000 раз (по вычислительным затратам), необходимое модели для повторного обретения забытых знаний на масштабе 1.8B параметров. Кроме того, среди авторов — Алек Рэдфорд (создатель GPT-2 и GPT-3), что сигнализирует о серьезном повороте индустрии в сторону курирования данных как главного рычага безопасности.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2319
arXiv.org
Shaping capabilities with token-level data filtering
Current approaches to reducing undesired capabilities in language models are largely post hoc, and can thus be easily bypassed by adversaries. A natural alternative is to shape capabilities during...
❤12🔥8🤔2😱1
Снова про проблемы перплексии. Недавно рассматривали альтернативную метрику, Epiplexity (https://xn--r1a.website/gonzo_ML/4543). А сегодня про опасный трейдофф внутри самой перплексии.
Perplexity Cannot Always Tell Right from Wrong
Petar Veličković, Federico Barbero, Christos Perivolaropoulos, Simon Osindero, Razvan Pascanu
Статья: https://arxiv.org/abs/2601.22950
Ревью: https://arxiviq.substack.com/p/perplexity-cannot-always-tell-right
# TL;DR
ЧТО сделали: Авторы строго доказали, что для decoder-only трансформеров перплексия — теоретически ошибочная метрика для выбора моделей. Опираясь на свойства непрерывности, они показали: если модель уверена и точна на одной последовательности, всегда найдётся соседняя последовательность, где модель будет так же уверена, но неправа, сохраняя при этом исчезающе низкую перплексию.
ПОЧЕМУ это важно: Работа разрушает постулат «меньше перплексия = лучше генерация», особенно для OOD (Out-of-Distribution). Это вскрывает «слепое пятно»: модели могут обманывать метрику, разменивая точность на необоснованную самоуверенность. Текущие лидерборды рискуют систематически отбирать переуверенные галлюцинации вместо моделей с качественными рассуждениями.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2328
Perplexity Cannot Always Tell Right from Wrong
Petar Veličković, Federico Barbero, Christos Perivolaropoulos, Simon Osindero, Razvan Pascanu
Статья: https://arxiv.org/abs/2601.22950
Ревью: https://arxiviq.substack.com/p/perplexity-cannot-always-tell-right
# TL;DR
ЧТО сделали: Авторы строго доказали, что для decoder-only трансформеров перплексия — теоретически ошибочная метрика для выбора моделей. Опираясь на свойства непрерывности, они показали: если модель уверена и точна на одной последовательности, всегда найдётся соседняя последовательность, где модель будет так же уверена, но неправа, сохраняя при этом исчезающе низкую перплексию.
ПОЧЕМУ это важно: Работа разрушает постулат «меньше перплексия = лучше генерация», особенно для OOD (Out-of-Distribution). Это вскрывает «слепое пятно»: модели могут обманывать метрику, разменивая точность на необоснованную самоуверенность. Текущие лидерборды рискуют систематически отбирать переуверенные галлюцинации вместо моделей с качественными рассуждениями.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2328
Telegram
gonzo_ML_podcasts
Ловушка уверенности: почему перплексия любит ошибки
Perplexity Cannot Always Tell Right from Wrong
Petar Veličković, Federico Barbero, Christos Perivolaropoulos, Simon Osindero, Razvan Pascanu
Статья: https://arxiv.org/abs/2601.22950
Ревью: https://arxi…
Perplexity Cannot Always Tell Right from Wrong
Petar Veličković, Federico Barbero, Christos Perivolaropoulos, Simon Osindero, Razvan Pascanu
Статья: https://arxiv.org/abs/2601.22950
Ревью: https://arxi…
🔥20🫡7👍4
Правильная дистилляция помогает избавиться от лишнего запоминания моделью!
Memorization Dynamics in Knowledge Distillation for Language Models
Jaydeep Borkar, Karan Chadha, Niloofar Mireshghallah, Yuchen Zhang, Irina-Elena Veliche, Archi Mitra, David A. Smith, Zheng Xu, Diego Garcia-Olano
Статья: https://arxiv.org/abs/2601.15394
Ревью: https://arxiviq.substack.com/p/memorization-dynamics-in-knowledge
# TL;DR
ЧТО сделали: Систематически изучили проблему запоминания обучающих данных (memorization) в LLM, обученных с помощью дистилляции знаний (Knowledge Distillation, KD). Сравнив дистиллированные модели («студентов») с независимо зафайнтюненными бейзлайнами и исходными «учителями» (семейства Pythia, OLMo-2, Qwen-3), авторы обнаружили, что дистилляция снижает запоминание тренировочных данных более чем на 50%.
ПОЧЕМУ это важно: Работа опровергает устоявшееся мнение, что модели-студенты неизбежно наследуют уязвимости приватности своих учителей. Исследование показывает, что KD действует как регуляризатор, который избирательно отфильтровывает высокоэнтропийный «шум» (сложные для обучения примеры), сохраняя при этом обобщающую способность. Кроме того, авторы показали, что запоминание отлично предсказывается с помощью метрик сжатия (zlib), что позволяет проводить санитарную обработку данных (data sanitation) ещё до начала обучения.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2336
Memorization Dynamics in Knowledge Distillation for Language Models
Jaydeep Borkar, Karan Chadha, Niloofar Mireshghallah, Yuchen Zhang, Irina-Elena Veliche, Archi Mitra, David A. Smith, Zheng Xu, Diego Garcia-Olano
Статья: https://arxiv.org/abs/2601.15394
Ревью: https://arxiviq.substack.com/p/memorization-dynamics-in-knowledge
# TL;DR
ЧТО сделали: Систематически изучили проблему запоминания обучающих данных (memorization) в LLM, обученных с помощью дистилляции знаний (Knowledge Distillation, KD). Сравнив дистиллированные модели («студентов») с независимо зафайнтюненными бейзлайнами и исходными «учителями» (семейства Pythia, OLMo-2, Qwen-3), авторы обнаружили, что дистилляция снижает запоминание тренировочных данных более чем на 50%.
ПОЧЕМУ это важно: Работа опровергает устоявшееся мнение, что модели-студенты неизбежно наследуют уязвимости приватности своих учителей. Исследование показывает, что KD действует как регуляризатор, который избирательно отфильтровывает высокоэнтропийный «шум» (сложные для обучения примеры), сохраняя при этом обобщающую способность. Кроме того, авторы показали, что запоминание отлично предсказывается с помощью метрик сжатия (zlib), что позволяет проводить санитарную обработку данных (data sanitation) ещё до начала обучения.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2336
arXiv.org
Memorization Dynamics in Knowledge Distillation for Language Models
Knowledge Distillation (KD) is increasingly adopted to transfer capabilities from large language models to smaller ones, offering significant improvements in efficiency and utility while often...
👍10🤔3❤🔥1🔥1