gonzo-обзоры ML статей
24.3K subscribers
3.23K photos
3 videos
3 files
1.55K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Вдруг вам хочется почитать чего-то забористого на выходных. Их есть у меня.

Недавняя конференция ALife 2025 опубликовала свои материалы:
* Proceedings of the Artificial Life Conference 2025 (879 страниц)
* Companion Proceedings of the Artificial Life Conference 2025 (337 страниц)

Делитесь интересными находками в нашем чате.
❤‍🔥113
Не было времени в прошлом разобрать статью про Titans, а тут те же авторы из Гугла выпустили свежую Nested Learning с архитектурой Hope, которая вариант Titans. Так что надо.

Titans: Learning to Memorize at Test Time
Authors: Ali Behrouz, Peilin Zhong, and Vahab Mirrokni
Paper: https://arxiv.org/abs/2501.00663
Review: https://arxiviq.substack.com/p/titans-learning-to-memorize-at-test

# TL;DR

Что сделали?
В статье представлена Titans — новое семейство гибридных архитектур, разработанных для преодоления ограничений современных последовательных моделей по длине контекста. Ключевая инновация — это новый модуль нейронной долговременной памяти (Long-Term Memory Module, LMM), глубокий нелинейный рекуррентный модуль, который работает как meta in-context learner. Это означает, что LMM не просто обрабатывает данные, а на лету адаптивно учится тому, как запоминать и забывать информацию, оптимизируя собственные веса прямо во время инференса. Это достигается за счёт метрики «удивления» на основе градиента с моментом (momentum), что позволяет отслеживать и сохранять важные события, а также с помощью адаптивного механизма забывания, который предотвращает переполнение памяти. Авторы предлагают три варианта интеграции LMM с кратковременным механизмом внимания (MAC, MAG, MAL).

Почему это важно?
Titans устраняют критический разрыв между трансформерами, которые обеспечивают высокую точность, но страдают от квадратичной вычислительной сложности, и современными линейными рекуррентными моделями, которые эффективны, но с трудом сжимают очень длинные контексты без потери информации. Сочетая мощную, динамически обновляемую долговременную память с точным кратковременным вниманием, Titans демонстрируют SOTA-производительность на разнообразных бенчмарках. Особенно примечательно, что они достигают беспрецедентной эффективности в задачах с экстремально длинным контекстом, масштабируясь до более чем 2 миллионов токенов и превосходя гораздо более крупные модели, вроде GPT-4, на бенчмарке BABILong. Эта работа вводит новую парадигму для создания последовательных моделей с надёжной, адаптивной памятью, открывая путь к системам ИИ, способным эффективно обрабатывать и рассуждать над огромными объёмами данных, сопоставимыми с целыми документами.

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1300
👍23🔥129
Вот и до Nested Learning, Hope, Titans 2.0 добрались.

Nested Learning: The Illusion of Deep Learning Architectures
Ali Behrouz, Meisam Razaviyayn, Peiling Zhong, Vahab Mirrokni
Paper: https://abehrouz.github.io/files/NL.pdf
Blog: https://research.google/blog/introducing-nested-learning-a-new-ml-paradigm-for-continual-learning/
Review: https://arxiviq.substack.com/p/nested-learning-the-illusion-of-deep

# TL;DR

📝 Что сделано?
В статье представлено Nested Learning (NL, вложенное обучение) — новая теоретическая парадигма, которая переосмысливает модели машинного обучения и процедуры их обучения как интегрированную систему вложенных, многоуровневых оптимизационных задач. Каждый компонент в этой иерархии оперирует собственным «потоком контекста» — например, потоком выборок данных или градиентов — и имеет свою частоту обновления. Такой «white-box» взгляд показывает, что существующие методы глубокого обучения работают за счёт сжатия контекста. В рамках этой парадигмы авторы делают три основных вклада: (1) Deep Optimizers — концепция, которая интерпретирует оптимизаторы вроде SGD с моментом как обучаемые, многоуровневые модули памяти, сжимающие градиенты; (2) Continuum Memory System (CMS) — система, обобщающая краткосрочную и долгосрочную память в иерархию блоков памяти, обновляющихся в разных временных масштабах; и (3) HOPE (или Self-Modifying Titans) — новая самомодифицирующаяся архитектура для последовательностей, которая объединяет эти принципы и достигает передовых результатов.

🤔 Почему это важно?
Вложенное обучение предлагает принципиальное, вдохновлённое нейронаукой решение одной из самых больших проблем в ИИ — статичности больших языковых моделей (LLM). Вместо «иллюзии» простого нагромождения слоёв, NL предоставляет математическую основу для создания моделей, способных к непрерывному обучению, самосовершенствованию и рассуждениям в контексте (in-context reasoning) более высокого порядка. Эта работа смещает фокус с эвристического конструирования архитектур на целенаправленное проектирование систем памяти с несколькими временными масштабами. Итоговая архитектура HOPE демонстрирует превосходство над сильными бейзлайнами, такими как трансформеры и её предшественник Titans, указывая на будущее, в котором ИИ-системы станут более адаптивными, эффективными и смогут преодолеть «амнезию», присущую текущим моделям.

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1317
👍2011🔥3
Модифицированных машин Гёделя вам в ленту! И медведь. И Шмидхубера.

Huxley-Gödel Machine: Human-Level Coding Agent Development by an Approximation of the Optimal Self-Improving Machine
Authors: Wenyi Wang, Piotr Piękos, Li Nanbo, Firas Laakom, Yimeng Chen, Mateusz Ostaszewski, Mingchen Zhuge, Jürgen Schmiduber
Paper: https://arxiv.org/abs/2510.21614
Code: https://github.com/metauto-ai/HGM
Review: https://arxiviq.substack.com/p/huxley-godel-machine-human-level

# TL;DR

Что сделали?
В статье выявляют и решают проблему «несоответствия метапродуктивности и производительности» — критический изъян существующих самосовершенствующихся агентов для написания кода. Суть проблемы в том, что текущая производительность на бенчмарках плохо предсказывает долгосрочный потенциал для улучшений. Для решения авторы представляют Машину Хаксли-Гёделя (HGM) — алгоритм, аппроксимирующий теоретически оптимальную Машину Гёделя. Вместо того чтобы полагаться на оценку отдельных агентов, HGM руководствуется новой метрикой, основанной на анализе всей линии потомков — Метапродуктивностью клады (CMP). Эта метрика агрегирует производительность всего дерева потомков агента, чтобы лучше оценить его будущий потенциал. Такой подход сочетается с эффективной асинхронной стратегией древовидного поиска, которая отделяет процесс создания агентов от их оценки.

Почему это важно?
Эта работа знаменует собой смену парадигмы в проектировании автономных систем ИИ: переход от жадной, краткосрочной оптимизации к более строгому подходу, ориентированному на долгосрочный эволюционный потенциал. Метод не только эффективнее в поиске более качественных агентов, но и значительно экономичнее: он требует до 6,8 раз меньше CPU-часов, чем предыдущие SOTA-методы. Самое главное — агент, разработанный с помощью HGM, достиг производительности на уровне человека на бенчмарке SWE-bench Lite, сравнявшись с лучшими официально верифицированными результатами агентов, спроектированных людьми. Это демонстрирует новый перспективный путь к автоматизированному проектированию ИИ, способному создавать робастные, переносимые решения экспертного уровня.

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1327
👍12🔥7👀3🤯1😱1
😁19❤‍🔥8💯2
Я про датасеты редко пишу, но это что-то монстрическое и интересное

https://huggingface.co/datasets/builddotai/Egocentric-10K

Egocentric-10K is the largest egocentric dataset. It is the first dataset collected exclusively in real factories.

- 10,000 hours
- 2,153 factory workers
- 1,080,000,000 frames

Роботы идуть.
🤯2510🔥9👍2🤔1
Работа про Continuous Autoregressive Language Models. Генерим непрерывный вектор, из которого через VAE восстанавливаем сразу K токенов (например, 4).

Очень странно, что авторы вообще никак не упомянули работу про Coconut (https://xn--r1a.website/gonzo_ML/3567).

Continuous Autoregressive Language Models
Chenze Shao, Darren Li, Fandong Meng, Jie Zhou
Статья: https://arxiv.org/abs/2510.27688
Код: https://github.com/shaochenze/calm
Проект: https://shaochenze.github.io/blog/2025/CALM
Ревью: https://arxiviq.substack.com/p/continuous-autoregressive-language

# TL;DR

🤔 Что сделали?
В статье представлена новая парадигма — непрерывные авторегрессионные языковые модели (Continuous Autoregressive Language Models, CALM). Она смещает фокус генерации LLM с последовательного предсказания дискретных токенов на предсказание непрерывных векторов. Для этого используется надёжный вариационный автоэнкодер, который с высокой точностью сжимает чанк из K токенов в один непрерывный вектор, сокращая количество авторегрессионных шагов в K раз. Переход в непрерывную область потребовал разработки целого набора инструментов, не использующих функцию правдоподобия. В него вошли: голова Energy Transformer для эффективной одношаговой генерации векторов; новая метрика BrierLM, основанная на строго корректной оценочной функции Brier score; и теоретически обоснованный black-box алгоритм для сэмплинга с температурой.

🚀 Почему это важно?
Эта работа напрямую решает фундаментальную проблему вычислительной неэффективности LLM — их пошаговый процесс генерации токен за токеном. Увеличивая «семантическую пропускную способность» каждого шага генерации, CALM открывает новую и очень эффективную ось масштабирования для языковых моделей. Эксперименты показывают, что такой подход обеспечивает лучший компромисс между производительностью и затратами на вычисления. Например, модель CALM достигает производительности сильного дискретного бейзлайна, требуя на 44% меньше FLOPs для обучения и на 34% меньше FLOPs для инференса. Таким образом, предсказание следующего вектора становится мощным и масштабируемым путём к созданию сверхэффективных языковых моделей, выходя за рамки традиционных законов масштабирования, сфокусированных только на параметрах и данных.

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1340
9👍2🔥1🤮1👌1
Ну и гулять так гулять! Пока по сети гуляет много слухов про скорый уход Лекуна от Цукерберга, Лекун с соавтором выпустил работу про обновлённую JEPA под названием LeJEPA. Модель переосмыслили с точки зрения математики, что позволило сильно упростить архитектуру — никаких больше предикторов, проекторов и разных хаков для устойчивого обучения. Результаты интересные! Кто любит много математики в работе, тому тоже понравится :)

LeJEPA: Provable and Scalable Self-Supervised Learning Without the Heuristics
Randall Balestriero, Yann LeCun
Paper: https://arxiv.org/abs/2511.08544
Code: https://github.com/rbalestr-lab/lejepa

# TL;DR

💡 Что сделали?
В статье представлен LeJEPA — новый фреймворк для self-supervised learning (SSL), который заменяет хрупкие эвристики существующих предиктивных архитектур с совместным эмбеддингом (JEPA) строгой теоретической базой. Сначала авторы доказывают, что изотропное гауссовское распределение является единственным оптимальным распределением для эмбеддингов модели, минимизирующим риск предсказания в худшем случае на downstream-задачах. Чтобы обеспечить это свойство, они вводят новую и отлично масштабируемую целевую функцию — регуляризацию SIGReg (Sketched Isotropic Gaussian Regularization). Она использует случайные одномерные проекции и сопоставление характеристических функций для наложения ограничений на многомерное пространство эмбеддингов с линейной сложностью по времени и памяти. Итоговая целевая функция LeJEPA объединяет стандартный лосс предсказания JEPA с SIGReg, что создаёт простой и устойчивый к коллапсу представлений пайплайн обучения, устраняя необходимость в stop-gradients, сетях «учитель-ученик» и других специальных «костылях».

🤔 Почему это важно?
LeJEPA знаменует собой важный шаг в развитии SSL, переводя область от набора частных R&D-решений и эвристик к разработке систем с доказуемо оптимальным дизайном. Его ключевые нововведения дают три основных преимущества:
1. Надёжность и простота: Фреймворк обеспечивает исключительную стабильность обучения для самых разных архитектур и масштабов с одним-единственным гиперпараметром для настройки компромисса, делая предобучение foundation-моделей более надёжным и доступным.
2. Информативный сигнал для обучения: Впервые в JEPA-архитектурах лосс при обучении сильно коррелирует (до 99%) с качеством на downstream-задачах. Это даёт надёжный сигнал для выбора модели, не требующий размеченных данных.
3. Новая парадигма предобучения: LeJEPA показывает, что основанный на строгих принципах SSL на небольших специализированных датасетах может значительно превосходить трансферное обучение от огромных, универсально обученных frontier-моделей вроде DINOv2/v3. Это возвращает доменно-специфичному SSL статус жизнеспособной и мощной стратегии.

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1358
16😁15🔥11👍7🎉3
Агенты для исследования продолжают развиваться. Вот добавили к AlphaEvolve отдельную reward model, обученную на ревью ICLR.

AlphaResearch: Accelerating New Algorithm Discovery with Language Models

Authors: Zhaojian Yu, Kaiyue Feng, Yilun Zhao, Shilin He, Xiao-Ping Zhang, Arman Cohan
Paper: https://arxiv.org/abs/2511.08522
Code: https://github.com/answers111/alpha-research
Model: https://huggingface.co/alpha-research/AlphaResearch-RM-Qwen-7B
Review: https://arxiviq.substack.com/p/alpharesearch-accelerating-new-algorithm

# TL;DR

Что сделано?
Авторы представляют AlphaResearch, автономного агента, который открывает новые алгоритмы для решения открытых задач. Ключевая инновация — «двойная исследовательская среда», которая расширяет подход верификации на основе выполнения кода, используемый в системах вроде AlphaEvolve. Эта среда добавляет симулированный механизм рецензирования (peer review), работающий на базе модели вознаграждения (AlphaResearch-RM-7B), обученной на более чем 24 000 реальных рецензий с конференции ICLR. Эта модель оценивает новизну и качество предлагаемой идеи *до* её реализации, что позволяет отсеивать бесперспективные направления на раннем этапе. Авторы также представили AlphaResearchComp — новый открытый бенчмарк из 8 сложных алгоритмических задач для обеспечения прозрачной и воспроизводимой оценки.

Почему это важно?
Такой двойной подход напрямую решает проблему «разрыва между идеей и её выполнением» — ключевую сложность, когда сгенерированные ИИ идеи либо инновационны, но невыполнимы, либо выполнимы, но не представляют научного интереса. Сочетая оценку качества идеи с производительностью её реализации, AlphaResearch ускоряет поиск значимых открытий. Это подтвердилось, когда агент открыл новый, лучший из известных алгоритм для задачи «упаковки кругов», превзойдя решения как экспертов-людей, так и сильных бейзлайнов вроде AlphaEvolve. Работа представляет собой важный шаг вперёд, смещая парадигму от простого поиска работающего кода к открытию научно ценных алгоритмов.

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1377
👍20🤮52
Encoder-Decoder or Decoder-Only? Revisiting Encoder-Decoder Large Language Model
Biao Zhang, Yong Cheng, Siamak Shakeri, Xinyi Wang, Min Ma, Orhan Firat
Статья: https://arxiv.org/abs/2510.26622

Любопытная работа про анализ основ, так сказать. Очередная попытка взглянуть на разные варианты архитектур трансформера (конкретнее, чистый декодер и энкодер-декодер) и разобраться, что лучше работает для LLM. Большинство LLM сейчас, как известно, decoder-only, но возможно это просто локальный эволюционный закидон, и мы просто недоисследовали другие варианты.

Было немало попыток копнуть другие ветви.

Из того, что помню, не так давно воскрешали чистые BERT-style энкодеры (в лице ModernBERT, подробнее тут: https://xn--r1a.website/gonzo_ML/3090), добавив в старый рецепт Берта современные штуки типа активаций GeGLU, позиционных эмбеддингов RoPE, нормализации в правильных местах (pre-norm) и прочих улучшений.

Был любопытный заход на модификацию декодера, YOCO (https://xn--r1a.website/gonzo_ML/2699), когда большой декодер по факту распиливали на два и получали архитектуру декодер-декодер, оптимизирующую память KV-кеша, где выход первого декодера генерил глобальный KV-кеш, а слои второго декодера смотрели на него через cross-attention.

Были интересные попытки выкидывать или шарить FFN в слоях энкодеров и декодеров (https://xn--r1a.website/gonzo_ML/1829) -- оказывалось, что из декодера вообще можно выкинуть, а в энкодере можно пошарить между слоями.

Была также работа про UL2 (https://xn--r1a.website/gonzo_ML/1113), где отделяли pre-training objective от архитектуры и как раз тоже сравнивали энкодер-декодеры и чистые декодеры. Там и новая предложенная UL2-objective была хороша, и энкодер-декодеры показали себя лучше чистых декодеров. В той работе, кстати, как бы идейно задепрекейтили чистые энкодеры (https://xn--r1a.website/gonzo_ML/1124), но смотрите, с ModernBERT оно как-то ожило (https://xn--r1a.website/gonzo_ML/3090).

Ну и конечно важно не забывать линейку энкодер-декодеров T5, в которой было много развитий (https://xn--r1a.website/gonzo_ML/761). В обработке временных рядов показывали, что энкодер-декодер в стиле T5 работает лучше, чем декодер в стиле GPT-2 (работа про Chronos, https://xn--r1a.website/gonzo_ML/2558).

И наконец была недавно (частично от авторов текущей работы) Encoder-Decoder Gemma, она же T5Gemma, (https://arxiv.org/abs/2504.06225), где обученный декодер конвертили в энкодер-декодер и там показали, что энкодер-декодер перформит лучше, особенно после файнтюнинга, а также доминирует по балансу качество/эффективность инференса. Из интересного, в той работе также пробовали UL2 и PrefixLM в качестве objectives и не нашли однозначного лидера: UL2 давала лучшие репрезентации, но уступала в генеративных задачах.

Были и другие попытки сравнить декодеры и энкодер-декодеры, например, “What Language Model Architecture and Pretraining Objective Works Best for Zero-Shot Generalization?” (https://proceedings.mlr.press/v162/wang22u.html), “Decoder-Only or Encoder-Decoder? Interpreting Language Model as a Regularized Encoder-Decoder“ (https://arxiv.org/abs/2304.04052) или “Do Transformer Modifications Transfer Across Implementations and Applications?” (https://aclanthology.org/2021.emnlp-main.465/), но там не смотрели на задачу через призму скейлинга. Long story short, новая работа устраняет этот недостаток и показывает что не декодерами едиными.

В новой работе авторы провели крупномасштабное эмпирическое сравнение между модернизированными (ревизионистскими) архитектурами энкодер-декодер (RedLLM) и доминирующими decoder-only (DecLLM) в масштабах от 150M до 8B параметров.

Как и с ModernBERT, они обновили модель современными компонентами, такими как RoPE, RMSNorm и SwiGLU. Для повышения стабильности обе модели применяют дополнительную нормализацию к векторам query (Q), key (K) и value (V) внутри механизма внимания:

Attn_DecLLM = Softmax((LN(Q)LN(K)ᵀ)/√(dₕ))LN(V)
220
RedLLM, энкодер-декодер, применяет RoPE повсеместно: в модулях self-attention энкодера, self-attention декодера и cross-attention. Однако есть и проблемы: RedLLM была значительно более склонна к нестабильности во время обучения. Решение авторов работы — добавить дополнительный слой LN на выход механизма внимания:

Attn_RedLLM = LN(Attn_DecLLM)

Модели обучались в пяти масштабах, от 150M до 8B параметров, причём RedLLM сохраняла сбалансированную архитектуру с равным числом слоёв в энкодере и декодере.

Важно помнить, чем отличаются блоки внимания в чистом декодере и в декодере внутри энкодер-декодера. В классическом декодере, который был в энкодер-декодер архитектуре, каждый блок декодера содержал три слоя: causal self-attention + encoder-decoder self-attention (или cross-attention) + ffn. В чистом декодере типа GPT блоков меньше: causal self-attention + ffn. Подробно и с картинками разобрано у Jay Alammar здесь (https://jalammar.github.io/illustrated-gpt2/).

Размеры RedLLM и DecLLM делали одинаковыми, сохраняя при этом hidden dimension, из-за этого количество слоёв разнится -- у 8B моделей этой 32 слоя в чистом декодере и 14/14 слоёв для энкодера-декодера. Думаю, такая разница из-за отсутствия слоя cross-attention в чистом декодере, так как блоки энкодер-декодера получаются “жирнее” на один слой, что при фиксированной размерности модели приводит к увеличению общего веса, и надо сокращать количество блоков для паритета.

Модели предобучали на 1.6T токенов (RedPajama V1), а затем делали instruction-файнтюнинг на датасете FLAN. DecLLM предобучалась со стандартной задачей каузального языкового моделирования (Causal Language Modeling), а RedLLM на задаче префиксного языкового моделирования (Prefix Language Modeling), где первая половина последовательности служит входом для энкодера (префикс, и внимание там двунаправленное, в смысле токены могут заглядывать в будущее), а вторая половина — целью для декодера (с обычным каузальным вниманием с маской, не дающей токенам смотреть в будущее).

Такая постановка означает, что при одинаковых данных для предобучения (1.6 трлн токенов из RedPajama V1), эффективное количество целевых токенов для RedLLM (0.8 трлн) было вдвое меньше, чем для DecLLM.

Результаты интересны и состоят из двух частей, соответствующих разным этапам жизненного цикла LLM.

📉 Этап 1: Преимущество DecLLM на предобучении

Изначально результаты, казалось бы, подтверждают предпочтения индустрии в пользу decoder-only моделей.

У DecLLM вычислительно-оптимальный скейлинг. На этапе предобучения она достигает меньшей перплексии при заданном объёме вычислений. Хотя обе архитектуры показывают схожие экспоненты скейлинга, RedLLM требует примерно вдвое больше FLOPs, чтобы достичь той же перплексии, что и DecLLM.

Лучшая производительность в zero/few-shot. После предобучения DecLLM демонстрирует значительно более сильные способности в zero-shot и few-shot режимах. В масштабе 8B её средний результат в few-shot на 8 пунктов выше, чем у RedLLM (43.37 против 35.13). Вероятно, это связано с тем, что задача Causal LM ближе к стандартным форматам оценки.

На этом этапе аргументы в пользу decoder-only моделей кажутся весомыми.

🚀 Этап 2: Реабилитация RedLLM через файнтюнинг

Картина кардинально меняется после instruction-файнтюнинга на датасете FLAN. RedLLM, несмотря на своё отставание на этапе предобучения, демонстрирует удивительную адаптивность. Это довольно сильно перекликается с их же работой про T5Gemma (https://arxiv.org/abs/2504.06225).

Сближение по качеству. После файнтюнинга RedLLM не только сокращает разрыв в производительности, но и достигает сравнимых и, в среднем, даже немного лучших результатов в zero-shot и few-shot режимах во всех масштабах. При 8B параметров few-shot результат RedLLM составляет 61.32, превосходя 59.02 у DecLLM. Получается, что производительность на предобучении не является окончательным предиктором возможностей итоговой, файнтюненной модели.
6
Наиболее примечательным результатом является превосходство RedLLM в эффективности. Она демонстрирует значительно более высокую пропускную способность как при обучении, так и, что критически важно, при инференсе. Когда результат изображается на осях качество/затраты на инференс (FLOPs), RedLLM практически полностью доминирует на Парето-фронте. Так же было и в T5Gemma. Там, например, end-dec 9B-9B и 2B-2B имели схожую latency с dec 9B и 2B соответственно, но строго лучший перформанс, а например несимметричный вариант с большим энкодером и маленьким декодером 9B-2B был аналогичен декодеру 2B по latency, но лучше по перформансу чем 2B-2B.

В статье это сильно не обсуждается, но это хороший вопрос чтобы копнуть вглубь. Можно рассмотреть модельную ситуацию, когда есть 1000 токенов промпта + 1000 токенов генерации.

Энкодер хорош тем, что он обрабатывает весь входной промпт (1000 токенов) за один раз, параллельно за счёт двунаправленной обработки. При этом он не создаёт компактное представление из единственного вектора (как в старых seq2seq моделях), а делает его по токенам (на выходе энкодера будет 1000 векторных эмбеддингов), так что декодер при генерации 1000 токенов выхода и вычислении cross-attention будет обращаться ко всем закодированным токенам промпта.

На этом фоне для decoder-only модели может показаться что обработка последовательности промпта более медленная, потому что она 1) авторегрессионная (но это не так, на стадии prefilling весь промпт обрабатывается параллельно за один проход) и 2) с каузальным вниманием, а не двунаправленным. Но в реальности остаётся только каузальное внимание (и тут разница по большому счёту только в маске) и при использовании KV-кешей результат должен быть почти таким же, как для энкодер-декодера -- промпт обработается за один раз без авторегрессионной генерации и закешируется. Так что это соображение не релевантно.

Декодер потенциально даже может требовать меньше вычислений (хотя асимптотически одинаково), так как на каждом шаге он обращается к меньшему числу токенов (только к токенам слева), чем при двунаправленной обработке (где внимание смотрит на токены слева и справа). Однако в реальности матрица будет полноразмерной, с отдельной матрицей-маской для реализации каузальной фильтрации, так что это соображение, скорее всего, не особо значимо.

Ещё одно возможное соображение: cross-attention обращается только к финальному выходу энкодера в каждом слое декодера, в то время как decoder-only attention обращается к разным KV-кешам в каждом слое. Первый вариант, вероятно, приведёт к лучшей локальности и более быстрым вычислениям, да и памяти меньше нужно (напоминает selling point в YOCO: https://xn--r1a.website/gonzo_ML/2699).

При этом decoder-only слои состоят из двух блоков (causal self-attn - mlp), а слои декодера в энкодер-декодере — из трёх (causal self-attn - cross-attn - mlp), поэтому RedLLM должна иметь больше параметров на слой при той же скрытой размерности. Вот почему модели одинакового общего размера имеют разное количество слоёв (Таблица 1a): у 8B DecLLM 32 слоя, а у 8B RedLLM 14/14, то есть 28 в сумме, но они неодинаковые.

Если посмотреть на более глубоком уровне, то для DecLLM это 32 слоя внимания + 32 mlp, а для RedLLM это 14 self-attention + 14 mlp в энкодере (работающие на промпте, условные 1000 токенов) и 14 self-attention + 14 cross-attention + 14 mlp в декодере = 42 слоя внимания + 28 mlp. И у DecLLM контекст self-attention для генерации растёт с 1000 токенов (промпт) до 2000 (промпт + генерация), а у RedLLM decoder self-attention растёт c 0 до 1000 (только генерация, без промпта), что с учётом квадратичной сложности внимания, наверное, играет.

Надеюсь, не ошибка нигде в выводах. Если вы видели где-то более точный расчёт или более подробный анализ, дайте знать.

Ещё одно неожиданное открытие: у RedLLM лучшая экстраполяция на длинных контекстах. Её перплексия растёт гораздо плавнее при обработке последовательностей длиннее, чем её контекст предобучения, в то время как производительность DecLLM ухудшается более резко.
👍91🤝1
Чтобы понять эту устойчивость к длинным контекстам, авторы изучили механизмы внимания моделей. Они обнаружили, что в обеих моделях self-attention декодера страдает от «затухания локальности» (locality decay) — токены уделяют меньше внимания удалённым токенам по мере удлинения последовательности, и эта проблема более выражена в DecLLM. Однако cross-attention в RedLLM, который обращается к закодированному входу, не подвержен этому затуханию. Он последовательно фокусируется на стабильном подмножестве входных токенов, обеспечивая постоянный поток информации из промпта, независимо от длины генерации. Эта разносторонняя стратегия внимания, по-видимому, является ключевым фактором её лучшей экстраполяции.

Эксперимент с DecLLM + BiAttn особенно показателен. Позволив входным токенам decoder-only модели обращать внимание друг на друга в обоих направлениях — имитируя ключевую особенность энкодера, — авторы подтвердили, что полное контекстуальное понимание промпта является основным источником силы архитектуры энкодер-декодер. Хотя эта модификация значительно улучшила производительность DecLLM, тот факт, что RedLLM всё ещё сохранила преимущество в компромиссе «качество-эффективность», говорит о том, что её специализированная архитектура предлагает дополнительные выгоды.

Несбалансированные энкодер-декодеры в работе не исследовали, но помня про результаты T5Gemma может там есть ещё более хорошие варианты.

Такие дела. Любопытная работа в целом. Может таки будет возрождение полных энкодер-декодеров? T-1000 T5 ещё всем покажет?
8👍7🔥2