Есть ещё герои, не забросившие старые добрые RNN. Очень прикольный заход на параллелизацию обучения нелинейных RNN (с линейными всё и так хорошо благодаря associative scan) — обучаем трансформер на выучивание ячеек памяти, хранящих достаточно информации для предсказания следующих элементов последовательности. Дальше используем этот трансформер как учитель для параллельного обучения RNN, которая для каждого шага предсказывает следующее состояние памяти. Не надо никакого BPTT и разворачивания во времени, соответственно забываем про последовательное обучение и затухающие/взрывающиеся градиенты.
Pretraining Recurrent Networks without Recurrence
Akarsh Kumar, Phillip Isola
Paper: https://arxiv.org/abs/2606.06479
Review: https://arxiviq.substack.com/p/pretraining-recurrent-networks-without
Code: https://github.com/akarshkumar0101/smt
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили Supervised Memory Training (SMT) и DAgger Memory Training (DMT) — двухэтапный метод предобучения нелинейных рекуррентных нейросетей (RNN) без использования стандартного обратного распространения ошибки во времени (BPTT). Метод SMT задействует учителя на базе архитектуры Transformer, который сжимает предысторию в целевые предиктивные состояния. Это превращает обучение на последовательностях в набор параллельных во времени одношаговых задач обучения с учителем (supervised learning).
ПОЧЕМУ это важно: Обучение стандартных RNN долго упиралось в последовательные зависимости и нестабильные градиентные пути длиной
Для практиков: Для руководителей ИИ-направлений и архитекторов моделей последовательностей SMT предлагает рабочий мост между отлично параллелизуемым обучением трансформеров и эффективным инференсом рекуррентных сетей с фиксированной памятью. Представляя обработку последовательности как параллельную задачу предсказания множества, этот метод позволяет предобучать выразительные нелинейные рекуррентные архитектуры на длинных последовательностях без затухания или взрыва градиентов.
Быстро обучать RNN тут: https://xn--r1a.website/gonzo_ML_podcasts/4040
Pretraining Recurrent Networks without Recurrence
Akarsh Kumar, Phillip Isola
Paper: https://arxiv.org/abs/2606.06479
Review: https://arxiviq.substack.com/p/pretraining-recurrent-networks-without
Code: https://github.com/akarshkumar0101/smt
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили Supervised Memory Training (SMT) и DAgger Memory Training (DMT) — двухэтапный метод предобучения нелинейных рекуррентных нейросетей (RNN) без использования стандартного обратного распространения ошибки во времени (BPTT). Метод SMT задействует учителя на базе архитектуры Transformer, который сжимает предысторию в целевые предиктивные состояния. Это превращает обучение на последовательностях в набор параллельных во времени одношаговых задач обучения с учителем (supervised learning).
ПОЧЕМУ это важно: Обучение стандартных RNN долго упиралось в последовательные зависимости и нестабильные градиентные пути длиной
O(T). Разделив обучение репрезентациям (что помнить) и динамику переходов (как обновлять память), SMT обеспечивает стабильный градиентный путь O(1) и полную параллелизацию во времени при предобучении. При этом сохраняются константная сложность по памяти O(1) на инференсе и высокая выразительность нелинейных RNN.Для практиков: Для руководителей ИИ-направлений и архитекторов моделей последовательностей SMT предлагает рабочий мост между отлично параллелизуемым обучением трансформеров и эффективным инференсом рекуррентных сетей с фиксированной памятью. Представляя обработку последовательности как параллельную задачу предсказания множества, этот метод позволяет предобучать выразительные нелинейные рекуррентные архитектуры на длинных последовательностях без затухания или взрыва градиентов.
Быстро обучать RNN тут: https://xn--r1a.website/gonzo_ML_podcasts/4040
arXiv.org
Pretraining Recurrent Networks without Recurrence
Training recurrent neural networks (RNNs) requires assigning credit across long sequences of computations. Standard backpropagation through time (BPTT) addresses this problem poorly: it is...
🤔6👍2❤1
MiniMax-M3 и его разреженное внимание.
MiniMax Sparse Attention
Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Jinkai Hu, Jiayao Li, Rui Gao, Zekun Li, Songquan Zhu, Jingkai Zhou and Pengyu Zhao
Paper: https://arxiv.org/abs/2606.13392
Review: https://arxiviq.substack.com/p/minimax-sparse-attention
Code: https://github.com/MiniMax-AI/MSA
Model: https://huggingface.co/MiniMaxAI/MiniMax-M3
# TL;DR
ЧТО сделали: Авторы представили MiniMax Sparse Attention (MSA) — аппаратно-алгоритмически оптимизированный механизм разреженного блочного внимания (blockwise sparse attention), построенный прямо поверх Grouped-Query Attention (GQA) (https://arxiv.org/abs/2305.13245). MSA использует легковесную индексную ветку (Index Branch) для независимого выбора подмножества KV-блоков (key-value blocks) для каждой GQA-группы и основную ветку (Main Branch), которая считает точное разреженное внимание только по выбранным блокам.
ПОЧЕМУ это важно: На сверхдлинных контекстах (до миллиона токенов) квадратичная сложность стандартного внимания становится жёстким вычислительным бутылочным горлышком. MSA устраняет этот барьер, снижая количество FLOPs на токен в блоке внимания до 28.4 раз при длине контекста 1M токенов, сохраняя при этом качество GQA на основных даунстрим-задачах, агентных и мультимодальных бенчмарках. Благодаря кастомным ядрам теоретический прирост конвертируется в реальное ускорение на GPU NVIDIA H800: в 14.2 раза на этапе prefill и в 7.6 раза при декодировании.
Для практиков: MSA позволяет эффективно обучать и инференсить модели на сверхдлинных контекстах без дорогостоящих компромиссов. Код и веса предобученной модели MiniMax-M3 (109B MoE) уже выложены в открытый доступ, а предложенные CUDA-ядра показывают отличную утилизацию Tensor Core на архитектуре Hopper.
Тут: https://xn--r1a.website/gonzo_ML_podcasts/4056
MiniMax Sparse Attention
Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Jinkai Hu, Jiayao Li, Rui Gao, Zekun Li, Songquan Zhu, Jingkai Zhou and Pengyu Zhao
Paper: https://arxiv.org/abs/2606.13392
Review: https://arxiviq.substack.com/p/minimax-sparse-attention
Code: https://github.com/MiniMax-AI/MSA
Model: https://huggingface.co/MiniMaxAI/MiniMax-M3
# TL;DR
ЧТО сделали: Авторы представили MiniMax Sparse Attention (MSA) — аппаратно-алгоритмически оптимизированный механизм разреженного блочного внимания (blockwise sparse attention), построенный прямо поверх Grouped-Query Attention (GQA) (https://arxiv.org/abs/2305.13245). MSA использует легковесную индексную ветку (Index Branch) для независимого выбора подмножества KV-блоков (key-value blocks) для каждой GQA-группы и основную ветку (Main Branch), которая считает точное разреженное внимание только по выбранным блокам.
ПОЧЕМУ это важно: На сверхдлинных контекстах (до миллиона токенов) квадратичная сложность стандартного внимания становится жёстким вычислительным бутылочным горлышком. MSA устраняет этот барьер, снижая количество FLOPs на токен в блоке внимания до 28.4 раз при длине контекста 1M токенов, сохраняя при этом качество GQA на основных даунстрим-задачах, агентных и мультимодальных бенчмарках. Благодаря кастомным ядрам теоретический прирост конвертируется в реальное ускорение на GPU NVIDIA H800: в 14.2 раза на этапе prefill и в 7.6 раза при декодировании.
Для практиков: MSA позволяет эффективно обучать и инференсить модели на сверхдлинных контекстах без дорогостоящих компромиссов. Код и веса предобученной модели MiniMax-M3 (109B MoE) уже выложены в открытый доступ, а предложенные CUDA-ядра показывают отличную утилизацию Tensor Core на архитектуре Hopper.
Тут: https://xn--r1a.website/gonzo_ML_podcasts/4056
arXiv.org
MiniMax Sparse Attention
Ultra-long-context capability is becoming indispensable for frontier LLMs: agentic workflows, repository-scale code reasoning, and persistent memory all require the model to jointly attend over...
👍4🤔3🔥2
Давно мы про GFlowNets не писали. А тут их как раз приспособили для латентного ризонинга.
Всё-таки большая тема. Обычный CoT пипец как неэффективен — столько токенов надо прогнать "в мыслях", что убиться можно. Кеши пухнут, память жрётся. И на каждый надо сделать токенизацию/детокенизацию, бутылочное горлышко. Писал уже про неэффективность CoT на днях, но тут с другой стороны оптимизация прилетела. Вообще, думаю уже в этом году начнём видеть сильно более эффективные ризонинг модели, гораздо эффективнее эксплуатирующие имеющееся железо. Сторонники интерпретируемости, конечно, будут не рады, но с другой стороны и в текстовом CoT мы не очень-то можем быть уверены...
Latent Thought Flow: Efficient Latent Reasoning in Large Language Models
Xiandong Zou, Jing Huang, Jianshu Li, Pan Zhou
Paper: https://arxiv.org/abs/2606.16222
Review: https://arxiviq.substack.com/p/latent-thought-flow-efficient-latent
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали:
Авторы представили Latent Thought Flow (LTF) — фреймворк, который моделирует внутренние рассуждения LLM как непрерывные траектории переменной длины, пропорциональные награде. Для оптимизации используется лосс непрерывной генеративной потоковой сети (GFlowNet) с субтраекторным балансом, взвешенным по энтропии, и регуляризацией через априорное распределение (reference-prior).
ПОЧЕМУ это важно:
LTF решает проблему «узкого горлышка языкового пространства», которая возникает при явной генерации цепочки рассуждений (CoT). Вместо этого промежуточные рассуждения интернализуются непосредственно в непрерывном пространстве репрезентаций модели. В отличие от классического обучения с подкреплением, где траектории часто коллапсируют в один детерминированный путь, LTF выучивает разнообразное апостериорное распределение скрытых цепочек рассуждений. Это позволяет адаптивно масштабировать вычисления на этапе инференса (test-time) и повышать точность на задачах при радикальном сокращении расхода токенов.
Для практиков:
Метод позволяет значительно ускорить генерацию сложных рассуждений на инференсе, сохраняя при этом высокое качество ответов на логических и математических задачах за счёт исключения фазы токенизации промежуточных «мыслей».
Рассуждать про себя тут: https://xn--r1a.website/gonzo_ML_podcasts/4074
Всё-таки большая тема. Обычный CoT пипец как неэффективен — столько токенов надо прогнать "в мыслях", что убиться можно. Кеши пухнут, память жрётся. И на каждый надо сделать токенизацию/детокенизацию, бутылочное горлышко. Писал уже про неэффективность CoT на днях, но тут с другой стороны оптимизация прилетела. Вообще, думаю уже в этом году начнём видеть сильно более эффективные ризонинг модели, гораздо эффективнее эксплуатирующие имеющееся железо. Сторонники интерпретируемости, конечно, будут не рады, но с другой стороны и в текстовом CoT мы не очень-то можем быть уверены...
Latent Thought Flow: Efficient Latent Reasoning in Large Language Models
Xiandong Zou, Jing Huang, Jianshu Li, Pan Zhou
Paper: https://arxiv.org/abs/2606.16222
Review: https://arxiviq.substack.com/p/latent-thought-flow-efficient-latent
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали:
Авторы представили Latent Thought Flow (LTF) — фреймворк, который моделирует внутренние рассуждения LLM как непрерывные траектории переменной длины, пропорциональные награде. Для оптимизации используется лосс непрерывной генеративной потоковой сети (GFlowNet) с субтраекторным балансом, взвешенным по энтропии, и регуляризацией через априорное распределение (reference-prior).
ПОЧЕМУ это важно:
LTF решает проблему «узкого горлышка языкового пространства», которая возникает при явной генерации цепочки рассуждений (CoT). Вместо этого промежуточные рассуждения интернализуются непосредственно в непрерывном пространстве репрезентаций модели. В отличие от классического обучения с подкреплением, где траектории часто коллапсируют в один детерминированный путь, LTF выучивает разнообразное апостериорное распределение скрытых цепочек рассуждений. Это позволяет адаптивно масштабировать вычисления на этапе инференса (test-time) и повышать точность на задачах при радикальном сокращении расхода токенов.
Для практиков:
Метод позволяет значительно ускорить генерацию сложных рассуждений на инференсе, сохраняя при этом высокое качество ответов на логических и математических задачах за счёт исключения фазы токенизации промежуточных «мыслей».
Рассуждать про себя тут: https://xn--r1a.website/gonzo_ML_podcasts/4074
arXiv.org
Latent Thought Flow: Efficient Latent Reasoning in Large Language Models
Large Language Models (LLMs) increasingly rely on intermediate reasoning, yet explicit Chain-of-Thought (CoT) suffers from a linguistic space bottleneck: each thought must be decoded into tokens,...
🔥9🤔1
Посмотрите только на эти цифры. Accuracy вырастает с 30 до 60, а длина в токенах при этом падает с о 120 до 2. Тут, конечно, флопсы надо посчитать и latency для чистоты, но всё равно.
🔥7🎉1
Вот вам прекрасное субботнее, про constructor theory (писал про неё тут: https://xn--r1a.website/gonzo_ML/3086).
Tests of constructor theory
Chiara Marletto, David Deutsch, Vlatko Vedral
Paper: https://arxiv.org/abs/2606.07352v1
Review: https://arxiviq.substack.com/p/tests-of-constructor-theory
Code: N/A
Model: N/A
# TL;DR
Что сделали: Представили обзор экспериментальной базы и теоретических основ constructor theory. Это новая физическая метатеория (теория о теориях), которая предлагает описывать мир не через траектории объектов и уравнения движения, а через фундаментальные принципы: какие преобразования в природе в принципе возможны, а какие — невозможны.
Почему это важно: Такой подход даёт строгий математический инструмент для решения ключевых проблем фундаментальной физики без привязки к конкретным динамическим моделям. Он позволяет косвенно проверять квантовую гравитацию без поиска отдельных неуловимых гравитонов, формулировать точные законы термодинамики для любых масштабов и описывать появление жизни на языке фундаментальной физики.
Конструировать тут: https://xn--r1a.website/gonzo_ML_podcasts/4085
Tests of constructor theory
Chiara Marletto, David Deutsch, Vlatko Vedral
Paper: https://arxiv.org/abs/2606.07352v1
Review: https://arxiviq.substack.com/p/tests-of-constructor-theory
Code: N/A
Model: N/A
# TL;DR
Что сделали: Представили обзор экспериментальной базы и теоретических основ constructor theory. Это новая физическая метатеория (теория о теориях), которая предлагает описывать мир не через траектории объектов и уравнения движения, а через фундаментальные принципы: какие преобразования в природе в принципе возможны, а какие — невозможны.
Почему это важно: Такой подход даёт строгий математический инструмент для решения ключевых проблем фундаментальной физики без привязки к конкретным динамическим моделям. Он позволяет косвенно проверять квантовую гравитацию без поиска отдельных неуловимых гравитонов, формулировать точные законы термодинамики для любых масштабов и описывать появление жизни на языке фундаментальной физики.
Конструировать тут: https://xn--r1a.website/gonzo_ML_podcasts/4085
arXiv.org
Tests of constructor theory
Constructor theory is a proposal to extend quantum information theory beyond both quantum theory and computation, to cover more general machines than programmable computers -- called constructors....
❤6🤨5👍3🤔2💅1