Есть ещё герои, не забросившие старые добрые RNN. Очень прикольный заход на параллелизацию обучения нелинейных RNN (с линейными всё и так хорошо благодаря associative scan) — обучаем трансформер на выучивание ячеек памяти, хранящих достаточно информации для предсказания следующих элементов последовательности. Дальше используем этот трансформер как учитель для параллельного обучения RNN, которая для каждого шага предсказывает следующее состояние памяти. Не надо никакого BPTT и разворачивания во времени, соответственно забываем про последовательное обучение и затухающие/взрывающиеся градиенты.
Pretraining Recurrent Networks without Recurrence
Akarsh Kumar, Phillip Isola
Paper: https://arxiv.org/abs/2606.06479
Review: https://arxiviq.substack.com/p/pretraining-recurrent-networks-without
Code: https://github.com/akarshkumar0101/smt
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили Supervised Memory Training (SMT) и DAgger Memory Training (DMT) — двухэтапный метод предобучения нелинейных рекуррентных нейросетей (RNN) без использования стандартного обратного распространения ошибки во времени (BPTT). Метод SMT задействует учителя на базе архитектуры Transformer, который сжимает предысторию в целевые предиктивные состояния. Это превращает обучение на последовательностях в набор параллельных во времени одношаговых задач обучения с учителем (supervised learning).
ПОЧЕМУ это важно: Обучение стандартных RNN долго упиралось в последовательные зависимости и нестабильные градиентные пути длиной
Для практиков: Для руководителей ИИ-направлений и архитекторов моделей последовательностей SMT предлагает рабочий мост между отлично параллелизуемым обучением трансформеров и эффективным инференсом рекуррентных сетей с фиксированной памятью. Представляя обработку последовательности как параллельную задачу предсказания множества, этот метод позволяет предобучать выразительные нелинейные рекуррентные архитектуры на длинных последовательностях без затухания или взрыва градиентов.
Быстро обучать RNN тут: https://xn--r1a.website/gonzo_ML_podcasts/4040
Pretraining Recurrent Networks without Recurrence
Akarsh Kumar, Phillip Isola
Paper: https://arxiv.org/abs/2606.06479
Review: https://arxiviq.substack.com/p/pretraining-recurrent-networks-without
Code: https://github.com/akarshkumar0101/smt
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили Supervised Memory Training (SMT) и DAgger Memory Training (DMT) — двухэтапный метод предобучения нелинейных рекуррентных нейросетей (RNN) без использования стандартного обратного распространения ошибки во времени (BPTT). Метод SMT задействует учителя на базе архитектуры Transformer, который сжимает предысторию в целевые предиктивные состояния. Это превращает обучение на последовательностях в набор параллельных во времени одношаговых задач обучения с учителем (supervised learning).
ПОЧЕМУ это важно: Обучение стандартных RNN долго упиралось в последовательные зависимости и нестабильные градиентные пути длиной
O(T). Разделив обучение репрезентациям (что помнить) и динамику переходов (как обновлять память), SMT обеспечивает стабильный градиентный путь O(1) и полную параллелизацию во времени при предобучении. При этом сохраняются константная сложность по памяти O(1) на инференсе и высокая выразительность нелинейных RNN.Для практиков: Для руководителей ИИ-направлений и архитекторов моделей последовательностей SMT предлагает рабочий мост между отлично параллелизуемым обучением трансформеров и эффективным инференсом рекуррентных сетей с фиксированной памятью. Представляя обработку последовательности как параллельную задачу предсказания множества, этот метод позволяет предобучать выразительные нелинейные рекуррентные архитектуры на длинных последовательностях без затухания или взрыва градиентов.
Быстро обучать RNN тут: https://xn--r1a.website/gonzo_ML_podcasts/4040
arXiv.org
Pretraining Recurrent Networks without Recurrence
Training recurrent neural networks (RNNs) requires assigning credit across long sequences of computations. Standard backpropagation through time (BPTT) addresses this problem poorly: it is...
🤔6👍2❤1
MiniMax-M3 и его разреженное внимание.
MiniMax Sparse Attention
Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Jinkai Hu, Jiayao Li, Rui Gao, Zekun Li, Songquan Zhu, Jingkai Zhou and Pengyu Zhao
Paper: https://arxiv.org/abs/2606.13392
Review: https://arxiviq.substack.com/p/minimax-sparse-attention
Code: https://github.com/MiniMax-AI/MSA
Model: https://huggingface.co/MiniMaxAI/MiniMax-M3
# TL;DR
ЧТО сделали: Авторы представили MiniMax Sparse Attention (MSA) — аппаратно-алгоритмически оптимизированный механизм разреженного блочного внимания (blockwise sparse attention), построенный прямо поверх Grouped-Query Attention (GQA) (https://arxiv.org/abs/2305.13245). MSA использует легковесную индексную ветку (Index Branch) для независимого выбора подмножества KV-блоков (key-value blocks) для каждой GQA-группы и основную ветку (Main Branch), которая считает точное разреженное внимание только по выбранным блокам.
ПОЧЕМУ это важно: На сверхдлинных контекстах (до миллиона токенов) квадратичная сложность стандартного внимания становится жёстким вычислительным бутылочным горлышком. MSA устраняет этот барьер, снижая количество FLOPs на токен в блоке внимания до 28.4 раз при длине контекста 1M токенов, сохраняя при этом качество GQA на основных даунстрим-задачах, агентных и мультимодальных бенчмарках. Благодаря кастомным ядрам теоретический прирост конвертируется в реальное ускорение на GPU NVIDIA H800: в 14.2 раза на этапе prefill и в 7.6 раза при декодировании.
Для практиков: MSA позволяет эффективно обучать и инференсить модели на сверхдлинных контекстах без дорогостоящих компромиссов. Код и веса предобученной модели MiniMax-M3 (109B MoE) уже выложены в открытый доступ, а предложенные CUDA-ядра показывают отличную утилизацию Tensor Core на архитектуре Hopper.
Тут: https://xn--r1a.website/gonzo_ML_podcasts/4056
MiniMax Sparse Attention
Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Jinkai Hu, Jiayao Li, Rui Gao, Zekun Li, Songquan Zhu, Jingkai Zhou and Pengyu Zhao
Paper: https://arxiv.org/abs/2606.13392
Review: https://arxiviq.substack.com/p/minimax-sparse-attention
Code: https://github.com/MiniMax-AI/MSA
Model: https://huggingface.co/MiniMaxAI/MiniMax-M3
# TL;DR
ЧТО сделали: Авторы представили MiniMax Sparse Attention (MSA) — аппаратно-алгоритмически оптимизированный механизм разреженного блочного внимания (blockwise sparse attention), построенный прямо поверх Grouped-Query Attention (GQA) (https://arxiv.org/abs/2305.13245). MSA использует легковесную индексную ветку (Index Branch) для независимого выбора подмножества KV-блоков (key-value blocks) для каждой GQA-группы и основную ветку (Main Branch), которая считает точное разреженное внимание только по выбранным блокам.
ПОЧЕМУ это важно: На сверхдлинных контекстах (до миллиона токенов) квадратичная сложность стандартного внимания становится жёстким вычислительным бутылочным горлышком. MSA устраняет этот барьер, снижая количество FLOPs на токен в блоке внимания до 28.4 раз при длине контекста 1M токенов, сохраняя при этом качество GQA на основных даунстрим-задачах, агентных и мультимодальных бенчмарках. Благодаря кастомным ядрам теоретический прирост конвертируется в реальное ускорение на GPU NVIDIA H800: в 14.2 раза на этапе prefill и в 7.6 раза при декодировании.
Для практиков: MSA позволяет эффективно обучать и инференсить модели на сверхдлинных контекстах без дорогостоящих компромиссов. Код и веса предобученной модели MiniMax-M3 (109B MoE) уже выложены в открытый доступ, а предложенные CUDA-ядра показывают отличную утилизацию Tensor Core на архитектуре Hopper.
Тут: https://xn--r1a.website/gonzo_ML_podcasts/4056
arXiv.org
MiniMax Sparse Attention
Ultra-long-context capability is becoming indispensable for frontier LLMs: agentic workflows, repository-scale code reasoning, and persistent memory all require the model to jointly attend over...
👍4🤔3🔥2
Давно мы про GFlowNets не писали. А тут их как раз приспособили для латентного ризонинга.
Всё-таки большая тема. Обычный CoT пипец как неэффективен — столько токенов надо прогнать "в мыслях", что убиться можно. Кеши пухнут, память жрётся. И на каждый надо сделать токенизацию/детокенизацию, бутылочное горлышко. Писал уже про неэффективность CoT на днях, но тут с другой стороны оптимизация прилетела. Вообще, думаю уже в этом году начнём видеть сильно более эффективные ризонинг модели, гораздо эффективнее эксплуатирующие имеющееся железо. Сторонники интерпретируемости, конечно, будут не рады, но с другой стороны и в текстовом CoT мы не очень-то можем быть уверены...
Latent Thought Flow: Efficient Latent Reasoning in Large Language Models
Xiandong Zou, Jing Huang, Jianshu Li, Pan Zhou
Paper: https://arxiv.org/abs/2606.16222
Review: https://arxiviq.substack.com/p/latent-thought-flow-efficient-latent
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали:
Авторы представили Latent Thought Flow (LTF) — фреймворк, который моделирует внутренние рассуждения LLM как непрерывные траектории переменной длины, пропорциональные награде. Для оптимизации используется лосс непрерывной генеративной потоковой сети (GFlowNet) с субтраекторным балансом, взвешенным по энтропии, и регуляризацией через априорное распределение (reference-prior).
ПОЧЕМУ это важно:
LTF решает проблему «узкого горлышка языкового пространства», которая возникает при явной генерации цепочки рассуждений (CoT). Вместо этого промежуточные рассуждения интернализуются непосредственно в непрерывном пространстве репрезентаций модели. В отличие от классического обучения с подкреплением, где траектории часто коллапсируют в один детерминированный путь, LTF выучивает разнообразное апостериорное распределение скрытых цепочек рассуждений. Это позволяет адаптивно масштабировать вычисления на этапе инференса (test-time) и повышать точность на задачах при радикальном сокращении расхода токенов.
Для практиков:
Метод позволяет значительно ускорить генерацию сложных рассуждений на инференсе, сохраняя при этом высокое качество ответов на логических и математических задачах за счёт исключения фазы токенизации промежуточных «мыслей».
Рассуждать про себя тут: https://xn--r1a.website/gonzo_ML_podcasts/4074
Всё-таки большая тема. Обычный CoT пипец как неэффективен — столько токенов надо прогнать "в мыслях", что убиться можно. Кеши пухнут, память жрётся. И на каждый надо сделать токенизацию/детокенизацию, бутылочное горлышко. Писал уже про неэффективность CoT на днях, но тут с другой стороны оптимизация прилетела. Вообще, думаю уже в этом году начнём видеть сильно более эффективные ризонинг модели, гораздо эффективнее эксплуатирующие имеющееся железо. Сторонники интерпретируемости, конечно, будут не рады, но с другой стороны и в текстовом CoT мы не очень-то можем быть уверены...
Latent Thought Flow: Efficient Latent Reasoning in Large Language Models
Xiandong Zou, Jing Huang, Jianshu Li, Pan Zhou
Paper: https://arxiv.org/abs/2606.16222
Review: https://arxiviq.substack.com/p/latent-thought-flow-efficient-latent
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали:
Авторы представили Latent Thought Flow (LTF) — фреймворк, который моделирует внутренние рассуждения LLM как непрерывные траектории переменной длины, пропорциональные награде. Для оптимизации используется лосс непрерывной генеративной потоковой сети (GFlowNet) с субтраекторным балансом, взвешенным по энтропии, и регуляризацией через априорное распределение (reference-prior).
ПОЧЕМУ это важно:
LTF решает проблему «узкого горлышка языкового пространства», которая возникает при явной генерации цепочки рассуждений (CoT). Вместо этого промежуточные рассуждения интернализуются непосредственно в непрерывном пространстве репрезентаций модели. В отличие от классического обучения с подкреплением, где траектории часто коллапсируют в один детерминированный путь, LTF выучивает разнообразное апостериорное распределение скрытых цепочек рассуждений. Это позволяет адаптивно масштабировать вычисления на этапе инференса (test-time) и повышать точность на задачах при радикальном сокращении расхода токенов.
Для практиков:
Метод позволяет значительно ускорить генерацию сложных рассуждений на инференсе, сохраняя при этом высокое качество ответов на логических и математических задачах за счёт исключения фазы токенизации промежуточных «мыслей».
Рассуждать про себя тут: https://xn--r1a.website/gonzo_ML_podcasts/4074
arXiv.org
Latent Thought Flow: Efficient Latent Reasoning in Large Language Models
Large Language Models (LLMs) increasingly rely on intermediate reasoning, yet explicit Chain-of-Thought (CoT) suffers from a linguistic space bottleneck: each thought must be decoded into tokens,...
🔥9🤔1
Посмотрите только на эти цифры. Accuracy вырастает с 30 до 60, а длина в токенах при этом падает с о 120 до 2. Тут, конечно, флопсы надо посчитать и latency для чистоты, но всё равно.
🔥7🎉1
Вот вам прекрасное субботнее, про constructor theory (писал про неё тут: https://xn--r1a.website/gonzo_ML/3086).
Tests of constructor theory
Chiara Marletto, David Deutsch, Vlatko Vedral
Paper: https://arxiv.org/abs/2606.07352v1
Review: https://arxiviq.substack.com/p/tests-of-constructor-theory
Code: N/A
Model: N/A
# TL;DR
Что сделали: Представили обзор экспериментальной базы и теоретических основ constructor theory. Это новая физическая метатеория (теория о теориях), которая предлагает описывать мир не через траектории объектов и уравнения движения, а через фундаментальные принципы: какие преобразования в природе в принципе возможны, а какие — невозможны.
Почему это важно: Такой подход даёт строгий математический инструмент для решения ключевых проблем фундаментальной физики без привязки к конкретным динамическим моделям. Он позволяет косвенно проверять квантовую гравитацию без поиска отдельных неуловимых гравитонов, формулировать точные законы термодинамики для любых масштабов и описывать появление жизни на языке фундаментальной физики.
Конструировать тут: https://xn--r1a.website/gonzo_ML_podcasts/4085
Tests of constructor theory
Chiara Marletto, David Deutsch, Vlatko Vedral
Paper: https://arxiv.org/abs/2606.07352v1
Review: https://arxiviq.substack.com/p/tests-of-constructor-theory
Code: N/A
Model: N/A
# TL;DR
Что сделали: Представили обзор экспериментальной базы и теоретических основ constructor theory. Это новая физическая метатеория (теория о теориях), которая предлагает описывать мир не через траектории объектов и уравнения движения, а через фундаментальные принципы: какие преобразования в природе в принципе возможны, а какие — невозможны.
Почему это важно: Такой подход даёт строгий математический инструмент для решения ключевых проблем фундаментальной физики без привязки к конкретным динамическим моделям. Он позволяет косвенно проверять квантовую гравитацию без поиска отдельных неуловимых гравитонов, формулировать точные законы термодинамики для любых масштабов и описывать появление жизни на языке фундаментальной физики.
Конструировать тут: https://xn--r1a.website/gonzo_ML_podcasts/4085
arXiv.org
Tests of constructor theory
Constructor theory is a proposal to extend quantum information theory beyond both quantum theory and computation, to cover more general machines than programmable computers -- called constructors....
❤6🤨5👍3🤔2💅1
Universal (Loop) Transformers приходят в модели мира.
Looped World Models
Hongyuan Adam Lu, Z.L. Victor Wei, Qun Zhang, Jinrui Zeng, Bowen Cao, Lingwei Meng, Mocheng Li, Zezhong Wang, Haonan Yin, Naifu Xue, Minyu Chen, Cenyuan Zhang, Zefan Zhang, Hao Wei, Jiawei Zhou, Haoran Xu, Hao Yang, Ronglai Zuo, Tongda Xu, Yonghao Li, Jian Chen, Hebin Wang, Zeyu Gao, Yang Li, Wei Zhao, Qimin Zhong, Siqi Liu, Yumeng Zhang, Leyan Cui, Zhangyu Wang, Wai Lam
Paper: https://arxiv.org/abs/2606.18208
Review: https://arxiviq.substack.com/p/looped-world-models
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили Looped World Models (LoopWM) — новую архитектуру трансформеров с рекуррентной глубиной для моделирования мира. LoopWM использует блок трансформера с общими весами, который итеративно уточняет латентные репрезентации среды. Модель опирается на математически гарантированный сжимающий механизм удержания состояния (state retention) и адаптивную стратегию раннего выхода. Идею расширили концепцией «отложенного декодирования» (Deferred Decoding, LoopWM-DD), где роллаут траектории действий происходит исключительно в латентном пространстве, а декодирование откладывается до самого последнего шага.
ПОЧЕМУ это важно: Классические модели мира ограничены жёстким компромиссом: для моделирования длинных горизонтов планирования требуются глубокие, тяжёлые по параметрам архитектуры. Однако они склонны к накоплению ошибок роллаута и дороги в развёртывании. LoopWM предлагает итеративную латентную глубину как ортогональную ось масштабирования, позволяя повысить эффективность использования параметров до
Для практиков: Архитектура позволяет гибко регулировать баланс между точностью и скоростью вычислений на этапе инференса без переобучения модели. За счёт переноса роллаутов в латентное пространство и отложенного декодирования можно радикально ускорить симуляцию физики в задачах планирования и обучения с подкреплением на реальном железе.
Моделировать мир здесь: https://xn--r1a.website/gonzo_ML_podcasts/4095
Looped World Models
Hongyuan Adam Lu, Z.L. Victor Wei, Qun Zhang, Jinrui Zeng, Bowen Cao, Lingwei Meng, Mocheng Li, Zezhong Wang, Haonan Yin, Naifu Xue, Minyu Chen, Cenyuan Zhang, Zefan Zhang, Hao Wei, Jiawei Zhou, Haoran Xu, Hao Yang, Ronglai Zuo, Tongda Xu, Yonghao Li, Jian Chen, Hebin Wang, Zeyu Gao, Yang Li, Wei Zhao, Qimin Zhong, Siqi Liu, Yumeng Zhang, Leyan Cui, Zhangyu Wang, Wai Lam
Paper: https://arxiv.org/abs/2606.18208
Review: https://arxiviq.substack.com/p/looped-world-models
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили Looped World Models (LoopWM) — новую архитектуру трансформеров с рекуррентной глубиной для моделирования мира. LoopWM использует блок трансформера с общими весами, который итеративно уточняет латентные репрезентации среды. Модель опирается на математически гарантированный сжимающий механизм удержания состояния (state retention) и адаптивную стратегию раннего выхода. Идею расширили концепцией «отложенного декодирования» (Deferred Decoding, LoopWM-DD), где роллаут траектории действий происходит исключительно в латентном пространстве, а декодирование откладывается до самого последнего шага.
ПОЧЕМУ это важно: Классические модели мира ограничены жёстким компромиссом: для моделирования длинных горизонтов планирования требуются глубокие, тяжёлые по параметрам архитектуры. Однако они склонны к накоплению ошибок роллаута и дороги в развёртывании. LoopWM предлагает итеративную латентную глубину как ортогональную ось масштабирования, позволяя повысить эффективность использования параметров до
100x. Модель LoopWM с 1 миллиардом параметров обходит огромные проприетарные системы, открывая путь к запуску стабильных симуляторов физики на робототехнических Edge-платформах с жёсткими ограничениями по питанию и времени работы.Для практиков: Архитектура позволяет гибко регулировать баланс между точностью и скоростью вычислений на этапе инференса без переобучения модели. За счёт переноса роллаутов в латентное пространство и отложенного декодирования можно радикально ускорить симуляцию физики в задачах планирования и обучения с подкреплением на реальном железе.
Моделировать мир здесь: https://xn--r1a.website/gonzo_ML_podcasts/4095
arXiv.org
Looped World Models
Current world models face a fundamental tension: faithful long-horizon simulation demands deep computation, but deeper models are expensive to deploy and prone to compounding errors. We resolve...
🔥4❤1