Или есть там всё-таки этот бэкпроп...
This is how the Neocortex Learns
Randall C. O'Reilly
Paper: https://compcogneuro.org/oreilly-2026-cortlearn (https://arxiv.org/abs/2606.08720)
Review: https://arxiviq.substack.com/p/this-is-how-the-neocortex-learns
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Автор представил масштабный междисциплинарный теоретический синтез, доказывающий, что неокортекс млекопитающих обучается путём аппроксимации алгоритма обратного распространения ошибки. Эта аппроксимация реализуется через «модель временной производной» (temporal derivative model): градиенты ошибок неявно кодируются как разность между последовательными состояниями активации предсказания и результата в рамках 200-миллисекундного тета-цикла. Биологически модель опирается на двунаправленные кортикоталамические петли, а на субклеточном уровне — на конкурентную синаптическую пластичность под управлением киназ.
ПОЧЕМУ это важно: Эта работа разрешает давний, длившийся десятилетиями спор о биологической правдоподобности глубокого распределения ответственности (credit assignment) в мозге. Показывая, как неокортекс может неявно выполнять градиентный спуск без выделенных «нейронов ошибок» или физически невозможных обратных связей, предложенный фреймворк даёт единую теорию обучения млекопитающих.
Для практиков: Работа предлагает чёткий чертёж для проектирования энергоэффективных аппаратных правил обучения на чипе и нейроморфных архитектур, способных масштабироваться подобно глубоким нейросетям.
Искать бэкпроп здесь: https://xn--r1a.website/gonzo_ML_podcasts/4031
This is how the Neocortex Learns
Randall C. O'Reilly
Paper: https://compcogneuro.org/oreilly-2026-cortlearn (https://arxiv.org/abs/2606.08720)
Review: https://arxiviq.substack.com/p/this-is-how-the-neocortex-learns
Code: N/A
Model: N/A
# TL;DR
ЧТО сделали: Автор представил масштабный междисциплинарный теоретический синтез, доказывающий, что неокортекс млекопитающих обучается путём аппроксимации алгоритма обратного распространения ошибки. Эта аппроксимация реализуется через «модель временной производной» (temporal derivative model): градиенты ошибок неявно кодируются как разность между последовательными состояниями активации предсказания и результата в рамках 200-миллисекундного тета-цикла. Биологически модель опирается на двунаправленные кортикоталамические петли, а на субклеточном уровне — на конкурентную синаптическую пластичность под управлением киназ.
ПОЧЕМУ это важно: Эта работа разрешает давний, длившийся десятилетиями спор о биологической правдоподобности глубокого распределения ответственности (credit assignment) в мозге. Показывая, как неокортекс может неявно выполнять градиентный спуск без выделенных «нейронов ошибок» или физически невозможных обратных связей, предложенный фреймворк даёт единую теорию обучения млекопитающих.
Для практиков: Работа предлагает чёткий чертёж для проектирования энергоэффективных аппаратных правил обучения на чипе и нейроморфных архитектур, способных масштабироваться подобно глубоким нейросетям.
Искать бэкпроп здесь: https://xn--r1a.website/gonzo_ML_podcasts/4031
Computational Cognitive Neuroscience
OReilly (2026) Cortical Learning
Understanding how the neocortex learns is perhaps the single most important step in understanding human intelligence, because our cognitive functions emerge over years of experience-driven learning within this brain structure, which is unique to mammals and…
1🔥26👀7🥰2🤔2✍1❤1🥴1
Есть ещё герои, не забросившие старые добрые RNN. Очень прикольный заход на параллелизацию обучения нелинейных RNN (с линейными всё и так хорошо благодаря associative scan) — обучаем трансформер на выучивание ячеек памяти, хранящих достаточно информации для предсказания следующих элементов последовательности. Дальше используем этот трансформер как учитель для параллельного обучения RNN, которая для каждого шага предсказывает следующее состояние памяти. Не надо никакого BPTT и разворачивания во времени, соответственно забываем про последовательное обучение и затухающие/взрывающиеся градиенты.
Pretraining Recurrent Networks without Recurrence
Akarsh Kumar, Phillip Isola
Paper: https://arxiv.org/abs/2606.06479
Review: https://arxiviq.substack.com/p/pretraining-recurrent-networks-without
Code: https://github.com/akarshkumar0101/smt
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили Supervised Memory Training (SMT) и DAgger Memory Training (DMT) — двухэтапный метод предобучения нелинейных рекуррентных нейросетей (RNN) без использования стандартного обратного распространения ошибки во времени (BPTT). Метод SMT задействует учителя на базе архитектуры Transformer, который сжимает предысторию в целевые предиктивные состояния. Это превращает обучение на последовательностях в набор параллельных во времени одношаговых задач обучения с учителем (supervised learning).
ПОЧЕМУ это важно: Обучение стандартных RNN долго упиралось в последовательные зависимости и нестабильные градиентные пути длиной
Для практиков: Для руководителей ИИ-направлений и архитекторов моделей последовательностей SMT предлагает рабочий мост между отлично параллелизуемым обучением трансформеров и эффективным инференсом рекуррентных сетей с фиксированной памятью. Представляя обработку последовательности как параллельную задачу предсказания множества, этот метод позволяет предобучать выразительные нелинейные рекуррентные архитектуры на длинных последовательностях без затухания или взрыва градиентов.
Быстро обучать RNN тут: https://xn--r1a.website/gonzo_ML_podcasts/4040
Pretraining Recurrent Networks without Recurrence
Akarsh Kumar, Phillip Isola
Paper: https://arxiv.org/abs/2606.06479
Review: https://arxiviq.substack.com/p/pretraining-recurrent-networks-without
Code: https://github.com/akarshkumar0101/smt
Model: N/A
# TL;DR
ЧТО сделали: Авторы представили Supervised Memory Training (SMT) и DAgger Memory Training (DMT) — двухэтапный метод предобучения нелинейных рекуррентных нейросетей (RNN) без использования стандартного обратного распространения ошибки во времени (BPTT). Метод SMT задействует учителя на базе архитектуры Transformer, который сжимает предысторию в целевые предиктивные состояния. Это превращает обучение на последовательностях в набор параллельных во времени одношаговых задач обучения с учителем (supervised learning).
ПОЧЕМУ это важно: Обучение стандартных RNN долго упиралось в последовательные зависимости и нестабильные градиентные пути длиной
O(T). Разделив обучение репрезентациям (что помнить) и динамику переходов (как обновлять память), SMT обеспечивает стабильный градиентный путь O(1) и полную параллелизацию во времени при предобучении. При этом сохраняются константная сложность по памяти O(1) на инференсе и высокая выразительность нелинейных RNN.Для практиков: Для руководителей ИИ-направлений и архитекторов моделей последовательностей SMT предлагает рабочий мост между отлично параллелизуемым обучением трансформеров и эффективным инференсом рекуррентных сетей с фиксированной памятью. Представляя обработку последовательности как параллельную задачу предсказания множества, этот метод позволяет предобучать выразительные нелинейные рекуррентные архитектуры на длинных последовательностях без затухания или взрыва градиентов.
Быстро обучать RNN тут: https://xn--r1a.website/gonzo_ML_podcasts/4040
arXiv.org
Pretraining Recurrent Networks without Recurrence
Training recurrent neural networks (RNNs) requires assigning credit across long sequences of computations. Standard backpropagation through time (BPTT) addresses this problem poorly: it is...
🤔6👍2❤1
MiniMax-M3 и его разреженное внимание.
MiniMax Sparse Attention
Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Jinkai Hu, Jiayao Li, Rui Gao, Zekun Li, Songquan Zhu, Jingkai Zhou and Pengyu Zhao
Paper: https://arxiv.org/abs/2606.13392
Review: https://arxiviq.substack.com/p/minimax-sparse-attention
Code: https://github.com/MiniMax-AI/MSA
Model: https://huggingface.co/MiniMaxAI/MiniMax-M3
# TL;DR
ЧТО сделали: Авторы представили MiniMax Sparse Attention (MSA) — аппаратно-алгоритмически оптимизированный механизм разреженного блочного внимания (blockwise sparse attention), построенный прямо поверх Grouped-Query Attention (GQA) (https://arxiv.org/abs/2305.13245). MSA использует легковесную индексную ветку (Index Branch) для независимого выбора подмножества KV-блоков (key-value blocks) для каждой GQA-группы и основную ветку (Main Branch), которая считает точное разреженное внимание только по выбранным блокам.
ПОЧЕМУ это важно: На сверхдлинных контекстах (до миллиона токенов) квадратичная сложность стандартного внимания становится жёстким вычислительным бутылочным горлышком. MSA устраняет этот барьер, снижая количество FLOPs на токен в блоке внимания до 28.4 раз при длине контекста 1M токенов, сохраняя при этом качество GQA на основных даунстрим-задачах, агентных и мультимодальных бенчмарках. Благодаря кастомным ядрам теоретический прирост конвертируется в реальное ускорение на GPU NVIDIA H800: в 14.2 раза на этапе prefill и в 7.6 раза при декодировании.
Для практиков: MSA позволяет эффективно обучать и инференсить модели на сверхдлинных контекстах без дорогостоящих компромиссов. Код и веса предобученной модели MiniMax-M3 (109B MoE) уже выложены в открытый доступ, а предложенные CUDA-ядра показывают отличную утилизацию Tensor Core на архитектуре Hopper.
Тут: https://xn--r1a.website/gonzo_ML_podcasts/4056
MiniMax Sparse Attention
Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Jinkai Hu, Jiayao Li, Rui Gao, Zekun Li, Songquan Zhu, Jingkai Zhou and Pengyu Zhao
Paper: https://arxiv.org/abs/2606.13392
Review: https://arxiviq.substack.com/p/minimax-sparse-attention
Code: https://github.com/MiniMax-AI/MSA
Model: https://huggingface.co/MiniMaxAI/MiniMax-M3
# TL;DR
ЧТО сделали: Авторы представили MiniMax Sparse Attention (MSA) — аппаратно-алгоритмически оптимизированный механизм разреженного блочного внимания (blockwise sparse attention), построенный прямо поверх Grouped-Query Attention (GQA) (https://arxiv.org/abs/2305.13245). MSA использует легковесную индексную ветку (Index Branch) для независимого выбора подмножества KV-блоков (key-value blocks) для каждой GQA-группы и основную ветку (Main Branch), которая считает точное разреженное внимание только по выбранным блокам.
ПОЧЕМУ это важно: На сверхдлинных контекстах (до миллиона токенов) квадратичная сложность стандартного внимания становится жёстким вычислительным бутылочным горлышком. MSA устраняет этот барьер, снижая количество FLOPs на токен в блоке внимания до 28.4 раз при длине контекста 1M токенов, сохраняя при этом качество GQA на основных даунстрим-задачах, агентных и мультимодальных бенчмарках. Благодаря кастомным ядрам теоретический прирост конвертируется в реальное ускорение на GPU NVIDIA H800: в 14.2 раза на этапе prefill и в 7.6 раза при декодировании.
Для практиков: MSA позволяет эффективно обучать и инференсить модели на сверхдлинных контекстах без дорогостоящих компромиссов. Код и веса предобученной модели MiniMax-M3 (109B MoE) уже выложены в открытый доступ, а предложенные CUDA-ядра показывают отличную утилизацию Tensor Core на архитектуре Hopper.
Тут: https://xn--r1a.website/gonzo_ML_podcasts/4056
arXiv.org
MiniMax Sparse Attention
Ultra-long-context capability is becoming indispensable for frontier LLMs: agentic workflows, repository-scale code reasoning, and persistent memory all require the model to jointly attend over...
👍4🤔3🔥2