gonzo-обзоры ML статей
24.3K subscribers
3.62K photos
3 videos
3 files
1.66K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
Но боюсь Макрон забанит скоро...
😁45💯3🤬1
Или есть там всё-таки этот бэкпроп...

This is how the Neocortex Learns
Randall C. O'Reilly
Paper: https://compcogneuro.org/oreilly-2026-cortlearn (https://arxiv.org/abs/2606.08720)
Review: https://arxiviq.substack.com/p/this-is-how-the-neocortex-learns
Code: N/A
Model: N/A

# TL;DR

ЧТО сделали: Автор представил масштабный междисциплинарный теоретический синтез, доказывающий, что неокортекс млекопитающих обучается путём аппроксимации алгоритма обратного распространения ошибки. Эта аппроксимация реализуется через «модель временной производной» (temporal derivative model): градиенты ошибок неявно кодируются как разность между последовательными состояниями активации предсказания и результата в рамках 200-миллисекундного тета-цикла. Биологически модель опирается на двунаправленные кортикоталамические петли, а на субклеточном уровне — на конкурентную синаптическую пластичность под управлением киназ.

ПОЧЕМУ это важно: Эта работа разрешает давний, длившийся десятилетиями спор о биологической правдоподобности глубокого распределения ответственности (credit assignment) в мозге. Показывая, как неокортекс может неявно выполнять градиентный спуск без выделенных «нейронов ошибок» или физически невозможных обратных связей, предложенный фреймворк даёт единую теорию обучения млекопитающих.

Для практиков: Работа предлагает чёткий чертёж для проектирования энергоэффективных аппаратных правил обучения на чипе и нейроморфных архитектур, способных масштабироваться подобно глубоким нейросетям.

Искать бэкпроп здесь: https://xn--r1a.website/gonzo_ML_podcasts/4031
1🔥26👀7🥰2🤔211🥴1
Forwarded from gonzo_ML_podcasts
🔥71
Сложно поспорить
21👍5👏1
Есть ещё герои, не забросившие старые добрые RNN. Очень прикольный заход на параллелизацию обучения нелинейных RNN (с линейными всё и так хорошо благодаря associative scan) — обучаем трансформер на выучивание ячеек памяти, хранящих достаточно информации для предсказания следующих элементов последовательности. Дальше используем этот трансформер как учитель для параллельного обучения RNN, которая для каждого шага предсказывает следующее состояние памяти. Не надо никакого BPTT и разворачивания во времени, соответственно забываем про последовательное обучение и затухающие/взрывающиеся градиенты.

Pretraining Recurrent Networks without Recurrence
Akarsh Kumar, Phillip Isola
Paper: https://arxiv.org/abs/2606.06479
Review: https://arxiviq.substack.com/p/pretraining-recurrent-networks-without
Code: https://github.com/akarshkumar0101/smt
Model: N/A

# TL;DR

ЧТО сделали: Авторы представили Supervised Memory Training (SMT) и DAgger Memory Training (DMT) — двухэтапный метод предобучения нелинейных рекуррентных нейросетей (RNN) без использования стандартного обратного распространения ошибки во времени (BPTT). Метод SMT задействует учителя на базе архитектуры Transformer, который сжимает предысторию в целевые предиктивные состояния. Это превращает обучение на последовательностях в набор параллельных во времени одношаговых задач обучения с учителем (supervised learning).

ПОЧЕМУ это важно: Обучение стандартных RNN долго упиралось в последовательные зависимости и нестабильные градиентные пути длиной O(T). Разделив обучение репрезентациям (что помнить) и динамику переходов (как обновлять память), SMT обеспечивает стабильный градиентный путь O(1) и полную параллелизацию во времени при предобучении. При этом сохраняются константная сложность по памяти O(1) на инференсе и высокая выразительность нелинейных RNN.

Для практиков: Для руководителей ИИ-направлений и архитекторов моделей последовательностей SMT предлагает рабочий мост между отлично параллелизуемым обучением трансформеров и эффективным инференсом рекуррентных сетей с фиксированной памятью. Представляя обработку последовательности как параллельную задачу предсказания множества, этот метод позволяет предобучать выразительные нелинейные рекуррентные архитектуры на длинных последовательностях без затухания или взрыва градиентов.

Быстро обучать RNN тут: https://xn--r1a.website/gonzo_ML_podcasts/4040
🤔6👍21
Forwarded from gonzo_ML_podcasts
7👍1
MiniMax-M3 и его разреженное внимание.

MiniMax Sparse Attention
Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Jinkai Hu, Jiayao Li, Rui Gao, Zekun Li, Songquan Zhu, Jingkai Zhou and Pengyu Zhao
Paper: https://arxiv.org/abs/2606.13392
Review: https://arxiviq.substack.com/p/minimax-sparse-attention
Code: https://github.com/MiniMax-AI/MSA
Model: https://huggingface.co/MiniMaxAI/MiniMax-M3

# TL;DR

ЧТО сделали: Авторы представили MiniMax Sparse Attention (MSA) — аппаратно-алгоритмически оптимизированный механизм разреженного блочного внимания (blockwise sparse attention), построенный прямо поверх Grouped-Query Attention (GQA) (https://arxiv.org/abs/2305.13245). MSA использует легковесную индексную ветку (Index Branch) для независимого выбора подмножества KV-блоков (key-value blocks) для каждой GQA-группы и основную ветку (Main Branch), которая считает точное разреженное внимание только по выбранным блокам.

ПОЧЕМУ это важно: На сверхдлинных контекстах (до миллиона токенов) квадратичная сложность стандартного внимания становится жёстким вычислительным бутылочным горлышком. MSA устраняет этот барьер, снижая количество FLOPs на токен в блоке внимания до 28.4 раз при длине контекста 1M токенов, сохраняя при этом качество GQA на основных даунстрим-задачах, агентных и мультимодальных бенчмарках. Благодаря кастомным ядрам теоретический прирост конвертируется в реальное ускорение на GPU NVIDIA H800: в 14.2 раза на этапе prefill и в 7.6 раза при декодировании.

Для практиков: MSA позволяет эффективно обучать и инференсить модели на сверхдлинных контекстах без дорогостоящих компромиссов. Код и веса предобученной модели MiniMax-M3 (109B MoE) уже выложены в открытый доступ, а предложенные CUDA-ядра показывают отличную утилизацию Tensor Core на архитектуре Hopper.

Тут: https://xn--r1a.website/gonzo_ML_podcasts/4056
👍4🤔3🔥2
Forwarded from gonzo_ML_podcasts
👍3👌1
Давно мы про GFlowNets не писали. А тут их как раз приспособили для латентного ризонинга.

Всё-таки большая тема. Обычный CoT пипец как неэффективен — столько токенов надо прогнать "в мыслях", что убиться можно. Кеши пухнут, память жрётся. И на каждый надо сделать токенизацию/детокенизацию, бутылочное горлышко. Писал уже про неэффективность CoT на днях, но тут с другой стороны оптимизация прилетела. Вообще, думаю уже в этом году начнём видеть сильно более эффективные ризонинг модели, гораздо эффективнее эксплуатирующие имеющееся железо. Сторонники интерпретируемости, конечно, будут не рады, но с другой стороны и в текстовом CoT мы не очень-то можем быть уверены...

Latent Thought Flow: Efficient Latent Reasoning in Large Language Models
Xiandong Zou, Jing Huang, Jianshu Li, Pan Zhou
Paper: https://arxiv.org/abs/2606.16222
Review: https://arxiviq.substack.com/p/latent-thought-flow-efficient-latent
Code: N/A
Model: N/A

# TL;DR

ЧТО сделали:
Авторы представили Latent Thought Flow (LTF) — фреймворк, который моделирует внутренние рассуждения LLM как непрерывные траектории переменной длины, пропорциональные награде. Для оптимизации используется лосс непрерывной генеративной потоковой сети (GFlowNet) с субтраекторным балансом, взвешенным по энтропии, и регуляризацией через априорное распределение (reference-prior).

ПОЧЕМУ это важно:
LTF решает проблему «узкого горлышка языкового пространства», которая возникает при явной генерации цепочки рассуждений (CoT). Вместо этого промежуточные рассуждения интернализуются непосредственно в непрерывном пространстве репрезентаций модели. В отличие от классического обучения с подкреплением, где траектории часто коллапсируют в один детерминированный путь, LTF выучивает разнообразное апостериорное распределение скрытых цепочек рассуждений. Это позволяет адаптивно масштабировать вычисления на этапе инференса (test-time) и повышать точность на задачах при радикальном сокращении расхода токенов.

Для практиков:
Метод позволяет значительно ускорить генерацию сложных рассуждений на инференсе, сохраняя при этом высокое качество ответов на логических и математических задачах за счёт исключения фазы токенизации промежуточных «мыслей».

Рассуждать про себя тут: https://xn--r1a.website/gonzo_ML_podcasts/4074
🔥9🤔1
Посмотрите только на эти цифры. Accuracy вырастает с 30 до 60, а длина в токенах при этом падает с о 120 до 2. Тут, конечно, флопсы надо посчитать и latency для чистоты, но всё равно.
🔥7🎉1