gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

✍1

2.98K views13:57

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

🔥7✍1

3.2K views13:59

gonzo-обзоры ML статей

Сложно поспорить

❤21👍5👏1

2.97K views17:23

gonzo-обзоры ML статей

Есть ещё герои, не забросившие старые добрые RNN. Очень прикольный заход на параллелизацию обучения нелинейных RNN (с линейными всё и так хорошо благодаря associative scan) — обучаем трансформер на выучивание ячеек памяти, хранящих достаточно информации для предсказания следующих элементов последовательности. Дальше используем этот трансформер как учитель для параллельного обучения RNN, которая для каждого шага предсказывает следующее состояние памяти. Не надо никакого BPTT и разворачивания во времени, соответственно забываем про последовательное обучение и затухающие/взрывающиеся градиенты.

Pretraining Recurrent Networks without Recurrence
Akarsh Kumar, Phillip Isola
Paper: https://arxiv.org/abs/2606.06479
Review: https://arxiviq.substack.com/p/pretraining-recurrent-networks-without
Code: https://github.com/akarshkumar0101/smt
Model: N/A

# TL;DR

ЧТО сделали: Авторы представили Supervised Memory Training (SMT) и DAgger Memory Training (DMT) — двухэтапный метод предобучения нелинейных рекуррентных нейросетей (RNN) без использования стандартного обратного распространения ошибки во времени (BPTT). Метод SMT задействует учителя на базе архитектуры Transformer, который сжимает предысторию в целевые предиктивные состояния. Это превращает обучение на последовательностях в набор параллельных во времени одношаговых задач обучения с учителем (supervised learning).

ПОЧЕМУ это важно: Обучение стандартных RNN долго упиралось в последовательные зависимости и нестабильные градиентные пути длиной O(T). Разделив обучение репрезентациям (что помнить) и динамику переходов (как обновлять память), SMT обеспечивает стабильный градиентный путь O(1) и полную параллелизацию во времени при предобучении. При этом сохраняются константная сложность по памяти O(1) на инференсе и высокая выразительность нелинейных RNN.

Для практиков: Для руководителей ИИ-направлений и архитекторов моделей последовательностей SMT предлагает рабочий мост между отлично параллелизуемым обучением трансформеров и эффективным инференсом рекуррентных сетей с фиксированной памятью. Представляя обработку последовательности как параллельную задачу предсказания множества, этот метод позволяет предобучать выразительные нелинейные рекуррентные архитектуры на длинных последовательностях без затухания или взрыва градиентов.

Быстро обучать RNN тут: https://xn--r1a.website/gonzo_ML_podcasts/4040

arXiv.org

Pretraining Recurrent Networks without Recurrence

Training recurrent neural networks (RNNs) requires assigning credit across long sequences of computations. Standard backpropagation through time (BPTT) addresses this problem poorly: it is...

🤔6👍2❤1

2.34K viewsedited 18:32

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

1.9K views18:32

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.01K views18:33

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.19K views18:33

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.25K views18:33

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

❤7👍1

2.19K views18:34

gonzo-обзоры ML статей

MiniMax-M3 и его разреженное внимание.

MiniMax Sparse Attention
Xunhao Lai, Weiqi Xu, Yufeng Yang, Qiaorui Chen, Yang Xu, Lunbin Zeng, Xiaolong Li, Haohai Sun, Haichao Zhu, Vito Zhang, Jinkai Hu, Jiayao Li, Rui Gao, Zekun Li, Songquan Zhu, Jingkai Zhou and Pengyu Zhao
Paper: https://arxiv.org/abs/2606.13392
Review: https://arxiviq.substack.com/p/minimax-sparse-attention
Code: https://github.com/MiniMax-AI/MSA
Model: https://huggingface.co/MiniMaxAI/MiniMax-M3

# TL;DR

ЧТО сделали: Авторы представили MiniMax Sparse Attention (MSA) — аппаратно-алгоритмически оптимизированный механизм разреженного блочного внимания (blockwise sparse attention), построенный прямо поверх Grouped-Query Attention (GQA) (https://arxiv.org/abs/2305.13245). MSA использует легковесную индексную ветку (Index Branch) для независимого выбора подмножества KV-блоков (key-value blocks) для каждой GQA-группы и основную ветку (Main Branch), которая считает точное разреженное внимание только по выбранным блокам.

ПОЧЕМУ это важно: На сверхдлинных контекстах (до миллиона токенов) квадратичная сложность стандартного внимания становится жёстким вычислительным бутылочным горлышком. MSA устраняет этот барьер, снижая количество FLOPs на токен в блоке внимания до 28.4 раз при длине контекста 1M токенов, сохраняя при этом качество GQA на основных даунстрим-задачах, агентных и мультимодальных бенчмарках. Благодаря кастомным ядрам теоретический прирост конвертируется в реальное ускорение на GPU NVIDIA H800: в 14.2 раза на этапе prefill и в 7.6 раза при декодировании.

Для практиков: MSA позволяет эффективно обучать и инференсить модели на сверхдлинных контекстах без дорогостоящих компромиссов. Код и веса предобученной модели MiniMax-M3 (109B MoE) уже выложены в открытый доступ, а предложенные CUDA-ядра показывают отличную утилизацию Tensor Core на архитектуре Hopper.

Тут: https://xn--r1a.website/gonzo_ML_podcasts/4056

arXiv.org

MiniMax Sparse Attention

Ultra-long-context capability is becoming indispensable for frontier LLMs: agentic workflows, repository-scale code reasoning, and persistent memory all require the model to jointly attend over...

👍4🤔3🔥2

2.32K views14:18

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.09K views14:18

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.13K views14:18

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

👍3👌1

2.22K views14:18

gonzo-обзоры ML статей

Давно мы про GFlowNets не писали. А тут их как раз приспособили для латентного ризонинга.

Всё-таки большая тема. Обычный CoT пипец как неэффективен — столько токенов надо прогнать "в мыслях", что убиться можно. Кеши пухнут, память жрётся. И на каждый надо сделать токенизацию/детокенизацию, бутылочное горлышко. Писал уже про неэффективность CoT на днях, но тут с другой стороны оптимизация прилетела. Вообще, думаю уже в этом году начнём видеть сильно более эффективные ризонинг модели, гораздо эффективнее эксплуатирующие имеющееся железо. Сторонники интерпретируемости, конечно, будут не рады, но с другой стороны и в текстовом CoT мы не очень-то можем быть уверены...

Latent Thought Flow: Efficient Latent Reasoning in Large Language Models
Xiandong Zou, Jing Huang, Jianshu Li, Pan Zhou
Paper: https://arxiv.org/abs/2606.16222
Review: https://arxiviq.substack.com/p/latent-thought-flow-efficient-latent
Code: N/A
Model: N/A

# TL;DR

ЧТО сделали:
Авторы представили Latent Thought Flow (LTF) — фреймворк, который моделирует внутренние рассуждения LLM как непрерывные траектории переменной длины, пропорциональные награде. Для оптимизации используется лосс непрерывной генеративной потоковой сети (GFlowNet) с субтраекторным балансом, взвешенным по энтропии, и регуляризацией через априорное распределение (reference-prior).

ПОЧЕМУ это важно:
LTF решает проблему «узкого горлышка языкового пространства», которая возникает при явной генерации цепочки рассуждений (CoT). Вместо этого промежуточные рассуждения интернализуются непосредственно в непрерывном пространстве репрезентаций модели. В отличие от классического обучения с подкреплением, где траектории часто коллапсируют в один детерминированный путь, LTF выучивает разнообразное апостериорное распределение скрытых цепочек рассуждений. Это позволяет адаптивно масштабировать вычисления на этапе инференса (test-time) и повышать точность на задачах при радикальном сокращении расхода токенов.

Для практиков:
Метод позволяет значительно ускорить генерацию сложных рассуждений на инференсе, сохраняя при этом высокое качество ответов на логических и математических задачах за счёт исключения фазы токенизации промежуточных «мыслей».

Рассуждать про себя тут: https://xn--r1a.website/gonzo_ML_podcasts/4074

arXiv.org

Latent Thought Flow: Efficient Latent Reasoning in Large Language Models

Large Language Models (LLMs) increasingly rely on intermediate reasoning, yet explicit Chain-of-Thought (CoT) suffers from a linguistic space bottleneck: each thought must be decoded into tokens,...

🔥9🤔1

2.22K views20:05

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

1.96K views20:06

gonzo-обзоры ML статей

Посмотрите только на эти цифры. Accuracy вырастает с 30 до 60, а длина в токенах при этом падает с о 120 до 2. Тут, конечно, флопсы надо посчитать и latency для чистоты, но всё равно.

🔥7🎉1

2.18K viewsedited 20:08

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

2.21K views20:08

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

🔥7🤔1

2.42K views20:08

gonzo-обзоры ML статей

Что-то происходит

🔥9🤯5🤔1

2.66K views20:38

gonzo-обзоры ML статей

Вот вам прекрасное субботнее, про constructor theory (писал про неё тут: https://xn--r1a.website/gonzo_ML/3086).

Tests of constructor theory
Chiara Marletto, David Deutsch, Vlatko Vedral
Paper: https://arxiv.org/abs/2606.07352v1
Review: https://arxiviq.substack.com/p/tests-of-constructor-theory
Code: N/A
Model: N/A

# TL;DR

Что сделали: Представили обзор экспериментальной базы и теоретических основ constructor theory. Это новая физическая метатеория (теория о теориях), которая предлагает описывать мир не через траектории объектов и уравнения движения, а через фундаментальные принципы: какие преобразования в природе в принципе возможны, а какие — невозможны.

Почему это важно: Такой подход даёт строгий математический инструмент для решения ключевых проблем фундаментальной физики без привязки к конкретным динамическим моделям. Он позволяет косвенно проверять квантовую гравитацию без поиска отдельных неуловимых гравитонов, формулировать точные законы термодинамики для любых масштабов и описывать появление жизни на языке фундаментальной физики.

Конструировать тут: https://xn--r1a.website/gonzo_ML_podcasts/4085

arXiv.org

Tests of constructor theory

Constructor theory is a proposal to extend quantum information theory beyond both quantum theory and computation, to cover more general machines than programmable computers -- called constructors....

❤6🤨5👍3🤔2💅1

1.72K views09:42

gonzo-обзоры ML статей

Forwarded from gonzo_ML_podcasts

1.53K views09:42

About

Blog

Apps

Platform