Больше гибридов SSM+Transformer! NVIDIA уже давно с ними экспериментирует.
NVIDIA Nemotron 3: Efficient and Open Intelligence
NVIDIA (250+ contributors)
Статья: https://arxiv.org/abs/2512.20856
Код: https://github.com/NVIDIA-NeMo/RL
Модель: https://huggingface.co/collections/nvidia/nvidia-nemotron-v3 (пока только Nano c тех.репортом, Super и Ultra обещают в ближайшие месяцы)
Ревью: https://arxiviq.substack.com/p/nvidia-nemotron-3-efficient-and-open
# TL;DR
ЧТО сделали: Представили семейство моделей Nemotron 3 (Nano, Super, Ultra) на базе гибридной архитектуры Mamba-Transformer Mixture-of-Experts (MoE). Главные фишки: LatentMoE (роутинг со сжатием для экономии канала), нативное обучение в NVFP4 для крупных моделей и одновременное RL-обучение в нескольких средах.
ПОЧЕМУ это важно: Это стратегический поворот от плотных (dense) гибридов к разреженным MoE ради скорости. Благодаря константному состоянию Mamba и аппаратно-эффективному LatentMoE модели держат контекст в 1M токенов и значительно обгоняют трансформеры по пропускной способности, а NVFP4 задаёт новый стандарт стабильности для обучения с низкой точностью.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1861
NVIDIA Nemotron 3: Efficient and Open Intelligence
NVIDIA (250+ contributors)
Статья: https://arxiv.org/abs/2512.20856
Код: https://github.com/NVIDIA-NeMo/RL
Модель: https://huggingface.co/collections/nvidia/nvidia-nemotron-v3 (пока только Nano c тех.репортом, Super и Ultra обещают в ближайшие месяцы)
Ревью: https://arxiviq.substack.com/p/nvidia-nemotron-3-efficient-and-open
# TL;DR
ЧТО сделали: Представили семейство моделей Nemotron 3 (Nano, Super, Ultra) на базе гибридной архитектуры Mamba-Transformer Mixture-of-Experts (MoE). Главные фишки: LatentMoE (роутинг со сжатием для экономии канала), нативное обучение в NVFP4 для крупных моделей и одновременное RL-обучение в нескольких средах.
ПОЧЕМУ это важно: Это стратегический поворот от плотных (dense) гибридов к разреженным MoE ради скорости. Благодаря константному состоянию Mamba и аппаратно-эффективному LatentMoE модели держат контекст в 1M токенов и значительно обгоняют трансформеры по пропускной способности, а NVFP4 задаёт новый стандарт стабильности для обучения с низкой точностью.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1861
Google Docs
Transformer Alternatives: What Else is Out There? / Jun'25
Transformer Alternatives: What Else is Out There? Grigory Sapunov 20.06.2025 / Revolut & PyTorch London Meet-up gs@inten.to
❤11
Объединённый автоэнкодер придумали. Объенкодер.
Странно, конечно, что раньше до такого спектрального разложения никто не дошёл. Наверняка кто-то дошёл. Ещё по-своему это похоже на старую историю имени Леона Гатиса про Neural Style Transfer (https://arxiv.org/abs/1508.06576), с которой Призма пошла и много прочего. Там низкоуровневые и высокоуровневые признаки брались с разных слоёв, здесь они же берутся из разных частотных полос разложения Фурье для латента. На кепстральные коэффициенты тоже похоже. Не, ну реально, неужели никто такого же раньше не сделал???
The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
Статья: https://arxiv.org/abs/2512.19693
Код: https://github.com/WeichenFan/UAE
Ревью: https://arxiviq.substack.com/p/the-prism-hypothesis-harmonizing
# TL;DR
ЧТО сделали: Авторы выдвинули «Гипотезу Призмы» (Prism Hypothesis), предположив, что конфликт между пониманием семантики (DINO) и визуальной генерацией (VAE) — это проблема частотной области. Семантика живет в низких частотах, а детали — в высоких. На этой базе создали Unified Autoencoding (UAE) — токенизатор, который через FFT раскладывает латенты на частотные полосы. Он сохраняет низкочастотную «семантическую базу», выровненную с учителем, и выносит мелкие детали реконструкции в остаточные высокочастотные слои.
ПОЧЕМУ это важно: Современные фундаментальные модели страдают от раздвоения архитектуры (отдельные энкодеры для понимания и декодеры для генерации), что неэффективно и ломает представления. UAE показывает, что единое латентное пространство может выдавать SOTA качество реконструкции (обходя RAE и SVG) и при этом сохранять высокую точность linear probing дискриминативных моделей. Это фактически объединяет восприятие и генерацию без привычных компромиссов.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1874
Странно, конечно, что раньше до такого спектрального разложения никто не дошёл. Наверняка кто-то дошёл. Ещё по-своему это похоже на старую историю имени Леона Гатиса про Neural Style Transfer (https://arxiv.org/abs/1508.06576), с которой Призма пошла и много прочего. Там низкоуровневые и высокоуровневые признаки брались с разных слоёв, здесь они же берутся из разных частотных полос разложения Фурье для латента. На кепстральные коэффициенты тоже похоже. Не, ну реально, неужели никто такого же раньше не сделал???
The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
Статья: https://arxiv.org/abs/2512.19693
Код: https://github.com/WeichenFan/UAE
Ревью: https://arxiviq.substack.com/p/the-prism-hypothesis-harmonizing
# TL;DR
ЧТО сделали: Авторы выдвинули «Гипотезу Призмы» (Prism Hypothesis), предположив, что конфликт между пониманием семантики (DINO) и визуальной генерацией (VAE) — это проблема частотной области. Семантика живет в низких частотах, а детали — в высоких. На этой базе создали Unified Autoencoding (UAE) — токенизатор, который через FFT раскладывает латенты на частотные полосы. Он сохраняет низкочастотную «семантическую базу», выровненную с учителем, и выносит мелкие детали реконструкции в остаточные высокочастотные слои.
ПОЧЕМУ это важно: Современные фундаментальные модели страдают от раздвоения архитектуры (отдельные энкодеры для понимания и декодеры для генерации), что неэффективно и ломает представления. UAE показывает, что единое латентное пространство может выдавать SOTA качество реконструкции (обходя RAE и SVG) и при этом сохранять высокую точность linear probing дискриминативных моделей. Это фактически объединяет восприятие и генерацию без привычных компромиссов.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1874
Telegram
gonzo_ML_podcasts
Спектральная унификация: Решаем конфликт семантики и пикселей через частотное разложение
The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
Статья: http…
The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
Статья: http…
👍16❤4😱3🔥1🤔1
System 3 предлагают. Не за горами и System 4.
Sophia: A Persistent Agent Framework of Artificial Life
Mingyang Sun, Feng Hong, Weinan Zhang
Статья: https://arxiv.org/abs/2512.18202
Ревью: https://arxiviq.substack.com/p/sophia-a-persistent-agent-framework
# TL;DR
ЧТО сделали: Авторы предложили концепцию "System 3" — мета-когнитивного слоя, который надстраивается над стандартными модулями восприятия (System 1) и рассуждений (System 2) в LLM. Реализация этой идеи представлена в Sophia — фреймворке персистентного агента. В отличие от традиционных агентов, которые "сбрасываются" между сессиями, Sophia поддерживает непрерывный "Журнал Роста" (Growth Journal), объединяя эпизодическую память, внутреннюю мотивацию и Theory-of-Mind. Это позволяет агенту генерировать собственные цели обучения и уточнять поведение без обновления весов модели.
ПОЧЕМУ это важно: Работа атакует проблему "окостенения" (ossification) современных агентов: будучи развёрнутыми, они не способны адаптироваться к меняющейся среде или улучшаться без переобучения с участием человека. Демонстрируя, как Forward Learning (обучение через контекст) под управлением мета-контроллера снижает затраты на рассуждения (reasoning) на 80% для повторяющихся задач, статья предлагает конкретный инженерный чертёж перехода от реактивных инструментов к персистентным, саморазвивающимся цифровым сущностям (Artificial Life).
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1886
Sophia: A Persistent Agent Framework of Artificial Life
Mingyang Sun, Feng Hong, Weinan Zhang
Статья: https://arxiv.org/abs/2512.18202
Ревью: https://arxiviq.substack.com/p/sophia-a-persistent-agent-framework
# TL;DR
ЧТО сделали: Авторы предложили концепцию "System 3" — мета-когнитивного слоя, который надстраивается над стандартными модулями восприятия (System 1) и рассуждений (System 2) в LLM. Реализация этой идеи представлена в Sophia — фреймворке персистентного агента. В отличие от традиционных агентов, которые "сбрасываются" между сессиями, Sophia поддерживает непрерывный "Журнал Роста" (Growth Journal), объединяя эпизодическую память, внутреннюю мотивацию и Theory-of-Mind. Это позволяет агенту генерировать собственные цели обучения и уточнять поведение без обновления весов модели.
ПОЧЕМУ это важно: Работа атакует проблему "окостенения" (ossification) современных агентов: будучи развёрнутыми, они не способны адаптироваться к меняющейся среде или улучшаться без переобучения с участием человека. Демонстрируя, как Forward Learning (обучение через контекст) под управлением мета-контроллера снижает затраты на рассуждения (reasoning) на 80% для повторяющихся задач, статья предлагает конкретный инженерный чертёж перехода от реактивных инструментов к персистентным, саморазвивающимся цифровым сущностям (Artificial Life).
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1886
arXiv.org
Sophia: A Persistent Agent Framework of Artificial Life
The development of LLMs has elevated AI agents from task-specific tools to long-lived, decision-making entities. Yet, most architectures remain static and reactive, tethered to manually defined,...
👍17❤2👎1
Мои любимые гиперсети.
Hypernetworks That Evolve Themselves
Joachim Winther Pedersen, Erwan Plantec, Eleni Nisioti, Marcello Barylli, Milton Montero, Kathrin Korte, Sebastian Risi
Статья: https://arxiv.org/abs/2512.16406
Код: https://github.com/Joachm/self-referential_GHNs
Ревью: https://arxiviq.substack.com/p/hypernetworks-that-evolve-themselves
# TL;DR
ЧТО сделали: Авторы предложили Self-Referential Graph HyperNetworks (GHNs) — класс нейросетей, способных генерировать параметры не только для решения задачи (policy), но и для создания собственного потомства. Встроив механизм стохастической вариации прямо в архитектуру, система интернализировала эволюционные операторы (мутацию и наследование), которые обычно находятся во внешних алгоритмах.
ПОЧЕМУ это важно: Это структурный сдвиг от парадигмы «оптимизации фиксированной модели» к «моделям, которые оптимизируют сами себя». Подход показал превосходную адаптацию в нестационарных средах (где правила игры меняются на лету), обойдя традиционные стратегии вроде CMA-ES или OpenES. Работа доказывает, что «evolvability» (способность к эволюции) — это навык, который можно выучить в зависимости от контекста, а не фиксированная эвристика.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1895
Hypernetworks That Evolve Themselves
Joachim Winther Pedersen, Erwan Plantec, Eleni Nisioti, Marcello Barylli, Milton Montero, Kathrin Korte, Sebastian Risi
Статья: https://arxiv.org/abs/2512.16406
Код: https://github.com/Joachm/self-referential_GHNs
Ревью: https://arxiviq.substack.com/p/hypernetworks-that-evolve-themselves
# TL;DR
ЧТО сделали: Авторы предложили Self-Referential Graph HyperNetworks (GHNs) — класс нейросетей, способных генерировать параметры не только для решения задачи (policy), но и для создания собственного потомства. Встроив механизм стохастической вариации прямо в архитектуру, система интернализировала эволюционные операторы (мутацию и наследование), которые обычно находятся во внешних алгоритмах.
ПОЧЕМУ это важно: Это структурный сдвиг от парадигмы «оптимизации фиксированной модели» к «моделям, которые оптимизируют сами себя». Подход показал превосходную адаптацию в нестационарных средах (где правила игры меняются на лету), обойдя традиционные стратегии вроде CMA-ES или OpenES. Работа доказывает, что «evolvability» (способность к эволюции) — это навык, который можно выучить в зависимости от контекста, а не фиксированная эвристика.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1895
arXiv.org
Hypernetworks That Evolve Themselves
How can neural networks evolve themselves without relying on external optimizers? We propose Self-Referential Graph HyperNetworks, systems where the very machinery of variation and inheritance is...
👍13👌5❤4
gonzo-обзоры ML статей
Manus круты. $100M ARR через 8 месяцев после запуска. И как я понимаю сугубо на внешних API. Ну может ещё на опенсорс моделях. https://manus.im/blog/manus-100m-arr Время строить, однозначно.
В продолжение темы про Manus.
Если вдруг вы не видели эту свежую новость.
https://x.com/alexandr_wang/status/2005766469771223106
Если вдруг вы не видели эту свежую новость.
https://x.com/alexandr_wang/status/2005766469771223106
🤣15🍾7🤯4