gonzo-обзоры ML статей – Telegram

gonzo-обзоры ML статей

24.3K subscribers

3.23K photos

3 videos

3 files

1.55K links

Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.

Download Telegram

About

Blog

Apps

Platform

gonzo-обзоры ML статей

24.3K subscribers

gonzo-обзоры ML статей

🤯13

4.3K views17:42

gonzo-обзоры ML статей

Больше гибридов SSM+Transformer! NVIDIA уже давно с ними экспериментирует.

NVIDIA Nemotron 3: Efficient and Open Intelligence
NVIDIA (250+ contributors)
Статья: https://arxiv.org/abs/2512.20856
Код: https://github.com/NVIDIA-NeMo/RL
Модель: https://huggingface.co/collections/nvidia/nvidia-nemotron-v3 (пока только Nano c тех.репортом, Super и Ultra обещают в ближайшие месяцы)
Ревью: https://arxiviq.substack.com/p/nvidia-nemotron-3-efficient-and-open

# TL;DR

ЧТО сделали: Представили семейство моделей Nemotron 3 (Nano, Super, Ultra) на базе гибридной архитектуры Mamba-Transformer Mixture-of-Experts (MoE). Главные фишки: LatentMoE (роутинг со сжатием для экономии канала), нативное обучение в NVFP4 для крупных моделей и одновременное RL-обучение в нескольких средах.

ПОЧЕМУ это важно: Это стратегический поворот от плотных (dense) гибридов к разреженным MoE ради скорости. Благодаря константному состоянию Mamba и аппаратно-эффективному LatentMoE модели держат контекст в 1M токенов и значительно обгоняют трансформеры по пропускной способности, а NVFP4 задаёт новый стандарт стабильности для обучения с низкой точностью.

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1861

Transformer Alternatives: What Else is Out There? / Jun'25

Transformer Alternatives: What Else is Out There? Grigory Sapunov 20.06.2025 / Revolut & PyTorch London Meet-up gs@inten.to

❤11

3.92K views19:37

gonzo-обзоры ML статей

3.55K views19:38

gonzo-обзоры ML статей

3.73K views19:38

gonzo-обзоры ML статей

🔥9😁6❤1

3.91K views19:38

gonzo-обзоры ML статей

Объединённый автоэнкодер придумали. Объенкодер.

Странно, конечно, что раньше до такого спектрального разложения никто не дошёл. Наверняка кто-то дошёл. Ещё по-своему это похоже на старую историю имени Леона Гатиса про Neural Style Transfer (https://arxiv.org/abs/1508.06576), с которой Призма пошла и много прочего. Там низкоуровневые и высокоуровневые признаки брались с разных слоёв, здесь они же берутся из разных частотных полос разложения Фурье для латента. На кепстральные коэффициенты тоже похоже. Не, ну реально, неужели никто такого же раньше не сделал???

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
Статья: https://arxiv.org/abs/2512.19693
Код: https://github.com/WeichenFan/UAE
Ревью: https://arxiviq.substack.com/p/the-prism-hypothesis-harmonizing

# TL;DR

ЧТО сделали: Авторы выдвинули «Гипотезу Призмы» (Prism Hypothesis), предположив, что конфликт между пониманием семантики (DINO) и визуальной генерацией (VAE) — это проблема частотной области. Семантика живет в низких частотах, а детали — в высоких. На этой базе создали Unified Autoencoding (UAE) — токенизатор, который через FFT раскладывает латенты на частотные полосы. Он сохраняет низкочастотную «семантическую базу», выровненную с учителем, и выносит мелкие детали реконструкции в остаточные высокочастотные слои.

ПОЧЕМУ это важно: Современные фундаментальные модели страдают от раздвоения архитектуры (отдельные энкодеры для понимания и декодеры для генерации), что неэффективно и ломает представления. UAE показывает, что единое латентное пространство может выдавать SOTA качество реконструкции (обходя RAE и SVG) и при этом сохранять высокую точность linear probing дискриминативных моделей. Это фактически объединяет восприятие и генерацию без привычных компромиссов.

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1874

gonzo_ML_podcasts

Спектральная унификация: Решаем конфликт семантики и пикселей через частотное разложение

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding
Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
Статья: http…

👍16❤4😱3🔥1🤔1

4.41K viewsedited 14:52

gonzo-обзоры ML статей

3.53K views14:53

gonzo-обзоры ML статей

4.06K views14:53

gonzo-обзоры ML статей

4.1K views14:53

gonzo-обзоры ML статей

4.3K views14:54

gonzo-обзоры ML статей

🔥12👍4👌3🥱1

3.99K views14:54

gonzo-обзоры ML статей

Извинити

👍29😁17❤2

4K views14:55

gonzo-обзоры ML статей

System 3 предлагают. Не за горами и System 4.

Sophia: A Persistent Agent Framework of Artificial Life
Mingyang Sun, Feng Hong, Weinan Zhang
Статья: https://arxiv.org/abs/2512.18202
Ревью: https://arxiviq.substack.com/p/sophia-a-persistent-agent-framework

# TL;DR

ЧТО сделали: Авторы предложили концепцию "System 3" — мета-когнитивного слоя, который надстраивается над стандартными модулями восприятия (System 1) и рассуждений (System 2) в LLM. Реализация этой идеи представлена в Sophia — фреймворке персистентного агента. В отличие от традиционных агентов, которые "сбрасываются" между сессиями, Sophia поддерживает непрерывный "Журнал Роста" (Growth Journal), объединяя эпизодическую память, внутреннюю мотивацию и Theory-of-Mind. Это позволяет агенту генерировать собственные цели обучения и уточнять поведение без обновления весов модели.

ПОЧЕМУ это важно: Работа атакует проблему "окостенения" (ossification) современных агентов: будучи развёрнутыми, они не способны адаптироваться к меняющейся среде или улучшаться без переобучения с участием человека. Демонстрируя, как Forward Learning (обучение через контекст) под управлением мета-контроллера снижает затраты на рассуждения (reasoning) на 80% для повторяющихся задач, статья предлагает конкретный инженерный чертёж перехода от реактивных инструментов к персистентным, саморазвивающимся цифровым сущностям (Artificial Life).

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1886

Sophia: A Persistent Agent Framework of Artificial Life

The development of LLMs has elevated AI agents from task-specific tools to long-lived, decision-making entities. Yet, most architectures remain static and reactive, tethered to manually defined,...

👍17❤2👎1

4.86K views16:53

gonzo-обзоры ML статей

3.9K views16:53

gonzo-обзоры ML статей

4.47K views16:53

gonzo-обзоры ML статей

4.46K views16:53

gonzo-обзоры ML статей

5😁25❤10

3.94K views17:00

gonzo-обзоры ML статей

Мои любимые гиперсети.

Hypernetworks That Evolve Themselves
Joachim Winther Pedersen, Erwan Plantec, Eleni Nisioti, Marcello Barylli, Milton Montero, Kathrin Korte, Sebastian Risi
Статья: https://arxiv.org/abs/2512.16406
Код: https://github.com/Joachm/self-referential_GHNs
Ревью: https://arxiviq.substack.com/p/hypernetworks-that-evolve-themselves

# TL;DR

ЧТО сделали: Авторы предложили Self-Referential Graph HyperNetworks (GHNs) — класс нейросетей, способных генерировать параметры не только для решения задачи (policy), но и для создания собственного потомства. Встроив механизм стохастической вариации прямо в архитектуру, система интернализировала эволюционные операторы (мутацию и наследование), которые обычно находятся во внешних алгоритмах.

ПОЧЕМУ это важно: Это структурный сдвиг от парадигмы «оптимизации фиксированной модели» к «моделям, которые оптимизируют сами себя». Подход показал превосходную адаптацию в нестационарных средах (где правила игры меняются на лету), обойдя традиционные стратегии вроде CMA-ES или OpenES. Работа доказывает, что «evolvability» (способность к эволюции) — это навык, который можно выучить в зависимости от контекста, а не фиксированная эвристика.

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1895

Hypernetworks That Evolve Themselves

How can neural networks evolve themselves without relying on external optimizers? We propose Self-Referential Graph HyperNetworks, systems where the very machinery of variation and inheritance is...

👍13👌5❤4

4.58K views18:05

gonzo-обзоры ML статей

4.52K views18:05

gonzo-обзоры ML статей

👍6👌2😁1

4.47K views18:05

gonzo-обзоры ML статей

gonzo-обзоры ML статей

Manus круты. $100M ARR через 8 месяцев после запуска. И как я понимаю сугубо на внешних API. Ну может ещё на опенсорс моделях. https://manus.im/blog/manus-100m-arr Время строить, однозначно.

В продолжение темы про Manus.

Если вдруг вы не видели эту свежую новость.
https://x.com/alexandr_wang/status/2005766469771223106

🤣15🍾7🤯4

4.32K views18:33