gonzo-обзоры ML статей
24.3K subscribers
3.23K photos
3 videos
3 files
1.55K links
Авторы:
Гриша Сапунов, ранее руководитель разработки Яндекс-Новостей, ныне CTO Intento. Области интересов: AI/ML/DL, биоинформатика.
Лёша Тихонов, ранее аналитик в Яндексе, автор Автопоэта, Нейронной Обороны... Области интересов: discrete domain, NLP, RL.
Download Telegram
🔥9😁61
Объединённый автоэнкодер придумали. Объенкодер.

Странно, конечно, что раньше до такого спектрального разложения никто не дошёл. Наверняка кто-то дошёл. Ещё по-своему это похоже на старую историю имени Леона Гатиса про Neural Style Transfer (https://arxiv.org/abs/1508.06576), с которой Призма пошла и много прочего. Там низкоуровневые и высокоуровневые признаки брались с разных слоёв, здесь они же берутся из разных частотных полос разложения Фурье для латента. На кепстральные коэффициенты тоже похоже. Не, ну реально, неужели никто такого же раньше не сделал???

The Prism Hypothesis: Harmonizing Semantic and Pixel Representations via Unified Autoencoding

Weichen Fan, Haiwen Diao, Quan Wang, Dahua Lin, Ziwei Liu
Статья: https://arxiv.org/abs/2512.19693
Код: https://github.com/WeichenFan/UAE
Ревью: https://arxiviq.substack.com/p/the-prism-hypothesis-harmonizing

# TL;DR

ЧТО сделали: Авторы выдвинули «Гипотезу Призмы» (Prism Hypothesis), предположив, что конфликт между пониманием семантики (DINO) и визуальной генерацией (VAE) — это проблема частотной области. Семантика живет в низких частотах, а детали — в высоких. На этой базе создали Unified Autoencoding (UAE) — токенизатор, который через FFT раскладывает латенты на частотные полосы. Он сохраняет низкочастотную «семантическую базу», выровненную с учителем, и выносит мелкие детали реконструкции в остаточные высокочастотные слои.

ПОЧЕМУ это важно: Современные фундаментальные модели страдают от раздвоения архитектуры (отдельные энкодеры для понимания и декодеры для генерации), что неэффективно и ломает представления. UAE показывает, что единое латентное пространство может выдавать SOTA качество реконструкции (обходя RAE и SVG) и при этом сохранять высокую точность linear probing дискриминативных моделей. Это фактически объединяет восприятие и генерацию без привычных компромиссов.

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1874
👍164😱3🔥1🤔1
🔥12👍4👌3🥱1
Извинити
👍29😁172
System 3 предлагают. Не за горами и System 4.

Sophia: A Persistent Agent Framework of Artificial Life
Mingyang Sun, Feng Hong, Weinan Zhang
Статья: https://arxiv.org/abs/2512.18202
Ревью: https://arxiviq.substack.com/p/sophia-a-persistent-agent-framework

# TL;DR

ЧТО сделали: Авторы предложили концепцию "System 3" — мета-когнитивного слоя, который надстраивается над стандартными модулями восприятия (System 1) и рассуждений (System 2) в LLM. Реализация этой идеи представлена в Sophia — фреймворке персистентного агента. В отличие от традиционных агентов, которые "сбрасываются" между сессиями, Sophia поддерживает непрерывный "Журнал Роста" (Growth Journal), объединяя эпизодическую память, внутреннюю мотивацию и Theory-of-Mind. Это позволяет агенту генерировать собственные цели обучения и уточнять поведение без обновления весов модели.

ПОЧЕМУ это важно: Работа атакует проблему "окостенения" (ossification) современных агентов: будучи развёрнутыми, они не способны адаптироваться к меняющейся среде или улучшаться без переобучения с участием человека. Демонстрируя, как Forward Learning (обучение через контекст) под управлением мета-контроллера снижает затраты на рассуждения (reasoning) на 80% для повторяющихся задач, статья предлагает конкретный инженерный чертёж перехода от реактивных инструментов к персистентным, саморазвивающимся цифровым сущностям (Artificial Life).

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1886
👍172👎1
Мои любимые гиперсети.

Hypernetworks That Evolve Themselves
Joachim Winther Pedersen, Erwan Plantec, Eleni Nisioti, Marcello Barylli, Milton Montero, Kathrin Korte, Sebastian Risi
Статья: https://arxiv.org/abs/2512.16406
Код: https://github.com/Joachm/self-referential_GHNs
Ревью: https://arxiviq.substack.com/p/hypernetworks-that-evolve-themselves

# TL;DR

ЧТО сделали: Авторы предложили Self-Referential Graph HyperNetworks (GHNs) — класс нейросетей, способных генерировать параметры не только для решения задачи (policy), но и для создания собственного потомства. Встроив механизм стохастической вариации прямо в архитектуру, система интернализировала эволюционные операторы (мутацию и наследование), которые обычно находятся во внешних алгоритмах.

ПОЧЕМУ это важно: Это структурный сдвиг от парадигмы «оптимизации фиксированной модели» к «моделям, которые оптимизируют сами себя». Подход показал превосходную адаптацию в нестационарных средах (где правила игры меняются на лету), обойдя традиционные стратегии вроде CMA-ES или OpenES. Работа доказывает, что «evolvability» (способность к эволюции) — это навык, который можно выучить в зависимости от контекста, а не фиксированная эвристика.

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1895
👍13👌54
👍6👌2😁1
Не монолитами едиными достигать соты!

Adaptation of Agentic AI
Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han
Статья: https://arxiv.org/abs/2512.16301
Код: https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI
Ревью: https://arxiviq.substack.com/p/adaptation-of-agentic-ai

# TL;DR

ЧТО сделали: Предложили единую таксономию «Агентной адаптации», классифицирующую, как ИИ-системы обучаются через взаимодействие. Всё пространство решений разбили на четыре парадигмы по двум осям: локусу оптимизации (что меняем: Агента или Инструмент) и источнику сигнала (выполнение инструмента или выход агента).

ПОЧЕМУ это важно: Фреймворк подсвечивает сдвиг в проектировании систем: переход от дорогого монолитного файнтюнинга моделей к «Симбиотической инверсии» (адаптации лёгких инструментов под замороженного агента). Это позволяет получать SOTA-результаты, используя на порядки меньше данных и вычислений, чем требуют современные рассуждающие модели вроде DeepSeek-R1 (https://arxiv.org/abs/2501.12948).

Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1903

Всех с Новым Годом!!! 🎄
👍76🥰2🥱2