System 3 предлагают. Не за горами и System 4.
Sophia: A Persistent Agent Framework of Artificial Life
Mingyang Sun, Feng Hong, Weinan Zhang
Статья: https://arxiv.org/abs/2512.18202
Ревью: https://arxiviq.substack.com/p/sophia-a-persistent-agent-framework
# TL;DR
ЧТО сделали: Авторы предложили концепцию "System 3" — мета-когнитивного слоя, который надстраивается над стандартными модулями восприятия (System 1) и рассуждений (System 2) в LLM. Реализация этой идеи представлена в Sophia — фреймворке персистентного агента. В отличие от традиционных агентов, которые "сбрасываются" между сессиями, Sophia поддерживает непрерывный "Журнал Роста" (Growth Journal), объединяя эпизодическую память, внутреннюю мотивацию и Theory-of-Mind. Это позволяет агенту генерировать собственные цели обучения и уточнять поведение без обновления весов модели.
ПОЧЕМУ это важно: Работа атакует проблему "окостенения" (ossification) современных агентов: будучи развёрнутыми, они не способны адаптироваться к меняющейся среде или улучшаться без переобучения с участием человека. Демонстрируя, как Forward Learning (обучение через контекст) под управлением мета-контроллера снижает затраты на рассуждения (reasoning) на 80% для повторяющихся задач, статья предлагает конкретный инженерный чертёж перехода от реактивных инструментов к персистентным, саморазвивающимся цифровым сущностям (Artificial Life).
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1886
Sophia: A Persistent Agent Framework of Artificial Life
Mingyang Sun, Feng Hong, Weinan Zhang
Статья: https://arxiv.org/abs/2512.18202
Ревью: https://arxiviq.substack.com/p/sophia-a-persistent-agent-framework
# TL;DR
ЧТО сделали: Авторы предложили концепцию "System 3" — мета-когнитивного слоя, который надстраивается над стандартными модулями восприятия (System 1) и рассуждений (System 2) в LLM. Реализация этой идеи представлена в Sophia — фреймворке персистентного агента. В отличие от традиционных агентов, которые "сбрасываются" между сессиями, Sophia поддерживает непрерывный "Журнал Роста" (Growth Journal), объединяя эпизодическую память, внутреннюю мотивацию и Theory-of-Mind. Это позволяет агенту генерировать собственные цели обучения и уточнять поведение без обновления весов модели.
ПОЧЕМУ это важно: Работа атакует проблему "окостенения" (ossification) современных агентов: будучи развёрнутыми, они не способны адаптироваться к меняющейся среде или улучшаться без переобучения с участием человека. Демонстрируя, как Forward Learning (обучение через контекст) под управлением мета-контроллера снижает затраты на рассуждения (reasoning) на 80% для повторяющихся задач, статья предлагает конкретный инженерный чертёж перехода от реактивных инструментов к персистентным, саморазвивающимся цифровым сущностям (Artificial Life).
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1886
arXiv.org
Sophia: A Persistent Agent Framework of Artificial Life
The development of LLMs has elevated AI agents from task-specific tools to long-lived, decision-making entities. Yet, most architectures remain static and reactive, tethered to manually defined,...
👍17❤2👎1
Мои любимые гиперсети.
Hypernetworks That Evolve Themselves
Joachim Winther Pedersen, Erwan Plantec, Eleni Nisioti, Marcello Barylli, Milton Montero, Kathrin Korte, Sebastian Risi
Статья: https://arxiv.org/abs/2512.16406
Код: https://github.com/Joachm/self-referential_GHNs
Ревью: https://arxiviq.substack.com/p/hypernetworks-that-evolve-themselves
# TL;DR
ЧТО сделали: Авторы предложили Self-Referential Graph HyperNetworks (GHNs) — класс нейросетей, способных генерировать параметры не только для решения задачи (policy), но и для создания собственного потомства. Встроив механизм стохастической вариации прямо в архитектуру, система интернализировала эволюционные операторы (мутацию и наследование), которые обычно находятся во внешних алгоритмах.
ПОЧЕМУ это важно: Это структурный сдвиг от парадигмы «оптимизации фиксированной модели» к «моделям, которые оптимизируют сами себя». Подход показал превосходную адаптацию в нестационарных средах (где правила игры меняются на лету), обойдя традиционные стратегии вроде CMA-ES или OpenES. Работа доказывает, что «evolvability» (способность к эволюции) — это навык, который можно выучить в зависимости от контекста, а не фиксированная эвристика.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1895
Hypernetworks That Evolve Themselves
Joachim Winther Pedersen, Erwan Plantec, Eleni Nisioti, Marcello Barylli, Milton Montero, Kathrin Korte, Sebastian Risi
Статья: https://arxiv.org/abs/2512.16406
Код: https://github.com/Joachm/self-referential_GHNs
Ревью: https://arxiviq.substack.com/p/hypernetworks-that-evolve-themselves
# TL;DR
ЧТО сделали: Авторы предложили Self-Referential Graph HyperNetworks (GHNs) — класс нейросетей, способных генерировать параметры не только для решения задачи (policy), но и для создания собственного потомства. Встроив механизм стохастической вариации прямо в архитектуру, система интернализировала эволюционные операторы (мутацию и наследование), которые обычно находятся во внешних алгоритмах.
ПОЧЕМУ это важно: Это структурный сдвиг от парадигмы «оптимизации фиксированной модели» к «моделям, которые оптимизируют сами себя». Подход показал превосходную адаптацию в нестационарных средах (где правила игры меняются на лету), обойдя традиционные стратегии вроде CMA-ES или OpenES. Работа доказывает, что «evolvability» (способность к эволюции) — это навык, который можно выучить в зависимости от контекста, а не фиксированная эвристика.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1895
arXiv.org
Hypernetworks That Evolve Themselves
How can neural networks evolve themselves without relying on external optimizers? We propose Self-Referential Graph HyperNetworks, systems where the very machinery of variation and inheritance is...
👍13👌5❤4
gonzo-обзоры ML статей
Manus круты. $100M ARR через 8 месяцев после запуска. И как я понимаю сугубо на внешних API. Ну может ещё на опенсорс моделях. https://manus.im/blog/manus-100m-arr Время строить, однозначно.
В продолжение темы про Manus.
Если вдруг вы не видели эту свежую новость.
https://x.com/alexandr_wang/status/2005766469771223106
Если вдруг вы не видели эту свежую новость.
https://x.com/alexandr_wang/status/2005766469771223106
🤣15🍾7🤯4
Не монолитами едиными достигать соты!
Adaptation of Agentic AI
Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han
Статья: https://arxiv.org/abs/2512.16301
Код: https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI
Ревью: https://arxiviq.substack.com/p/adaptation-of-agentic-ai
# TL;DR
ЧТО сделали: Предложили единую таксономию «Агентной адаптации», классифицирующую, как ИИ-системы обучаются через взаимодействие. Всё пространство решений разбили на четыре парадигмы по двум осям: локусу оптимизации (что меняем: Агента или Инструмент) и источнику сигнала (выполнение инструмента или выход агента).
ПОЧЕМУ это важно: Фреймворк подсвечивает сдвиг в проектировании систем: переход от дорогого монолитного файнтюнинга моделей к «Симбиотической инверсии» (адаптации лёгких инструментов под замороженного агента). Это позволяет получать SOTA-результаты, используя на порядки меньше данных и вычислений, чем требуют современные рассуждающие модели вроде DeepSeek-R1 (https://arxiv.org/abs/2501.12948).
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1903
Всех с Новым Годом!!! 🎄
Adaptation of Agentic AI
Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han
Статья: https://arxiv.org/abs/2512.16301
Код: https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI
Ревью: https://arxiviq.substack.com/p/adaptation-of-agentic-ai
# TL;DR
ЧТО сделали: Предложили единую таксономию «Агентной адаптации», классифицирующую, как ИИ-системы обучаются через взаимодействие. Всё пространство решений разбили на четыре парадигмы по двум осям: локусу оптимизации (что меняем: Агента или Инструмент) и источнику сигнала (выполнение инструмента или выход агента).
ПОЧЕМУ это важно: Фреймворк подсвечивает сдвиг в проектировании систем: переход от дорогого монолитного файнтюнинга моделей к «Симбиотической инверсии» (адаптации лёгких инструментов под замороженного агента). Это позволяет получать SOTA-результаты, используя на порядки меньше данных и вычислений, чем требуют современные рассуждающие модели вроде DeepSeek-R1 (https://arxiv.org/abs/2501.12948).
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1903
Всех с Новым Годом!!! 🎄
arXiv.org
Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills
Large language model (LLM) agents are moving beyond prompting alone. ChatGPT marked the rise of general-purpose LLM assistants, DeepSeek showed that on-policy reinforcement learning with...
👍7❤6🥰2🥱2
DeepSeek выкатили под новый год работу про более стабильные hyper-connections (HC, не путать с hyper networks). HC — это расширенный (многоканальный и более широкий) вариант residual connections. Раньше взрывался, а теперь не взрывается. Профит!
mHC: Manifold-Constrained Hyper-Connections
Zhenda Xie, Yixuan Wei, Huanqi Cao, Chenggang Zhao, Chengqi Deng, Jiashi Li, Damai Dai, Huazuo Gao, Jiang Chang, Liang Zhao, Shangyan Zhou, Zhean Xu, Zhengyan Zhang, Wangding Zeng, Shengding Hu, Yuqing Wang, Jingyang Yuan, Lean Wang, Wenfeng Liang
Статья: https://arxiv.org/abs/2512.24880
Ревью: https://arxiviq.substack.com/p/mhc-manifold-constrained-hyper-connections
# TL;DR
ЧТО сделали: Авторы из DeepSeek-AI предложили Manifold-Constrained Hyper-Connections (mHC). Это фреймворк, модифицирующий архитектуру Hyper-Connections (гипер-связи) путём проекции матриц смешивания резидуальных потоков на многогранник Биркгофа (множество дважды стохастических матриц). Реализовано это через дифференцируемый алгоритм Синкхорна-Кноппа, встроенный прямо в forward pass.
ПОЧЕМУ это важно: Расширение резидуальных потоков увеличивает ёмкость модели, но обычно ломает свойство тождественного отображения (Identity Mapping), критически важное для глубокого обучения. Это ведёт к взрыву сигнала и нестабильности. mHC математически восстанавливает это свойство, позволяя масштабировать ширину сети (а не только глубину) и создавать сложные топологии без проблем с градиентами и без существенного оверхеда по памяти.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1919
mHC: Manifold-Constrained Hyper-Connections
Zhenda Xie, Yixuan Wei, Huanqi Cao, Chenggang Zhao, Chengqi Deng, Jiashi Li, Damai Dai, Huazuo Gao, Jiang Chang, Liang Zhao, Shangyan Zhou, Zhean Xu, Zhengyan Zhang, Wangding Zeng, Shengding Hu, Yuqing Wang, Jingyang Yuan, Lean Wang, Wenfeng Liang
Статья: https://arxiv.org/abs/2512.24880
Ревью: https://arxiviq.substack.com/p/mhc-manifold-constrained-hyper-connections
# TL;DR
ЧТО сделали: Авторы из DeepSeek-AI предложили Manifold-Constrained Hyper-Connections (mHC). Это фреймворк, модифицирующий архитектуру Hyper-Connections (гипер-связи) путём проекции матриц смешивания резидуальных потоков на многогранник Биркгофа (множество дважды стохастических матриц). Реализовано это через дифференцируемый алгоритм Синкхорна-Кноппа, встроенный прямо в forward pass.
ПОЧЕМУ это важно: Расширение резидуальных потоков увеличивает ёмкость модели, но обычно ломает свойство тождественного отображения (Identity Mapping), критически важное для глубокого обучения. Это ведёт к взрыву сигнала и нестабильности. mHC математически восстанавливает это свойство, позволяя масштабировать ширину сети (а не только глубину) и создавать сложные топологии без проблем с градиентами и без существенного оверхеда по памяти.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/1919
arXiv.org
mHC: Manifold-Constrained Hyper-Connections
Recently, studies exemplified by Hyper-Connections (HC) have extended the ubiquitous residual connection paradigm established over the past decade by expanding the residual stream width and...
👍20🔥4🙏4❤3🍓1
#2025
Продолжу традицию подбивания результатов. В 2024-м было так. Я снова не тратил слишком много времени на подробный анализ, и попробовал собрать свой список относительно быстро. Писал текст дольше 🙂
Что всплыло в памяти про прошедший год
1. Year of agents
Определённо, 2025-й был годом агентов (и немного мультиагентов). Выглядит как очередное поветрие, коих сменилась уже масса — была мода на ML, была мода на AI, в этом году мода на агентов. Они теперь везде, стартапы заменяют “Loading…” на “Thinking…”, в каждую индустрию запихивают агентов — есть агенты для продаж, для маркетинга, для написания кода, да для всего уже, наверное, есть. Здесь мы говорим про LLM или AI-агентов, могут быть, конечно, и другие, и без всякого AI.
Единого определения агента, кажется, так и не появилось (как и для AI), но это не очень важно. Обычно под агентами подразумевают сущность с некоторым уровнем автономности, который может быть очень разным — от почти никакой до довольно полной. Агент обычно имеет доступ к тулам для взаимодействия с окружающим миром (дёргать API, ходить в поиск и базы данных, запускать код и команды ОС, и прочее), часто (но не всегда) имеет какую-то память, и делает ризонинг с помощью LLM — отсюда его вероятностная природа и частое отсутствие надёжности уровня “хоть сколько-нибудь девяток”.
API основных LLM эволюционировали в сторону агентности. Например, у OpenAI, сейчас API четвёртого поколения
Агентов будет больше, жить будет веселее. Ждём развития этой волны в 2026-м. Я уверен, мы в целом научимся делать более надёжных и полезных агентов для всё большего количества областей.
2. MCP is one year old
Протокол MCP прочно занял своё место в мире, все основные агенты и интерфейсы моделей его поддерживают (типа Claude Desktop, Cursor, и прочее). Поначалу большая часть MCP серверов запускалась локально и общалась с агентом через stdio, но теперь всё больше становится Remote MCP серверов с общением через HTTP. За этим, мне кажется, большая тема, этот год покажет.
В ноябре 2025 MCP исполнился год, а в декабре 2025 Антропик передал протокол в свежесозданный Agentic AI Foundation внутри Linux Foundation. OpenAI туда же задонейтил AGENTS.md.
Более высокоуровневый протокол для взаимодействия агентов, A2A от Гугла, ещё ранее был отдан Гуглом в Lunux Foundation и тоже продолжает развиваться. Новые фреймворки типа ADK его поддерживают, вероятно весь адопшн ещё впереди.
3. Code agents
Снова про агентов, более конкретно про агентов для кода. Они шагнули за год сильно вперёд. Если год назад в основном польза была 1) в режиме копайлота, который даёт более умные саджесты и может написать какие-то куски кода внутри IDE, и 2) через общение с OpenAI/Claude/Gemini в режиме чата и копи-паста туда-сюда; то теперь есть гораздо более самостоятельные агенты внутри Cursor/Antigravity/…, которые вполне могут выполнять многошаговые действия на уровне репозитория или нескольких. Общение с такими агентами уже сильно за пределами продолжения промпта и саджеста, появляются фреймворки для spec-driven development (типа speckit) и в целом разработка с AI тулами становится более зрелой. Это ещё не предел, давно жду.
4. Chinese AI
Продолжу традицию подбивания результатов. В 2024-м было так. Я снова не тратил слишком много времени на подробный анализ, и попробовал собрать свой список относительно быстро. Писал текст дольше 🙂
Что всплыло в памяти про прошедший год
1. Year of agents
Определённо, 2025-й был годом агентов (и немного мультиагентов). Выглядит как очередное поветрие, коих сменилась уже масса — была мода на ML, была мода на AI, в этом году мода на агентов. Они теперь везде, стартапы заменяют “Loading…” на “Thinking…”, в каждую индустрию запихивают агентов — есть агенты для продаж, для маркетинга, для написания кода, да для всего уже, наверное, есть. Здесь мы говорим про LLM или AI-агентов, могут быть, конечно, и другие, и без всякого AI.
Единого определения агента, кажется, так и не появилось (как и для AI), но это не очень важно. Обычно под агентами подразумевают сущность с некоторым уровнем автономности, который может быть очень разным — от почти никакой до довольно полной. Агент обычно имеет доступ к тулам для взаимодействия с окружающим миром (дёргать API, ходить в поиск и базы данных, запускать код и команды ОС, и прочее), часто (но не всегда) имеет какую-то память, и делает ризонинг с помощью LLM — отсюда его вероятностная природа и частое отсутствие надёжности уровня “хоть сколько-нибудь девяток”.
API основных LLM эволюционировали в сторону агентности. Например, у OpenAI, сейчас API четвёртого поколения
Responses API, до него были продолжающее промпты Completions API, работающее с историей чата Chat Completions API, и экспериментальное Assistants API. Теперь на уровне API есть встроенные тулы и способность вызывать внешние MCP. У Гугла свежее Interactions API в бете с возможностью вызывать как модели, так и агентов (типа Deep Research). Ну и так далее, все движутся в сторону API с агентскими возможностями. Плюс всё больше вокруг агентских фреймворков и визуальных построителей воркфлоу.Агентов будет больше, жить будет веселее. Ждём развития этой волны в 2026-м. Я уверен, мы в целом научимся делать более надёжных и полезных агентов для всё большего количества областей.
2. MCP is one year old
Протокол MCP прочно занял своё место в мире, все основные агенты и интерфейсы моделей его поддерживают (типа Claude Desktop, Cursor, и прочее). Поначалу большая часть MCP серверов запускалась локально и общалась с агентом через stdio, но теперь всё больше становится Remote MCP серверов с общением через HTTP. За этим, мне кажется, большая тема, этот год покажет.
В ноябре 2025 MCP исполнился год, а в декабре 2025 Антропик передал протокол в свежесозданный Agentic AI Foundation внутри Linux Foundation. OpenAI туда же задонейтил AGENTS.md.
Более высокоуровневый протокол для взаимодействия агентов, A2A от Гугла, ещё ранее был отдан Гуглом в Lunux Foundation и тоже продолжает развиваться. Новые фреймворки типа ADK его поддерживают, вероятно весь адопшн ещё впереди.
3. Code agents
Снова про агентов, более конкретно про агентов для кода. Они шагнули за год сильно вперёд. Если год назад в основном польза была 1) в режиме копайлота, который даёт более умные саджесты и может написать какие-то куски кода внутри IDE, и 2) через общение с OpenAI/Claude/Gemini в режиме чата и копи-паста туда-сюда; то теперь есть гораздо более самостоятельные агенты внутри Cursor/Antigravity/…, которые вполне могут выполнять многошаговые действия на уровне репозитория или нескольких. Общение с такими агентами уже сильно за пределами продолжения промпта и саджеста, появляются фреймворки для spec-driven development (типа speckit) и в целом разработка с AI тулами становится более зрелой. Это ещё не предел, давно жду.
4. Chinese AI
👍13❤10🔥2🤩2
DeepSeek, конечно, стал офигенным прорывом, особенно R1, пожалуй. После него стало понятно, что гэп между американскими фронтирными компаниями и остальными, возможно, не такой уж и большой. Знатно некоторые товарищи забегали. Благодаря этой работе (а не оригинальной DeepSeekMath из 2024), RL алгоритм GRPO (Group Relative Policy Optimization) стал чуть ли не стандартом, везде теперь используется (хоть после него уже и много чего ещё появилось).
Qwen и до DeepSeek был очень хорош, и продолжает быть таковым. Их модели, в отличие от DeepSeek по крайней мере можно запускать на железе разумного размера, без кластеров H100. Часто являются дефолтными моделями для старта, как выясняется даже для американских стартапов.
Есть и много других интересных моделей: Kimi K2, MiniMax, GLM, Hunyuan, теперь ещё и IQuest-Coder. Что тут ещё сказать, молодцы.
5. JEPA + World Models
Тему про модели мира я люблю, писал про неё и в прошлый раз, и мне кажется за год здесь много всего произошло, количество понемногу переходит в качество.
Во-первых, появилось 100500 вариантов и развитий JEPA: V-JEPA 2, VL-JEPA, LLM-JEPA, LeJEPA, JEPA as a Neural Tokenizer, а также близкая к JEPA NEPA.
Во-вторых, сам Лекун ушёл делать свой стартап про World Models.
А ещё вышел Dreamer 4, появилась гугловая Genie 3 (после первой версии всё без статей 🙁), и в целом движ идёт.
6. TPU rises, NVIDIA defends
NVIDIA — самая дорогая компания мира и по-прежнему лидер, но почему-то неожиданно оказалось, что топовые модели можно обучать и без её железа. Пока лучший пример — Гугл, обучивший очень хорошую Gemini 3 (и все предыдущие Gemini) на своём TPU. TPU продолжает развиваться, есть какие-то разговоры про поставку железа за пределы Гугла (в Anthropic), и было бы интересно, если бы эта альтернатива появилась на открытом рынке. NVIDIA в свою очередь разбирается с конкурентами, вот прямо перед новым годом как бы съела Groq. Китайцы тем временем усиленно пытаются перейти на своё и на государственном уровне пытаются отвязаться от Нвидии — какая-никакая своя экосистема у них есть.
Про другие ASIC сказать труднее. Ну вот Cerebras вроде как жив и продолжает производить свои супер-вафли, которые также можно поюзать в облаке. GraphCore как компания жив, но что-то от них ничего особо интересного не слышно, хотя архитектура их чипов была любопытная. Знаю, что используют внутри JAX, подарил свою книжку их Engineering Fellow. SambaNova вроде тоже что-то делает, и (я пропустил) оказывается Intel изъявил желание её купить. За интелом правда солидный трек убийства разных купленных компаний, с одной Nervana они годами кормили нас завтраками про новые чипы, которые так и не вышли.
7. AGI/ASI hype & 2027 scenario delayed
Сценарий появления сверхчеловеческого ИИ под названием AI 2027 как оказалось откладывается.
Но ничего, авторы выпустили обновлённую версию под названием The AI Futures Model с оценкой на май 2031 про появление Automatic Coder, который может автоматизировать создание ASI, и июль 2034, когда разница между ASI и лучшим человеком будет в два раза выше, чем между лучшими людьми и медианными профессионалами, и так по всем когнитивным задачам.
Чуть подробнее по-русски тут, а вообще читайте сайт, там красиво всё сделали, навигация особенно прикольная.
AGI/ASI хайп, кажется подсдулся. Некоторые товарищи слишком оголтело всё обещали и ничего не заделиверили, так что одни теперь говорят, что термин AGI мол не очень полезный нынче; другие заявляют, что термин overhyped (сложно было не согласиться); ну и так далее.
Но рано или поздно всё равно всё будет.
8. AI+Science
В этом году было много работ про агентов для науки. AI Scientist-v2 от Sakana создал статью, которая прошла пир ревью на воркшоп ICLR. Было много других работ про агентов для науки, где понемножку отдельные шаги исследований мы начинаем покрывать. Например, (это или это). Такого будет больше.
Про математику отдельно писать не буду, но здесь тоже большой прорыв, сразу несколько компаний показали результаты сопоставимые с золотой медалью на международной математической олимпиаде.
Qwen и до DeepSeek был очень хорош, и продолжает быть таковым. Их модели, в отличие от DeepSeek по крайней мере можно запускать на железе разумного размера, без кластеров H100. Часто являются дефолтными моделями для старта, как выясняется даже для американских стартапов.
Есть и много других интересных моделей: Kimi K2, MiniMax, GLM, Hunyuan, теперь ещё и IQuest-Coder. Что тут ещё сказать, молодцы.
5. JEPA + World Models
Тему про модели мира я люблю, писал про неё и в прошлый раз, и мне кажется за год здесь много всего произошло, количество понемногу переходит в качество.
Во-первых, появилось 100500 вариантов и развитий JEPA: V-JEPA 2, VL-JEPA, LLM-JEPA, LeJEPA, JEPA as a Neural Tokenizer, а также близкая к JEPA NEPA.
Во-вторых, сам Лекун ушёл делать свой стартап про World Models.
А ещё вышел Dreamer 4, появилась гугловая Genie 3 (после первой версии всё без статей 🙁), и в целом движ идёт.
6. TPU rises, NVIDIA defends
NVIDIA — самая дорогая компания мира и по-прежнему лидер, но почему-то неожиданно оказалось, что топовые модели можно обучать и без её железа. Пока лучший пример — Гугл, обучивший очень хорошую Gemini 3 (и все предыдущие Gemini) на своём TPU. TPU продолжает развиваться, есть какие-то разговоры про поставку железа за пределы Гугла (в Anthropic), и было бы интересно, если бы эта альтернатива появилась на открытом рынке. NVIDIA в свою очередь разбирается с конкурентами, вот прямо перед новым годом как бы съела Groq. Китайцы тем временем усиленно пытаются перейти на своё и на государственном уровне пытаются отвязаться от Нвидии — какая-никакая своя экосистема у них есть.
Про другие ASIC сказать труднее. Ну вот Cerebras вроде как жив и продолжает производить свои супер-вафли, которые также можно поюзать в облаке. GraphCore как компания жив, но что-то от них ничего особо интересного не слышно, хотя архитектура их чипов была любопытная. Знаю, что используют внутри JAX, подарил свою книжку их Engineering Fellow. SambaNova вроде тоже что-то делает, и (я пропустил) оказывается Intel изъявил желание её купить. За интелом правда солидный трек убийства разных купленных компаний, с одной Nervana они годами кормили нас завтраками про новые чипы, которые так и не вышли.
7. AGI/ASI hype & 2027 scenario delayed
Сценарий появления сверхчеловеческого ИИ под названием AI 2027 как оказалось откладывается.
Но ничего, авторы выпустили обновлённую версию под названием The AI Futures Model с оценкой на май 2031 про появление Automatic Coder, который может автоматизировать создание ASI, и июль 2034, когда разница между ASI и лучшим человеком будет в два раза выше, чем между лучшими людьми и медианными профессионалами, и так по всем когнитивным задачам.
Чуть подробнее по-русски тут, а вообще читайте сайт, там красиво всё сделали, навигация особенно прикольная.
AGI/ASI хайп, кажется подсдулся. Некоторые товарищи слишком оголтело всё обещали и ничего не заделиверили, так что одни теперь говорят, что термин AGI мол не очень полезный нынче; другие заявляют, что термин overhyped (сложно было не согласиться); ну и так далее.
Но рано или поздно всё равно всё будет.
8. AI+Science
В этом году было много работ про агентов для науки. AI Scientist-v2 от Sakana создал статью, которая прошла пир ревью на воркшоп ICLR. Было много других работ про агентов для науки, где понемножку отдельные шаги исследований мы начинаем покрывать. Например, (это или это). Такого будет больше.
Про математику отдельно писать не буду, но здесь тоже большой прорыв, сразу несколько компаний показали результаты сопоставимые с золотой медалью на международной математической олимпиаде.
👍13❤10🔥3