Обучаться во время экзамена — зыко! Что отдельно интересно, это слияние обучения с инференсом.
Learning to Discover at Test Time
Mert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb, Xiaolong Wang, Jan Kautz, Yejin Choi, James Zou, Carlos Guestrin, Yu Sun
Статья: https://arxiv.org/abs/2601.16175
Ревью: https://arxiviq.substack.com/p/learning-to-discover-at-test-time
Модель: https://huggingface.co/openai/gpt-oss-120b
# TL;DR
ЧТО сделали: Представили TTT-Discover — метод, который файнтюнит большую языковую модель (LLM) с помощью RL прямо во время инференса на конкретной тестовой задаче. Вместо того чтобы просто искать решение замороженной моделью, веса обновляются динамически, чтобы модель «выучила» структуру текущей проблемы.
ПОЧЕМУ это важно: Это меняет парадигму «test-time compute» с чистого поиска (как поиск по дереву) на test-time learning. Оптимизируя энтропийную цель, которая ставит во главу угла *один лучший* результат, а не среднее качество, TTT-Discover достигает SOTA в открытых научных задачах. Используя открытую
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2212
Learning to Discover at Test Time
Mert Yuksekgonul, Daniel Koceja, Xinhao Li, Federico Bianchi, Jed McCaleb, Xiaolong Wang, Jan Kautz, Yejin Choi, James Zou, Carlos Guestrin, Yu Sun
Статья: https://arxiv.org/abs/2601.16175
Ревью: https://arxiviq.substack.com/p/learning-to-discover-at-test-time
Модель: https://huggingface.co/openai/gpt-oss-120b
# TL;DR
ЧТО сделали: Представили TTT-Discover — метод, который файнтюнит большую языковую модель (LLM) с помощью RL прямо во время инференса на конкретной тестовой задаче. Вместо того чтобы просто искать решение замороженной моделью, веса обновляются динамически, чтобы модель «выучила» структуру текущей проблемы.
ПОЧЕМУ это важно: Это меняет парадигму «test-time compute» с чистого поиска (как поиск по дереву) на test-time learning. Оптимизируя энтропийную цель, которая ставит во главу угла *один лучший* результат, а не среднее качество, TTT-Discover достигает SOTA в открытых научных задачах. Используя открытую
gpt-oss-120b, авторы улучшили границы в задаче Эрдёша и написали GPU-ядра эффективнее человеческих экспертов.Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2212
arXiv.org
Learning to Discover at Test Time
How can we use AI to discover a new state of the art for a scientific problem? Prior work in test-time scaling, such as AlphaEvolve, performs search by prompting a frozen LLM. We perform...
🔥18⚡2❤2👍2🤔1
Maia 200: Ускоритель для инференса от Microsoft
Вчера был интересный анонс от Microsoft, они сделали свой чип для инференса, Maia 200 (https://blogs.microsoft.com/blog/2026/01/26/maia-200-the-ai-accelerator-built-for-inference/). Пока задеплоили в US Central, на очереди US West 3 регион.
Построен на 3нм процессе от TSMC, 140B транзисторов. Содержит нативные FP8/FP4 тензорные ядра, 216GB HBM3e памяти с пропускной способностью 7 TB/s и 272MB on-chip SRAM, а также специальные DMA engines для перемещения данных и “redesigned memory subsystem” для узких типов пониженной точности, но не понял относительно чего конкретно она redesigned. Чипы могут объединяться с другими по Ethernet, 2.8 TB/s bidirectional bandwidth, до 6144 чипов в кластере.
>10 PFLOPS FP4, >5 PFLOPS FP8, 750W TDP. По сравнению с Amazon Trainium 3-го поколения, у Maia FP4 перформанс в три (почти в четыре) раза выше. Так понимаю, у AWS хоть и есть отдельный чип для инференса (Inferentia2), новые поколения Trainium по факту универсальные акселераторы в том числе и для инференса, и цифры у них выше. В сравнении же с Гугловым TPU gen7, выше перформанс на FP8.
В целом, в эру test-time scaling это имеет смысл, для ризонинга FP4/FP8 вполне хватает, да и для обучения некоторым тоже уже хватает. Заявляют, что среди прочего будут использовать эти чипы для инференса GPT-5.2, а их Superintelligence team (не знал, что у MS тоже есть такая) будет их использовать для генерации синтетики и для RL.
Maia SDK в превью (по реквесту) с поддержкой PyTorch, компилятором Triton, библиотекой оптимизированных ядер и доступом к их низкоуровневому языку программирования. Можно стать уникальным специалистом по ядрам для ещё одной архитектуры 😀
Больше подробностей про железо и архитектуру здесь: https://techcommunity.microsoft.com/blog/azureinfrastructureblog/deep-dive-into-the-maia-200-architecture/4489312
Документ от вчера, но уже версии 3.0 🙂
Короче, ещё одна компания отвязывается от монополии NVIDIA, все хотят оунить полный стек. Как видимо и сама Нвидия, идущая в обратную сторону.
Вчера был интересный анонс от Microsoft, они сделали свой чип для инференса, Maia 200 (https://blogs.microsoft.com/blog/2026/01/26/maia-200-the-ai-accelerator-built-for-inference/). Пока задеплоили в US Central, на очереди US West 3 регион.
Построен на 3нм процессе от TSMC, 140B транзисторов. Содержит нативные FP8/FP4 тензорные ядра, 216GB HBM3e памяти с пропускной способностью 7 TB/s и 272MB on-chip SRAM, а также специальные DMA engines для перемещения данных и “redesigned memory subsystem” для узких типов пониженной точности, но не понял относительно чего конкретно она redesigned. Чипы могут объединяться с другими по Ethernet, 2.8 TB/s bidirectional bandwidth, до 6144 чипов в кластере.
>10 PFLOPS FP4, >5 PFLOPS FP8, 750W TDP. По сравнению с Amazon Trainium 3-го поколения, у Maia FP4 перформанс в три (почти в четыре) раза выше. Так понимаю, у AWS хоть и есть отдельный чип для инференса (Inferentia2), новые поколения Trainium по факту универсальные акселераторы в том числе и для инференса, и цифры у них выше. В сравнении же с Гугловым TPU gen7, выше перформанс на FP8.
В целом, в эру test-time scaling это имеет смысл, для ризонинга FP4/FP8 вполне хватает, да и для обучения некоторым тоже уже хватает. Заявляют, что среди прочего будут использовать эти чипы для инференса GPT-5.2, а их Superintelligence team (не знал, что у MS тоже есть такая) будет их использовать для генерации синтетики и для RL.
Maia SDK в превью (по реквесту) с поддержкой PyTorch, компилятором Triton, библиотекой оптимизированных ядер и доступом к их низкоуровневому языку программирования. Можно стать уникальным специалистом по ядрам для ещё одной архитектуры 😀
Больше подробностей про железо и архитектуру здесь: https://techcommunity.microsoft.com/blog/azureinfrastructureblog/deep-dive-into-the-maia-200-architecture/4489312
Документ от вчера, но уже версии 3.0 🙂
Короче, ещё одна компания отвязывается от монополии NVIDIA, все хотят оунить полный стек. Как видимо и сама Нвидия, идущая в обратную сторону.
The Official Microsoft Blog
Maia 200: The AI accelerator built for inference
Today, we’re proud to introduce Maia 200, a breakthrough inference accelerator engineered to dramatically improve the economics of AI token generation. Maia 200 is an AI inference powerhouse: an accelerator built on TSMC’s 3nm process with native FP8/FP4…
👍7🔥3
Добавил в новость про китайские модели упоминание DeepSeek-OCR-2. Новый энкодер у них и правда интересный, не растр сканирует как все, а объекты, и соответственно порядок визуальных токенов получается иной. Теперь и энкодеры у нас с ризонингом!
Из забавного, DeepSeek использует чужой энкодер от Qwen.
Из забавного, DeepSeek использует чужой энкодер от Qwen.
Telegram
gonzo-обзоры ML статей
Очередная волна китайских моделей
Последняя неделя января выдалась насыщенной — три серьёзных релиза, каждый со своей изюминкой.
Qwen3-Max-Thinking — флагманская reasoning-модель от Alibaba, анонсированная 26 января. Max-Thinking была анонсирована в сентябрьском…
Последняя неделя января выдалась насыщенной — три серьёзных релиза, каждый со своей изюминкой.
Qwen3-Max-Thinking — флагманская reasoning-модель от Alibaba, анонсированная 26 января. Max-Thinking была анонсирована в сентябрьском…
❤1🤔1
Интересный кейс создания нетривиального софта от Нвидии:
VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents
Bing Xu, Terry Chen, Fengzhe Zhou, Tianqi Chen, Yangqing Jia, Vinod Grover, Haicheng Wu, Wei Liu, Craig Wittenbrink, Wen-mei Hwu, Roger Bringmann, Ming-Yu Liu, Luis Ceze, Michael Lightstone, Humphrey Shi
Статья: https://arxiv.org/abs/2601.16238
Ревью: https://arxiviq.substack.com/p/vibetensor-system-software-for-deep
Код: https://github.com/NVLabs/vibetensor
# TL;DR
ЧТО сделали:
Исследователи из NVIDIA представили VibeTensor — полностью функциональный программный стек для глубокого обучения, сгенерированный ИИ-агентами. Вместо написания разрозненных скриптов, агенты построили полноценную среду выполнения, включающую ядро на C++20, Python-обвязку в стиле PyTorch, кастомный CUDA-аллокатор с кэшированием и движок автограда в reverse-mode. Система способна обучать небольшие модели (minGPT, ViT) на GPU H100, доказывая, что агенты могут управлять сложными абстракциями с сохранением состояния на стыке разных языков.
ПОЧЕМУ это важно:
Это переход от генерации кода для изолированных функций к архитектуре системного уровня. Работа доказывает, что современные агенты способны справляться с управлением памятью, конкурентностью и интероперабельностью (C++/Python/CUDA), если зажать их в тиски строгих тестов. Однако выявлен уникальный вид отказа — «эффект Франкенштейна»: сгенерированные подсистемы работают корректно по отдельности, но при интеграции производительность радикально падает, так как агенты не видят глобальной картины.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2222
VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents
Bing Xu, Terry Chen, Fengzhe Zhou, Tianqi Chen, Yangqing Jia, Vinod Grover, Haicheng Wu, Wei Liu, Craig Wittenbrink, Wen-mei Hwu, Roger Bringmann, Ming-Yu Liu, Luis Ceze, Michael Lightstone, Humphrey Shi
Статья: https://arxiv.org/abs/2601.16238
Ревью: https://arxiviq.substack.com/p/vibetensor-system-software-for-deep
Код: https://github.com/NVLabs/vibetensor
# TL;DR
ЧТО сделали:
Исследователи из NVIDIA представили VibeTensor — полностью функциональный программный стек для глубокого обучения, сгенерированный ИИ-агентами. Вместо написания разрозненных скриптов, агенты построили полноценную среду выполнения, включающую ядро на C++20, Python-обвязку в стиле PyTorch, кастомный CUDA-аллокатор с кэшированием и движок автограда в reverse-mode. Система способна обучать небольшие модели (minGPT, ViT) на GPU H100, доказывая, что агенты могут управлять сложными абстракциями с сохранением состояния на стыке разных языков.
ПОЧЕМУ это важно:
Это переход от генерации кода для изолированных функций к архитектуре системного уровня. Работа доказывает, что современные агенты способны справляться с управлением памятью, конкурентностью и интероперабельностью (C++/Python/CUDA), если зажать их в тиски строгих тестов. Однако выявлен уникальный вид отказа — «эффект Франкенштейна»: сгенерированные подсистемы работают корректно по отдельности, но при интеграции производительность радикально падает, так как агенты не видят глобальной картины.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2222
arXiv.org
VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents
VIBETENSOR is an open-source research system software stack for deep learning, generated by LLM-powered coding agents under high-level human guidance. In this paper, "fully generated" refers to...
1😭12👍3😨1
Ещё одна работа про агентов для автоматизации ИИ-исследований (ИИИ). Эта прям заземляет всё на практику, чтобы агенты делали код, который работает и работает эффективно. Интересно, что как и в другой недавней работе про Learning to Discover at Test Time, подсвечивается важность не какого-то улучшенного среднего результата, а лучшего результата. И RL здесь оказывается консервативно-безопасным до уровня бесполезности.
Towards Execution-Grounded Automated AI Research
Chenglei Si, Zitong Yang, Yejin Choi, Emmanuel Candès, Diyi Yang, Tatsunori Hashimoto
Статья: https://arxiv.org/abs/2601.14525
Код: https://github.com/NoviScl/Automated-AI-Researcher
Ревью: https://arxiviq.substack.com/p/towards-execution-grounded-automated
# TL;DR
ЧТО сделали:
Авторы разработали «Automated Idea Executor» — систему, позволяющую LLM не просто генерировать гипотезы, а реализовывать их в виде патчей кода, запускать на GPU и получать реальный фидбек о производительности. Эту петлю обратной связи использовали для улучшения способностей генерации идей у фронтирных моделей (Claude 3.5 Sonnet, GPT-5) через два метода: эволюционный поиск и обучение с подкреплением (RL).
ПОЧЕМУ это важно:
Работа решает «проблему галлюцинаций» в автоматизированной науке, когда агенты генерируют правдоподобные, но нерабочие решения. Замкнув цикл на реальное исполнение, авторы показали, что LLM способны открывать новые алгоритмы, превосходящие сильные бейзлайны (например, побили рекорд экспертов в задаче GRPO). Ключевой инсайт: вскрылось фундаментальное расхождение в динамике обучения. Эволюционный поиск эффективно находит прорывные идеи-выбросы, тогда как RL страдает от коллапса мод, оптимизируя «безопасные» и простые изменения кода вместо научных открытий.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2231
Towards Execution-Grounded Automated AI Research
Chenglei Si, Zitong Yang, Yejin Choi, Emmanuel Candès, Diyi Yang, Tatsunori Hashimoto
Статья: https://arxiv.org/abs/2601.14525
Код: https://github.com/NoviScl/Automated-AI-Researcher
Ревью: https://arxiviq.substack.com/p/towards-execution-grounded-automated
# TL;DR
ЧТО сделали:
Авторы разработали «Automated Idea Executor» — систему, позволяющую LLM не просто генерировать гипотезы, а реализовывать их в виде патчей кода, запускать на GPU и получать реальный фидбек о производительности. Эту петлю обратной связи использовали для улучшения способностей генерации идей у фронтирных моделей (Claude 3.5 Sonnet, GPT-5) через два метода: эволюционный поиск и обучение с подкреплением (RL).
ПОЧЕМУ это важно:
Работа решает «проблему галлюцинаций» в автоматизированной науке, когда агенты генерируют правдоподобные, но нерабочие решения. Замкнув цикл на реальное исполнение, авторы показали, что LLM способны открывать новые алгоритмы, превосходящие сильные бейзлайны (например, побили рекорд экспертов в задаче GRPO). Ключевой инсайт: вскрылось фундаментальное расхождение в динамике обучения. Эволюционный поиск эффективно находит прорывные идеи-выбросы, тогда как RL страдает от коллапса мод, оптимизируя «безопасные» и простые изменения кода вместо научных открытий.
Подробнее: https://xn--r1a.website/gonzo_ML_podcasts/2231
Telegram
gonzo_ML_podcasts
AI-учёный с руками: от слов к делу и запускам на GPU
Towards Execution-Grounded Automated AI Research
Chenglei Si, Zitong Yang, Yejin Choi, Emmanuel Candès, Diyi Yang, Tatsunori Hashimoto
Статья: https://arxiv.org/abs/2601.14525
Код: https://github.com/…
Towards Execution-Grounded Automated AI Research
Chenglei Si, Zitong Yang, Yejin Choi, Emmanuel Candès, Diyi Yang, Tatsunori Hashimoto
Статья: https://arxiv.org/abs/2601.14525
Код: https://github.com/…
👍1🔥1