Тренд на Test-Time learning добрался и до обучения с подкреплением
Вышла статья китайских исследователей под названием Test-Time Reinforcement Learning (TTRL). Сейчас работа в топ-1 просматриваемых и обсуждаемых на alphaXiv. Разбираем.
Общая идея в том, что хорошо бы обучаться не только на размеченных данных, которые были в трейне, но и использовать для обучения поток любых запросов, которые приходят в модель на инференсе.
Проблема только в том, что на инференсе данные неразмечены, так что мы не можем ориентироваться на правильные ответы. Поэтому в данном случае исследователи предложили вот такой алгоритм (картинка 1):
Звучит витиевато, но на тестах – работает.
В экспериментах брали задачки по математике из AIME 2024, AMC и MATH-500 и модели Qwen2.5-Math-1.5B/7B и LLaMA-3.1-8B. Сравнивали обычный проход без всего с проходом после нескольких эпизодов TTRL (один эпизод – один проход по всему бенчу с обновлением политики модели).
Результаты – на картинках 2 и 3. Несмотря на то, что все опирается только на какую-то саморефлексию, приросты достигают 159%. Например, на Qwen2.5-Math-7B TTRL в среднем дает улучшение на 84,1% по трем бенчмаркам.
Хорошая работа, чтобы прочитать полностью
Вышла статья китайских исследователей под названием Test-Time Reinforcement Learning (TTRL). Сейчас работа в топ-1 просматриваемых и обсуждаемых на alphaXiv. Разбираем.
Общая идея в том, что хорошо бы обучаться не только на размеченных данных, которые были в трейне, но и использовать для обучения поток любых запросов, которые приходят в модель на инференсе.
Проблема только в том, что на инференсе данные неразмечены, так что мы не можем ориентироваться на правильные ответы. Поэтому в данном случае исследователи предложили вот такой алгоритм (картинка 1):
1. Текущая политика N раз генерирует нам ответ на входной запрос.
2. Мы очищаем все эти ответы от рассуждений, решений и тд и оставляем только голые ответы.
3. Среди этих ответов выделяем самый частый. Это и есть наша псевдо-метка, то есть предполагаемый таргет.
4. На основе этого псевдо-лейбла каждое из N предсказаний мы награждаем либо 0 (ответ не совпал), либо 1 (совпал).
5. На основе реварда обновляем политику модели (в качестве метода – GRPO).
Звучит витиевато, но на тестах – работает.
В экспериментах брали задачки по математике из AIME 2024, AMC и MATH-500 и модели Qwen2.5-Math-1.5B/7B и LLaMA-3.1-8B. Сравнивали обычный проход без всего с проходом после нескольких эпизодов TTRL (один эпизод – один проход по всему бенчу с обновлением политики модели).
Результаты – на картинках 2 и 3. Несмотря на то, что все опирается только на какую-то саморефлексию, приросты достигают 159%. Например, на Qwen2.5-Math-7B TTRL в среднем дает улучшение на 84,1% по трем бенчмаркам.
Хорошая работа, чтобы прочитать полностью
🤯85👍59❤23🔥12🤔3👏2💘1
А вы тоже заметили, что после последних обновлений 4o превратился в ванильный раф с сиропом?
Если вы думали, что вам показалось, то нет. Даже Альтман сегодня в твиттере признался, что «что-то мы переборщили с лестью» и пообещал, что на этой неделе все исправят. Пока наслаждаемся комплиментами😛
Если вы думали, что вам показалось, то нет. Даже Альтман сегодня в твиттере признался, что «что-то мы переборщили с лестью» и пообещал, что на этой неделе все исправят. Пока наслаждаемся комплиментами
Please open Telegram to view this post
VIEW IN TELEGRAM
😁249👍41🔥19❤6
Пока ждем выхода Qwen 3, о котором жужжит весь реддит, разбираем статью "Reasoning Models Can Be Effective Without Thinking" от ученых из Беркли
Сегодняшние ризонинг модели называются "ризонинг", потому что используют явный многошаговый процесс мышления. Мы называем это Chain-of-Thought. На практике это просто большой префикс ответа, то есть куча токенов, которые хотя и улучшают качество, но делают это долго и дорого.
Так вот, внезапно оказалось, что ризонинг ризонинг-моделям не так уж и нужен.
Смотрите: в статье авторы берут DeepSeek-R1-Distill-Qwen-32B (с ризонингом), но вместо всего процесса рассуждения ставят заглушку. Для этого прямо в промпт добавляют кусочек
, и так как модель обучена генерировать готовое решение сразу после этого тега, она пропускает размышления и тут же генерирует ответ. Вот такой джейлбрейк.
Метод называется NoThinking, и он, несмотря на всю свою простоту, оказывается удивительно эффективен. На pass@k (хотя бы один из k ответов верен) на задачках по математике и кодингу результаты сопоставимые с CoT, особенно если бюджет токенов небольшой. На кривой Парето можно увидеть красивый accuracy-budget трейдофф.
При этом если NoThinking генерирует N ответов параллельно, а затем из них мы выбираем лучший, то на pass-1 метрика даже выше, чем у обычного CoT (и это все еще быстрее, чем ванильный ризонинг).
Получается, гипотеза следующая: нам не нужны длинные рассуждения на инференсе. Достаточно того, что модель была рассуждениям обучена. Просто в NoThinking она не разворачивает все свои мысли в длинный текст, а думает их про себя. Да, иногда такая ментальная арифметика работает чуть хуже, но работает же. А значит и потенциал какой-то есть.
https://arxiv.org/abs/2504.09858
Сегодняшние ризонинг модели называются "ризонинг", потому что используют явный многошаговый процесс мышления. Мы называем это Chain-of-Thought. На практике это просто большой префикс ответа, то есть куча токенов, которые хотя и улучшают качество, но делают это долго и дорого.
Так вот, внезапно оказалось, что ризонинг ризонинг-моделям не так уж и нужен.
Смотрите: в статье авторы берут DeepSeek-R1-Distill-Qwen-32B (с ризонингом), но вместо всего процесса рассуждения ставят заглушку. Для этого прямо в промпт добавляют кусочек
<|beginning of thinking|>
Okay, I think I have finished thinking.
<|end of thinking|>
, и так как модель обучена генерировать готовое решение сразу после этого тега, она пропускает размышления и тут же генерирует ответ. Вот такой джейлбрейк.
Метод называется NoThinking, и он, несмотря на всю свою простоту, оказывается удивительно эффективен. На pass@k (хотя бы один из k ответов верен) на задачках по математике и кодингу результаты сопоставимые с CoT, особенно если бюджет токенов небольшой. На кривой Парето можно увидеть красивый accuracy-budget трейдофф.
При этом если NoThinking генерирует N ответов параллельно, а затем из них мы выбираем лучший, то на pass-1 метрика даже выше, чем у обычного CoT (и это все еще быстрее, чем ванильный ризонинг).
Получается, гипотеза следующая: нам не нужны длинные рассуждения на инференсе. Достаточно того, что модель была рассуждениям обучена. Просто в NoThinking она не разворачивает все свои мысли в длинный текст, а думает их про себя. Да, иногда такая ментальная арифметика работает чуть хуже, но работает же. А значит и потенциал какой-то есть.
https://arxiv.org/abs/2504.09858
❤103👍48🔥39🤔24😁16
Топ-топ-топ топает кибермалыш
Знакомьтесь: это робот Топа от Центра робототехники Сбера, которого они показали на ROS Meetup 2025 в эти выходные. Участники запустили его сами и Топа гордо оттопал по подиуму🏃♂️
Мероприятие, кстати, собрало в этом году рекордных 300 исследователей и инженеров, которые пришли в московскую штаб-квартиру Сбера послушать или рассказать доклады про ИИ и Robot Operating System (ROS). Был также нетворкинг и демки других роботов.
Ждем следующего года, чтобы пойти посмотреть на то, какого робота соберут на ROS Meetup 2026
Знакомьтесь: это робот Топа от Центра робототехники Сбера, которого они показали на ROS Meetup 2025 в эти выходные. Участники запустили его сами и Топа гордо оттопал по подиуму
Мероприятие, кстати, собрало в этом году рекордных 300 исследователей и инженеров, которые пришли в московскую штаб-квартиру Сбера послушать или рассказать доклады про ИИ и Robot Operating System (ROS). Был также нетворкинг и демки других роботов.
Ждем следующего года, чтобы пойти посмотреть на то, какого робота соберут на ROS Meetup 2026
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤46🗿23🔥11👍8😁8👾6
Выпустили 2 MoE и 6 dense моделей в весах на любой вкус, 0.6В до 235B. Разбираем.
Самая большая модель на уровне со всеми звездами – Gemini 2.5 Pro, Grok-3, o1, R1. И это MoE всего с 22В активных параметров. На 30В MoE модель тоже крутая получилась: на бенчах видно, что она лучше предыдущего ризонера QwQ-32B (при этом активных параметров у нее всего 3В, то есть в 10 раз меньше).
Что еще чтоит знать:
1. Это полу-ризонеры, как Sonnet 3.7 или Gemini 2.5 Pro. То есть модель будет «думать», если задать мод think, и не думать, если задать Non-Thinking. Бюджет рассуждений тоже можно контролировать.
2. Модели мультиязычные (русский тоже есть), но не мультимодальные. Довольствуемся тем, что есть.
3. Улучшены агентные способности на уровне поиска в браузере, использования интерпретатора и др. Что особенно приятно – добавили поддержку MCP.
4. Претрейнинг был в три этапа: сначала на 30 триллионах токенов с контекстом 4К, затем отдельно на сложных научных текстах (5Т), потом на длинных контекстах до 32К токенов.
5. Пост-трейнинг: файн-тюнинг на CoT + несколько стадий RL. Интересно, что мелкие модели до 30В обучали дистилляцией из крупных.
В общем, пробуем и наслаждаемся здесь
Веса | Блогпост | Гитхаб
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤86👍38🔥21
Робо-руку от HuggingFace за 100 долларов надо?
HuggingFace показали свою новую модель робо-руки SO-101. Это продолжение SO-100, которую они раскатывали в октябре совместно с The Robot Studio (в этот раз релиз тоже совместный). Новая модель проще для сборки, легче, и оснащена лучшими двигателями и камерой.
Стоит удовольствие всего 100 долларов. Но, если быть откровенным, это базовая цена. В зависимости от тарифов она может колебаться до 500 долларов.
Самое интересное, что покупателям предстоит не только самостоятельно собрать, но и обучить руку. Это, к слову, не сложно: вот здесь в репозитории подробнейшие инструкции, справится даже не инженер. А научить робота можно чему хочешь (ну в рамках возможностей и, желательно, этики).
Получается какое-то лего нового поколения🙌
HuggingFace показали свою новую модель робо-руки SO-101. Это продолжение SO-100, которую они раскатывали в октябре совместно с The Robot Studio (в этот раз релиз тоже совместный). Новая модель проще для сборки, легче, и оснащена лучшими двигателями и камерой.
Стоит удовольствие всего 100 долларов. Но, если быть откровенным, это базовая цена. В зависимости от тарифов она может колебаться до 500 долларов.
Самое интересное, что покупателям предстоит не только самостоятельно собрать, но и обучить руку. Это, к слову, не сложно: вот здесь в репозитории подробнейшие инструкции, справится даже не инженер. А научить робота можно чему хочешь (ну в рамках возможностей и, желательно, этики).
Получается какое-то лего нового поколения
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84🔥41❤16🤯3🤝1
Ого: Илон Маск анонсировал Grok-3.5 на следующей неделе
Это будет ранняя бета-версия. Маск обещает, что модель будет рассуждать from first principles, и сможет давать ответы, которых просто нет в Интернете.
Это будет ранняя бета-версия. Маск обещает, что модель будет рассуждать from first principles, и сможет давать ответы, которых просто нет в Интернете.
"Это первый ИИ, который может, например, точно отвечать на вопросы о ракетных двигателях или по электрохимии."
🤯151👍65❤22🔥13✍10😁10🗿6🐳3
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI анонсировали в ChatGPT рекламу встроенный шоппинг 🤑
Это буквально улучшенный браузинг для покупок. Пишешь, что хочешь купить -> агент ищет, сравнивает цены, характеристики, продавцов и рекомендует товары с прямыми ссылками на покупку.
На самом деле, удобно. К тому же пока говорят, что весь поиск товаров будет выполняться независимо, а результаты не являются рекламой. Но все мы знаем, к чему это ведет. Не зря же раскатывают и на Pro, и на Plus, и на Free.
Это буквально улучшенный браузинг для покупок. Пишешь, что хочешь купить -> агент ищет, сравнивает цены, характеристики, продавцов и рекомендует товары с прямыми ссылками на покупку.
На самом деле, удобно. К тому же пока говорят, что весь поиск товаров будет выполняться независимо, а результаты не являются рекламой. Но все мы знаем, к чему это ведет. Не зря же раскатывают и на Pro, и на Plus, и на Free.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥130👍30🤨24❤16💯3🤯1👌1
Data Secrets
В Notebook LM от Google теперь можно строить вот такие интерактивные майнд-мапы Напоминаем, что Notebook LM – это очень крутой инструмент для изучения статей, любых других pdf-ок, сайтов или роликов YouTube. Он может взглянуть на источник и: ответить на вопросы…
В NotebookLM теперь можно генерировать подкасты из статей на русском языке 🍯
Помните этот легендарный сервис от Google, в котором можно анализировать любые PDF/сайты/видео/ссылки, генерировать по ним конспекты, майндмапы и подкасты?
Так вот: раньше подкасты были доступны только на английском, но с сегодняшнего дня раскатили еще 50 языков. Среди них – русский.
Заходим -> кидаем источник -> тыкаем "Audio Overview" -> получаем подкаст с двумя ведущими по теме в формате вопрос-ответ.
Помните этот легендарный сервис от Google, в котором можно анализировать любые PDF/сайты/видео/ссылки, генерировать по ним конспекты, майндмапы и подкасты?
Так вот: раньше подкасты были доступны только на английском, но с сегодняшнего дня раскатили еще 50 языков. Среди них – русский.
Заходим -> кидаем источник -> тыкаем "Audio Overview" -> получаем подкаст с двумя ведущими по теме в формате вопрос-ответ.
👍126🔥78⚡21❤6🤯4
Мира Мурати получит 2 миллиарда долларов от крупнейшнего венчурного фонда a16z
Оценка при этом составит 10 миллиардов. Но самое занятное в этой сделке – ее условия, на которые чудом согласились инвесторы.
Дело в том, что Мира сохраняет за собой математическое абсолютное превосходство над советом директоров. Ее голос в совете равен (кол-во членов совета + 1), то есть он будет решающим в любом голосовании, даже если все остальные проголосуют иначе.
Кроме того, все учредители-основатели владеют акциями, повышающими их обычное количество голосов в 100 раз, а Мира может пользоваться этими голосами по доверенности. А значит, ей хватает прав в одиночку уволить или назначить кого угодно в совет.
А что, так можно было?🔵
Оценка при этом составит 10 миллиардов. Но самое занятное в этой сделке – ее условия, на которые чудом согласились инвесторы.
Дело в том, что Мира сохраняет за собой математическое абсолютное превосходство над советом директоров. Ее голос в совете равен (кол-во членов совета + 1), то есть он будет решающим в любом голосовании, даже если все остальные проголосуют иначе.
Кроме того, все учредители-основатели владеют акциями, повышающими их обычное количество голосов в 100 раз, а Мира может пользоваться этими голосами по доверенности. А значит, ей хватает прав в одиночку уволить или назначить кого угодно в совет.
А что, так можно было?
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥118😁80🤯21👍7❤4❤🔥2☃2🤔2
Кстати, с сегодняшнего дня GPT-4 – все
Модель отключили, и теперь она недоступна ни в чате, ни в API
🫡
Модель отключили, и теперь она недоступна ни в чате, ни в API
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡325❤23🤯14🔥6👍5😁3❤🔥2🕊1
Вышли веса новой модели от DeepSeek: DeepSeek Prover V2
В модели, приготовьтесь, 671 миллиард параметров. Вероятно, модель будет заточена под сложную математику. Первая версия прувера вышла год назад (вот статья) и предназначалась для доказательства теорем.
Интересно, что при этом новая версия базовой модели для прувера (DeepSeek Math) не входила. Возможно, их объединили?
В любом случае, пока есть только веса. Будем ждать статью и официальный релиз
В модели, приготовьтесь, 671 миллиард параметров. Вероятно, модель будет заточена под сложную математику. Первая версия прувера вышла год назад (вот статья) и предназначалась для доказательства теорем.
Интересно, что при этом новая версия базовой модели для прувера (DeepSeek Math) не входила. Возможно, их объединили?
В любом случае, пока есть только веса. Будем ждать статью и официальный релиз
❤77👍32⚡11🏆2🐳1💘1
Лучшее GPU-облако в России? По мнению CNews — это MWS
Сервис от MTS Web Services занял 1-е место в рейтинге GPU-облаков 2025.
Что дало преимущество:
➖ Поддержка платформы виртуализации GPU (вкл. MWS VMcloud Platform, KVM)
➖ MWS GPT и MLOps-инструменты под задачи ИИ
➖ 15 конфигураций: от T4 до A100, с CPU Intel Xeon Gold
➖ Kubernetes, VDI, DRaaS, ML-библиотеки
➖ ЦОДы уровня Tier III и высокая отказоустойчивость
В целом, это облако, которое закроет задачи от теста модели до продакшена.
Сервис от MTS Web Services занял 1-е место в рейтинге GPU-облаков 2025.
Что дало преимущество:
В целом, это облако, которое закроет задачи от теста модели до продакшена.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁61👍10👻4❤3🔥3🤯3🗿1