Reinforcement Pre-Training: новая трендовая статья от ученых из Microsoft и Пекинского университета
Стандартное предобучение LLM сводится к максимизации предсказанной вероятности истинного следующего токена по контексту. То есть модель просто предсказывает следующие токены и мы сверяем их с истинными.
В этой статье же предлагают иной подход – next-token reasoning (ака а давайте добавим обучение с подкреплением еще и сюда). Это значит, что мы не дожидаясь тюнинга, с самого первого этапа обучения – предобучения на текстах – учим модель рассуждать.
Здесь задача сети не просто предсказать следующий токен, а сначала сгенерировать chain-of-thought, а только затем – токен. Награда выдается за точное совпадение с истинным префиксом.
Такое RPT-обучение сопоставимо по эффективности с увеличением модели в 2 раза. То есть RPT-14B показывает заметный прирост по сравнению с ванильно обученной R1-Distill-Qwen-14B и по среднему показателю next-token accuracy достигает уровня R1-Distill-Qwen-32B.
Конечно, и компьюта на такой трейн требуется в разы больше. Но есть еще один плюс: RPT-модель, за счет того, что для нее CoT уже знаком с претрейна, дает гораздо более хорошую базу для дальнейшего RL, то есть в будущем с помощью RL RPT бустанется в разы лучше, чем обычная базовая модель.
Занятно, конечно arxiv.org/abs/2506.08007
Стандартное предобучение LLM сводится к максимизации предсказанной вероятности истинного следующего токена по контексту. То есть модель просто предсказывает следующие токены и мы сверяем их с истинными.
В этой статье же предлагают иной подход – next-token reasoning (ака а давайте добавим обучение с подкреплением еще и сюда). Это значит, что мы не дожидаясь тюнинга, с самого первого этапа обучения – предобучения на текстах – учим модель рассуждать.
Здесь задача сети не просто предсказать следующий токен, а сначала сгенерировать chain-of-thought, а только затем – токен. Награда выдается за точное совпадение с истинным префиксом.
Такое RPT-обучение сопоставимо по эффективности с увеличением модели в 2 раза. То есть RPT-14B показывает заметный прирост по сравнению с ванильно обученной R1-Distill-Qwen-14B и по среднему показателю next-token accuracy достигает уровня R1-Distill-Qwen-32B.
Конечно, и компьюта на такой трейн требуется в разы больше. Но есть еще один плюс: RPT-модель, за счет того, что для нее CoT уже знаком с претрейна, дает гораздо более хорошую базу для дальнейшего RL, то есть в будущем с помощью RL RPT бустанется в разы лучше, чем обычная базовая модель.
Занятно, конечно arxiv.org/abs/2506.08007
1👍127❤48🔥38🤯21🤔12 6
И снова Черное Зеркало: OpenAI объединяется с производителем Барби, чтобы выпускать игрушки с ИИ
Стартап снова захватывает новую для себя область распространения своих моделей. На этот раз они подписали соглашение о сотрудничестве с Mattel. Это производители Барби, Hot Wheels, UNO, Polly Pocket и других бестселлеров в мире игрушек.
Первый совместный продукт компании планируют выпустить к концу года. Ставку обещают сделать на безопасность😎
Купите такое своему ребенку?
Стартап снова захватывает новую для себя область распространения своих моделей. На этот раз они подписали соглашение о сотрудничестве с Mattel. Это производители Барби, Hot Wheels, UNO, Polly Pocket и других бестселлеров в мире игрушек.
Первый совместный продукт компании планируют выпустить к концу года. Ставку обещают сделать на безопасность
Купите такое своему ребенку?
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁118👀52 30❤17🦄11 8👍5🤨5🤔4🗿3👨💻2
Claude Opus написал статью-ответ на ту самую резонансную работу Apple «The Illusion of Thinking»
Его дисс называется The Illusion of the Illusion of Thinking, и Opus в нем числится первым из двух авторов. Вот эта папира, лежит на arxiv.
Док небольшой, всего три страницы. Если кратко, Клод предъявляет ряд претензий к дизайну экспериментов Apple. Вот основные:
1️⃣ Автоматическая система оценки работала неправильно. Она засчитывала ответ только если модель могла явно перечислить все шаги решения, не различая ситуацию «не могу» и «могу, но не буду перечислять всё». Также некорректными были исходные метрики сложности задач: авторы считали ее просто по числу шагов, не учитывая количество вариантов решения, NP сложность и другие нюансы.
2️⃣ Авторы давали модели нерешаемые задачи. Например, тестировали River Crossing с
N ≥ 6 при вместимости лодки 3. Такие задачи математически не имеют решений, но модели все равно получают 0 баллов за «провал».
3️⃣ Ограничений по длине ризонинга не должно было быть. Якобы в задачах типа Башни Ханоя модели не провалились в рассуждениях, как утверждается в оригинале, а остановились из-за ограничения на количество токенов. При этом если попросить вывести ответ в другом формате (например, написать функцию для решения задачи) – все работает.
Ризонинг-модель пишет диссы на человеческую статью про ризонинг. Добро пожаловать в 2025☠️
Его дисс называется The Illusion of the Illusion of Thinking, и Opus в нем числится первым из двух авторов. Вот эта папира, лежит на arxiv.
Док небольшой, всего три страницы. Если кратко, Клод предъявляет ряд претензий к дизайну экспериментов Apple. Вот основные:
N ≥ 6 при вместимости лодки 3. Такие задачи математически не имеют решений, но модели все равно получают 0 баллов за «провал».
Ризонинг-модель пишет диссы на человеческую статью про ризонинг. Добро пожаловать в 2025
Please open Telegram to view this post
VIEW IN TELEGRAM
1⚡321 130😁73👍40❤29😎7🤨6🔥5 5
Китайские инженеры летают в Малайзию с рюкзаками жестких дисков с данными, чтобы обучать модели
Если раньше китайские стартапы обходились черным рынком для покупки чипов Nvidia, то теперь, после ужесточения контроля США, они перешли на следующий уровень: теперь, вместо ввоза чипов, они вывозят данные. Об этом написал WSJ.
Сообщается, что некоторое время назад четыре сотрудника китайского ИИ-стартапа летели из Пекина в Куала-Лумпур, и каждый вез с собой 15 жестких дисков с 80Тб данных для обучения модели.
Судя по всему, операция была тщательно спланирована. Данные решили переправить так, потому что онлайн передача заняла бы много времени и привлекла внимание. По прилете в Малазию сотрудники арендовали 300 серверов Nvidia, на которых, предположительно, сейчас и обучают модели.
Чего только не сделаешь ради падающего лосса. Скоро голубями будут отправлять🥲
Если раньше китайские стартапы обходились черным рынком для покупки чипов Nvidia, то теперь, после ужесточения контроля США, они перешли на следующий уровень: теперь, вместо ввоза чипов, они вывозят данные. Об этом написал WSJ.
Сообщается, что некоторое время назад четыре сотрудника китайского ИИ-стартапа летели из Пекина в Куала-Лумпур, и каждый вез с собой 15 жестких дисков с 80Тб данных для обучения модели.
Судя по всему, операция была тщательно спланирована. Данные решили переправить так, потому что онлайн передача заняла бы много времени и привлекла внимание. По прилете в Малазию сотрудники арендовали 300 серверов Nvidia, на которых, предположительно, сейчас и обучают модели.
Чего только не сделаешь ради падающего лосса. Скоро голубями будут отправлять
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥375😁178❤29 20😎11🤯9 8 5👨💻4🤗2🤝1
OpenAI завезли в Codex прикольное обновление: теперь агент может генерировать несколько вариантов ответов
В настройках можно установить их количество – от 1 до 4. Особенно удобно, когда надо, например, быстро получить несколько путей устранения бага или увидеть разные варианты имплементации.
В настройках можно установить их количество – от 1 до 4. Особенно удобно, когда надо, например, быстро получить несколько путей устранения бага или увидеть разные варианты имплементации.
1🔥131👍44❤16🤯6
Ученые из Anthropic предложили новый метод самообучения моделей
Традиционно файн-тюнинг строится на размеченных людьми данных. Но со временем данных становится больше, и задачи ИИ усложняются. А значит, находить квалифицированных разметчиков все сложнее (и дороже), да и в целом разметка становится менее надежной.
Решение от Anthropic и университетов-партнеров – алгоритм под названием «Internal Coherence Maximization» или ICM, то есть Максимизация внутренней когерентности. С помощью него тюнить модели можно вообще без человеческой разметки.
Когерентность – это принцип из философии, который означает, что все сущее находится во взаимосвязи. Собственно, тут все построено на нем, и модель в ICM должна сама определить, какой ответ на вопрос правильный, основываясь на двух критериях:
1️⃣ Взаимная предсказуемость. Это означает, что каждый ответ должен надежно следовать из предыдущих. Модель проверяет, есть ли закономерности и соответствует ли ее ответ остальным аналогичным случаям.
2️⃣ Логическая согласованность. Здесь модель проверяет свои собственные ответы на противоречия, чтобы метки логически не спорили друг с другом (наример, если 2+3 = 5, то 3+3 уже не может быть равно 5).
Вот и все. Сначала мы подсовываем модели совсем небольшой размеченный датасет, а затем она, используя эти два правила, обучается "автономно".
На некоторых тестах метрики на таком обучении даже превосходят метрики от обычного файн-тюнинга с человеческой разметкой. И в самой разметке модель тоже иногда допускает меньше ошибок: например, на тесте определения пола автора текста, на котором люди выбивают не более 60% случаев, ICM достигла точности в 80%.
Конечно, работает это только с концептами, которые уже хоть как-то знакомы модели + пока есть сложности с длинным контекстом. И тем не менее, выглядит все еще многообещающе.
alignment-science-blog.pages.dev/2025/unsupervised-elicitation/paper.pdf
Традиционно файн-тюнинг строится на размеченных людьми данных. Но со временем данных становится больше, и задачи ИИ усложняются. А значит, находить квалифицированных разметчиков все сложнее (и дороже), да и в целом разметка становится менее надежной.
Решение от Anthropic и университетов-партнеров – алгоритм под названием «Internal Coherence Maximization» или ICM, то есть Максимизация внутренней когерентности. С помощью него тюнить модели можно вообще без человеческой разметки.
Когерентность – это принцип из философии, который означает, что все сущее находится во взаимосвязи. Собственно, тут все построено на нем, и модель в ICM должна сама определить, какой ответ на вопрос правильный, основываясь на двух критериях:
Вот и все. Сначала мы подсовываем модели совсем небольшой размеченный датасет, а затем она, используя эти два правила, обучается "автономно".
На некоторых тестах метрики на таком обучении даже превосходят метрики от обычного файн-тюнинга с человеческой разметкой. И в самой разметке модель тоже иногда допускает меньше ошибок: например, на тесте определения пола автора текста, на котором люди выбивают не более 60% случаев, ICM достигла точности в 80%.
Конечно, работает это только с концептами, которые уже хоть как-то знакомы модели + пока есть сложности с длинным контекстом. И тем не менее, выглядит все еще многообещающе.
alignment-science-blog.pages.dev/2025/unsupervised-elicitation/paper.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤150🔥69👍20🤯16 6❤🔥5 5😁4 2⚡1🫡1
Media is too big
VIEW IN TELEGRAM
«Китайские шпионы систематически похищают технологические ИИ-секреты США» – Александр Ванг
Александр Ванг заявил, что хоть США пока и опережает Китай в железе и алгоритмах, Азия уже скоро вырвется вперед благодаря:
1. Шпионажу. Китай с 2018 года реализует масштабный государственный ИИ-план. В том числе они масштабно засылают шпионов в американские компании. Пример – «Инженер Google украл проектную документацию по ИИ-чипам и начал на её основе бизнес в Китае». Своих же исследователей китайцы строго изолируют и проверяют.
2. Разметке. В Китае насчитывается более 2 миллионов человек, которые занимаются аннотированием данных – против всего 100 000 в США. Данных для обучения у них уже больше.
3. Информационной войне. Китай использует ИИ для создания передовых инструментов в области влияния на сознание и тем самым манипулируют общественностью.
Вот такие байки от будущего главы ИИ в Meta. Верим?
Источник: новое интервью
Александр Ванг заявил, что хоть США пока и опережает Китай в железе и алгоритмах, Азия уже скоро вырвется вперед благодаря:
1. Шпионажу. Китай с 2018 года реализует масштабный государственный ИИ-план. В том числе они масштабно засылают шпионов в американские компании. Пример – «Инженер Google украл проектную документацию по ИИ-чипам и начал на её основе бизнес в Китае». Своих же исследователей китайцы строго изолируют и проверяют.
2. Разметке. В Китае насчитывается более 2 миллионов человек, которые занимаются аннотированием данных – против всего 100 000 в США. Данных для обучения у них уже больше.
3. Информационной войне. Китай использует ИИ для создания передовых инструментов в области влияния на сознание и тем самым манипулируют общественностью.
Вот такие байки от будущего главы ИИ в Meta. Верим?
Источник: новое интервью
1🤯134😁82🔥24❤23👍20💯14🗿13 10👻7 7 3
Китайская лаборатория BAAI выпустила открытую SOTA модель для робототехники
RoboBrain 2.0 – это модель общего назначения для управления роботами. Это не просто VLA, а «модель мозга».
Модель поддерживает рассуждения и долгосрочное агентное планирование, устойчивое восприятие 3D-пространства и рассуждения на основе сцены, а также долгосрочную обновляемую память.
Под капотом: Vision Encoder + MLP Projector. На вход принимает и видео, и картинки, и, конечно, текст. Через адаптеры все подается в LLM декодер, который и выполняет поставленные задачи.
Пока доступна модель на 7В, скоро выйдет на 32В. Модель побольше на робо-бенчах обгоняет и открытых, и закрытых конкурентов. В том числе Claude Sonnet 4 и o4-mini.
Радует, что снова появляется явный тренд на открытую робототехнику
GitHub | HuggingFace
RoboBrain 2.0 – это модель общего назначения для управления роботами. Это не просто VLA, а «модель мозга».
Модель поддерживает рассуждения и долгосрочное агентное планирование, устойчивое восприятие 3D-пространства и рассуждения на основе сцены, а также долгосрочную обновляемую память.
Под капотом: Vision Encoder + MLP Projector. На вход принимает и видео, и картинки, и, конечно, текст. Через адаптеры все подается в LLM декодер, который и выполняет поставленные задачи.
Пока доступна модель на 7В, скоро выйдет на 32В. Модель побольше на робо-бенчах обгоняет и открытых, и закрытых конкурентов. В том числе Claude Sonnet 4 и o4-mini.
Радует, что снова появляется явный тренд на открытую робототехнику
GitHub | HuggingFace
1⚡91❤48🔥34🤯8👍7🤔1🕊1🤨1
This media is not supported in your browser
VIEW IN TELEGRAM
Просто выпуск Друзей от ноября 1999 года
Они что-то знали💡
К 2030 году появятся компьютеры, которые смогут выполнять столько же функций, сколько и настоящий человеческий мозг
Они что-то знали
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁158 53 21❤9🗿7 2 2🤯1😎1
GoogLeNet выиграл награду test-of-time на конференции CVPR
Каждый год на CVPR награждают одну статью, которая вышла ровно 10 лет назад и оказала наибольшее влияние на область компьютерного зрения. Это называется Longuet‑Higgins Prize.
В этом году премию выиграла легендарная статья Going Deeper with Convolutions, в которой впервые показали архитектуру GoogLeNet.
В 2014 году модель выиграла соревнование ImageNet. Это была одна из первых глубоких нейросетей: именно она показала, как можно добавлять больше слоев без взрыва параметров и с сохранением эффективности.
Поздравляем!🎉
Каждый год на CVPR награждают одну статью, которая вышла ровно 10 лет назад и оказала наибольшее влияние на область компьютерного зрения. Это называется Longuet‑Higgins Prize.
В этом году премию выиграла легендарная статья Going Deeper with Convolutions, в которой впервые показали архитектуру GoogLeNet.
В 2014 году модель выиграла соревнование ImageNet. Это была одна из первых глубоких нейросетей: именно она показала, как можно добавлять больше слоев без взрыва параметров и с сохранением эффективности.
Поздравляем!
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤123 46 11😁1
В ChatGPT тихо обновился поиск
Самое значимое: теперь в нем есть возможность искать по картинке + добавили автоматическое переключение на множественный пошаговый поиск для сложных запросов.
Кроме того, улучшили следование инструкциям, полноту ответов и их актуальность.
Еще пишут, что «некоторые юзеры могут замечать цепочки рассуждений» – даже при поиске с не-ризонинг моделями и для простых вопросов. Говорят, что скоро исправят, а пока пользуемся😉
Самое значимое: теперь в нем есть возможность искать по картинке + добавили автоматическое переключение на множественный пошаговый поиск для сложных запросов.
Кроме того, улучшили следование инструкциям, полноту ответов и их актуальность.
Еще пишут, что «некоторые юзеры могут замечать цепочки рассуждений» – даже при поиске с не-ризонинг моделями и для простых вопросов. Говорят, что скоро исправят, а пока пользуемся
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁82👍45❤19🔥10
Сегодня, кстати, празднуется Международный День Отца
Поздравляем, получается🤓
P.S. Сможете назвать всех?
Поздравляем, получается
P.S. Сможете назвать всех?
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤112👍34 17😁9🤨4🔥2🤯2👨💻1