The First Few Tokens Are All You Need: новое исследование от Tencent AI Lab с контринтуитивными результатами
Ризонинг модели выдают ответы тем точнее, чем дольше размышляют. Поэтому может показаться, что вся "соль" рассуждений спрятана где-то в середине или в конце цепочек мыслей модели – так что файнтюнить их надо полностью, и только тогда мы добьемся улучшения.
Но в китайской лаборатории внимательно посмотрели на CoT и заметили, что ключевую роль в них играют всего 8–32 первых токена. Они часто совпадают у разных траекторий и играют роль "ядра" рассуждений (это может быть план решения, например).А если почти все зависит от начала – можно файнтюнить только его.
Tencent назвали такой подход Unsupervised Prefix Fine-Tuning (UPFT). Модель генерирует много вариантов CoT, из которых мы выбираем самые стабильные префиксы. Затем на этих выбранных частях вся модель обучается генерировать хорошее базовое начало для рассуждений.
Результаты – лучше, чем можно было предположить. UPFT может давать прирост в 2–5 процентных пунктов по сравнению с базовой SFT. Это сопоставимо с методами вроде RFT или V-STaR, при этом время обучения меньше на 75%, а расход токенов сокращается на 99%.
arxiv.org/pdf/2503.02875
Ризонинг модели выдают ответы тем точнее, чем дольше размышляют. Поэтому может показаться, что вся "соль" рассуждений спрятана где-то в середине или в конце цепочек мыслей модели – так что файнтюнить их надо полностью, и только тогда мы добьемся улучшения.
Но в китайской лаборатории внимательно посмотрели на CoT и заметили, что ключевую роль в них играют всего 8–32 первых токена. Они часто совпадают у разных траекторий и играют роль "ядра" рассуждений (это может быть план решения, например).А если почти все зависит от начала – можно файнтюнить только его.
Tencent назвали такой подход Unsupervised Prefix Fine-Tuning (UPFT). Модель генерирует много вариантов CoT, из которых мы выбираем самые стабильные префиксы. Затем на этих выбранных частях вся модель обучается генерировать хорошее базовое начало для рассуждений.
Результаты – лучше, чем можно было предположить. UPFT может давать прирост в 2–5 процентных пунктов по сравнению с базовой SFT. Это сопоставимо с методами вроде RFT или V-STaR, при этом время обучения меньше на 75%, а расход токенов сокращается на 99%.
arxiv.org/pdf/2503.02875
1👍107🔥53❤9❤🔥3🍓1
LM Arena снова молодцы: только что они запустили search арену
Это новый elo рейтинг для моделей-поисковиков. Например, на скрине выше – Perplexity Sonar-Pro против GPT-4o-mini-search.
Напоминаем, что для пользователей это значит следующее: можно прийти, бесплатно погонять свои серч-запросы, а взамен предоставить разметку (то есть выбирать из двух тот вариант, который вам нравится больше).
Ждем лидерборд, а пока попробовать можно тут
Это новый elo рейтинг для моделей-поисковиков. Например, на скрине выше – Perplexity Sonar-Pro против GPT-4o-mini-search.
Напоминаем, что для пользователей это значит следующее: можно прийти, бесплатно погонять свои серч-запросы, а взамен предоставить разметку (то есть выбирать из двух тот вариант, который вам нравится больше).
Ждем лидерборд, а пока попробовать можно тут
🔥93👍33❤15💅5
Media is too big
VIEW IN TELEGRAM
Вашему вниманию самый мимимишный робот на свете. Это совместная разработка Nvidia, Disney и Google DeepMind
Малыша Blue в стиле Звездных войн показали сегодня ночью на GTC. Никто им не управляет, он работает автономно в реальном времени благодаря новому движку Newton и базовой модели Groot. Обе технологии опенсорсые под лицензией Apache. Подробнее 👇
🔷 Groot N1 – следующая версия модели Groot (писали о ней здесь). Это foundation модель, то есть ее можно адаптировать под разные задачи и сценарии.
Под капотом у Groot два модуля: (1) Vision Language Model для планирования и «обдумывания» действий; (2) диффузионный трансформер, который принимает текущую позу робота и сигналы от VLM и генерирует непосредственно действия.
В репо можно найти все подробности по использованию. Обучали модель на огромном объеме данных, кстати, в том числе синтетических. Обучение происходило полностью в симуляции (так в сотни раз быстрее и дешевле, чем в реальном мире).
🔷 Newton – движок, который как раз предназначен для трейна роботов в симуляции. Это классический подход (см этот наш пост, или этот, или этот), в частности у Nvidia есть свой движок Isaac, продолжением которого и стал Newton.
Основная проблема, которую тут решают – gap между симуляцией и реальной физикой мира. Особенно проблемно воссоздавать например динамику жестких и мягких тел, контактные взаимодействия, трение, работу приводов и тд.
В Newton для такого добавили много точных солверов для предсказания поведения разных видов вещества. Конечно, все они вместе очень прожорливые, так что сюда еще прикручены мощные оптимизации на GPU. Вот блогпост.
🤖
Малыша Blue в стиле Звездных войн показали сегодня ночью на GTC. Никто им не управляет, он работает автономно в реальном времени благодаря новому движку Newton и базовой модели Groot. Обе технологии опенсорсые под лицензией Apache. Подробнее 👇
Под капотом у Groot два модуля: (1) Vision Language Model для планирования и «обдумывания» действий; (2) диффузионный трансформер, который принимает текущую позу робота и сигналы от VLM и генерирует непосредственно действия.
В репо можно найти все подробности по использованию. Обучали модель на огромном объеме данных, кстати, в том числе синтетических. Обучение происходило полностью в симуляции (так в сотни раз быстрее и дешевле, чем в реальном мире).
Основная проблема, которую тут решают – gap между симуляцией и реальной физикой мира. Особенно проблемно воссоздавать например динамику жестких и мягких тел, контактные взаимодействия, трение, работу приводов и тд.
В Newton для такого добавили много точных солверов для предсказания поведения разных видов вещества. Конечно, все они вместе очень прожорливые, так что сюда еще прикручены мощные оптимизации на GPU. Вот блогпост.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤104😍46👍31🤯13⚡3🤗3
This media is not supported in your browser
VIEW IN TELEGRAM
Nvidia анонсировала AI мини-суперкомпьютер
Роботы – не все, чем порадовал нас Хуанг на GTC 2025. Помните DiGIT с выставки CES в январе? Так вот эту коробочку официально переименовали в DGX Spark и показали вживую.
В ней 128Gb оперативки, 20 ядер CPU, ARM процессор и архитектура Grace Blackwell. Пропускная способность в районе 273 ГБ/с. Все это весит всего 1.2кг.
Стоит такой домашний зверь 4000 долларов, и его уже можно забронировать
www.nvidia.com/en-us/products/workstations/dgx-spark/
Роботы – не все, чем порадовал нас Хуанг на GTC 2025. Помните DiGIT с выставки CES в январе? Так вот эту коробочку официально переименовали в DGX Spark и показали вживую.
В ней 128Gb оперативки, 20 ядер CPU, ARM процессор и архитектура Grace Blackwell. Пропускная способность в районе 273 ГБ/с. Все это весит всего 1.2кг.
Стоит такой домашний зверь 4000 долларов, и его уже можно забронировать
www.nvidia.com/en-us/products/workstations/dgx-spark/
🔥95👍26❤15🤔5😁3😎2
This media is not supported in your browser
VIEW IN TELEGRAM
В Notebook LM от Google теперь можно строить вот такие интерактивные майнд-мапы
Напоминаем, что Notebook LM – это очень крутой инструмент для изучения статей, любых других pdf-ок, сайтов или роликов YouTube. Он может взглянуть на источник и: ответить на вопросы, доступно объяснить содержание или даже сгененировать небольшой подкаст в стиле вопрос-ответ.
И вот теперь кроме всего этого там можно по одной кнопке генерировать целые Mindmap'ы. Получится дерево, по которому можно ходить, проваливаться глубже по веткам и тем самым быстро находить и понимать нужную информацию.
Ну красота же notebooklm.google
Напоминаем, что Notebook LM – это очень крутой инструмент для изучения статей, любых других pdf-ок, сайтов или роликов YouTube. Он может взглянуть на источник и: ответить на вопросы, доступно объяснить содержание или даже сгененировать небольшой подкаст в стиле вопрос-ответ.
И вот теперь кроме всего этого там можно по одной кнопке генерировать целые Mindmap'ы. Получится дерево, по которому можно ходить, проваливаться глубже по веткам и тем самым быстро находить и понимать нужную информацию.
Ну красота же notebooklm.google
❤142👍53🔥41
Лаборатория Metr выпустила интересное исследование: они обнаружили своеобразный закон Мура для ИИ-агентов
Ключевой вопрос сегодняшнего дня: когда агенты смогут автономно работать над длительными проектами? Наши системы уже пишут код лучше 95% людей, отвечают на вопросы уровня PhD и решают международные мат.олимпиады на золотые медали.
Но заменить ими хотя бы одного сотрудника (даже совсем зеленого стажера) все еще невозможно. Это замаскированный парадокс Моравека.
Так вот оказалось, что продолжительность задач, которые может выполнять ИИ, удваивается примерно каждые 7 месяцев.
Измеряли это так: засекали, сколько времени на выполнение задачи нужно человеку, затем прогоняли эту же задачу через агента, и смотрели, как он справится. Получается зависимость, которую можно наблюдать на графике 2. А если тренд заскейлить, то получается график 1.
Кстати, примерно такая же тенденция наблюдается на бенчмарках, например на SWE-bench. На самом деле, ускорение 3-4x в год – это довольно быстро. Получается, что примерно к 2027 мы доберемся до задач, которые у людей занимают целый рабочий день.
metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
Ключевой вопрос сегодняшнего дня: когда агенты смогут автономно работать над длительными проектами? Наши системы уже пишут код лучше 95% людей, отвечают на вопросы уровня PhD и решают международные мат.олимпиады на золотые медали.
Но заменить ими хотя бы одного сотрудника (даже совсем зеленого стажера) все еще невозможно. Это замаскированный парадокс Моравека.
Так вот оказалось, что продолжительность задач, которые может выполнять ИИ, удваивается примерно каждые 7 месяцев.
Измеряли это так: засекали, сколько времени на выполнение задачи нужно человеку, затем прогоняли эту же задачу через агента, и смотрели, как он справится. Получается зависимость, которую можно наблюдать на графике 2. А если тренд заскейлить, то получается график 1.
Кстати, примерно такая же тенденция наблюдается на бенчмарках, например на SWE-bench. На самом деле, ускорение 3-4x в год – это довольно быстро. Получается, что примерно к 2027 мы доберемся до задач, которые у людей занимают целый рабочий день.
metr.org/blog/2025-03-19-measuring-ai-ability-to-complete-long-tasks/
👍86🔥38❤15🤔8🌚6😁4😐3🫡3❤🔥1🕊1
o1-pro теперь доступна в API, но есть нюанс
Цена на нее (лучше присядьте) – 150$ / М input и 600$ / М output. Это, для сравнения:
– В 4 раза дороже GPT-4.5
– В 10 раз дороже o1
– В 136 раз дороже o3-mini
– В 274 раза дороже DeepSeek R1
Надеемся, тренд на снижение цен в этом году сохранится, иначе модели с такой стоимостью можно считать практически бесполезными для разработчиков😭
Цена на нее (лучше присядьте) – 150$ / М input и 600$ / М output. Это, для сравнения:
– В 4 раза дороже GPT-4.5
– В 10 раз дороже o1
– В 136 раз дороже o3-mini
– В 274 раза дороже DeepSeek R1
Надеемся, тренд на снижение цен в этом году сохранится, иначе модели с такой стоимостью можно считать практически бесполезными для разработчиков
Please open Telegram to view this post
VIEW IN TELEGRAM
😁128🔥18🕊11🗿8👍4🤯4❤🔥1
Media is too big
VIEW IN TELEGRAM
Гуманоид Atlas от Boston Dynamics на новом демо просто поразил всех плавностью и точностью движений
Такое чувство, что он вовсе и не железный. Деталей обучения стартап не раскрывает, но верхнеуровнево пайплайн трейна примерно такой:
1. Сбор данных человеческих движений. Они используют специальные костюмы с захватом движений, собирают данные, а затем перекладывают их на робота с учетом его анатомии. Получается примерное целевое поведение.
2. Дальше – RL в симуляторе. Для выучивания оптимальной политики для каждого движения требуется примерно 150 миллионов запусков. В реальности это заняло бы годы, но в симуляторе – вполне подъемно. Алгоритмами RL и симулятором, кстати, занимаются не сами BD, им помогает RAI Institute.
3. Затем файнтюн sim-to-real, то есть перенос выученных политик из симуляции на реального робота и дообучение, чтобы устранить небольшие расхождения реальной физики с симуляцией.
* Конечно, цель тут – это zero-shot transfer, когда робот после обучения в симуляторе может сразу выполнять задачу в реальном мире без корректировок. Но симуляторы пока не настолько совершенны, и исследователи пишут, что активно над этим работают.
Такое чувство, что он вовсе и не железный. Деталей обучения стартап не раскрывает, но верхнеуровнево пайплайн трейна примерно такой:
1. Сбор данных человеческих движений. Они используют специальные костюмы с захватом движений, собирают данные, а затем перекладывают их на робота с учетом его анатомии. Получается примерное целевое поведение.
2. Дальше – RL в симуляторе. Для выучивания оптимальной политики для каждого движения требуется примерно 150 миллионов запусков. В реальности это заняло бы годы, но в симуляторе – вполне подъемно. Алгоритмами RL и симулятором, кстати, занимаются не сами BD, им помогает RAI Institute.
3. Затем файнтюн sim-to-real, то есть перенос выученных политик из симуляции на реального робота и дообучение, чтобы устранить небольшие расхождения реальной физики с симуляцией.
* Конечно, цель тут – это zero-shot transfer, когда робот после обучения в симуляторе может сразу выполнять задачу в реальном мире без корректировок. Но симуляторы пока не настолько совершенны, и исследователи пишут, что активно над этим работают.
1🔥111❤50👍33🤯11❤🔥1⚡1👏1🤩1🏆1🫡1
Яндекс выкатил YandexART 2.5 Pro: вызов Midjourney и подписка на коммерческое использование генераций
Компания показала сразу две версии — YandexART 2.5 и YandexART 2.5 Pro. По результатам SbS-тестирования линейка превосходит Midjourney 6.1, а также выигрывает в сравнениях или находится в паритете с Ideogram, Dall-E 3 и Flux.
Что интересного под капотом:
🟦 Впервые применена техника «супирования» — особый вид файнтюна, объединяющий лучшие подходы в обучении. Это позволило радикально снизить количество дефектов на изображениях.
🟦 Автокодировщик VAE заменён с 4-канального на 16-канальный, то есть в 4 раза увеличен размер латентного пространства, в котором работает диффузионная модель. Это повышает её разрешающую способность для работы с большим числом мелких деталей.
🟦 Датасет расширен почти до 1 млрд пар изображений и описаний. Для улучшения точности задействовали визуально-лингвистическую модель (VLM), которая не только генерирует подробные описания, но и оценивает соответствие изображений промптам.
🟦 Генерация текста на латинице улучшена на 30% по сравнению с предыдущей версией.
🟦 В результате модели стали лучше следовать инструкциям в промптах и более уверенно создавать картинки с указанным количеством предметов нужных форм, цветов, размеров и других характеристик.
YandexART 2.5 уже доступна всем пользователям Шедеврума, а прошка — в новой подписке за 100 рублей в месяц (всего 1 евро, что?). Подписка включает приоритетную очередь генерации, 4K без водяных знаков и полные коммерческие права на использование. Больше технических подробностей выложили на Хабре.
Тестим?
Компания показала сразу две версии — YandexART 2.5 и YandexART 2.5 Pro. По результатам SbS-тестирования линейка превосходит Midjourney 6.1, а также выигрывает в сравнениях или находится в паритете с Ideogram, Dall-E 3 и Flux.
Что интересного под капотом:
YandexART 2.5 уже доступна всем пользователям Шедеврума, а прошка — в новой подписке за 100 рублей в месяц (всего 1 евро, что?). Подписка включает приоритетную очередь генерации, 4K без водяных знаков и полные коммерческие права на использование. Больше технических подробностей выложили на Хабре.
Тестим?
Please open Telegram to view this post
VIEW IN TELEGRAM
❤77🔥35🤪25👍16😁5🙈5🗿3🍌2😐2🫡1
Media is too big
VIEW IN TELEGRAM
А вы уже видели новую рекламу Perplexity в стиле Игры в кальмара? Они даже актера Ли Чжон Чжэ с главной роли позвали. Но особенно порадовал «Poogle» 😐
Маркетинг ИИ, который мы заслужили
Маркетинг ИИ, который мы заслужили
Please open Telegram to view this post
VIEW IN TELEGRAM
😁185🔥59👍19🤪7❤6🦄4🎅1
OpenAI выкатили в API три новые аудио-модели
🔷 Первые две – speech2text. Они лучше Whisper, и вообще заявляют SOTA. Говорят, что к тому же будут хорошо работать с акцентами, шумом и быстрой речью.
Отличие между двумя этими моделями – в размерах (ну и цене): первая gpt-4o-transcribe, вторая – gpt-4o-mini-transcribe. Разницу в метриках и приросты оцените сами 👆
🔷 Третья моделька – gpt-4o-mini-tts – позанятнее. Это, наоборот, text2speech, то есть модель, проговаривающая текст. Но не просто проговаривающая, а с той интонацией и тем голосом, которые зададите вы. Поиграться уже можно здесь www.openai.fm/
🔷 Ну и новая либа для агентов Agents SDK теперь тоже поддерживает аудио, так что с этого дня там можно создавать всякие говорящие штуки.
openai.com/index/introducing-our-next-generation-audio-models/
Отличие между двумя этими моделями – в размерах (ну и цене): первая gpt-4o-transcribe, вторая – gpt-4o-mini-transcribe. Разницу в метриках и приросты оцените сами 👆
openai.com/index/introducing-our-next-generation-audio-models/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🔥27❤16