Новое исследование от Anthropic: ризонинг модели на самом деле думают не то, что выдают за свои мысли
Исследователи провели простой эксперимент "на честность". Они давали модели два одинаковых промпта за одним исключением: в одном была скрытая подсказка по решению. Далее сверяли результаты (если модель изменила ответ после получения подсказки – значит, она ее использовала) и проверяли, упоминает ли LM о данной ей наводке в своих цепочках мыслей.
В итоге оказалось, что наши ИИ-друзья не такие уж и искренние: у DeepSeek R1 показатель честности – 39%, а у Claude 3.7 Sonnet – 25%. То есть лишь в четверти опытов агент открыто "делился мыслями". В остальных же случаях модель скрывала свои истинные рассуждения.
При этом чем сложнее задачи – тем менее репрезентативны CoT. На третьем скрине можно прямо проследить, как честность почти в два раза просаживается после перехода с бенчмарка MMLU (полегче) на GPQA (посложнее).
Не помогает даже специальное дообучение – метрики быстро выходят на плато (рис 4). Сами Anthropic говорят, что все это довольно тревожно:
Прочитать статью полностью можно вот здесь
Исследователи провели простой эксперимент "на честность". Они давали модели два одинаковых промпта за одним исключением: в одном была скрытая подсказка по решению. Далее сверяли результаты (если модель изменила ответ после получения подсказки – значит, она ее использовала) и проверяли, упоминает ли LM о данной ей наводке в своих цепочках мыслей.
В итоге оказалось, что наши ИИ-друзья не такие уж и искренние: у DeepSeek R1 показатель честности – 39%, а у Claude 3.7 Sonnet – 25%. То есть лишь в четверти опытов агент открыто "делился мыслями". В остальных же случаях модель скрывала свои истинные рассуждения.
При этом чем сложнее задачи – тем менее репрезентативны CoT. На третьем скрине можно прямо проследить, как честность почти в два раза просаживается после перехода с бенчмарка MMLU (полегче) на GPQA (посложнее).
Не помогает даже специальное дообучение – метрики быстро выходят на плато (рис 4). Сами Anthropic говорят, что все это довольно тревожно:
Результат предполагает, что вопреки надеждам мониторинг CoT в текущем виде вряд ли можно использовать для выявления опасного поведения моделей.
Прочитать статью полностью можно вот здесь
🔥82🤔44👍16🤯9😁8🐳8❤1
Media is too big
VIEW IN TELEGRAM
Основное нововведение (помимо улучшения качества, фотореализма и анатомии) – драфт режим. Это скоростная генерация в голосовом моде: включаете conversational mode и наговариваете, что хотите, а модель в это время рисует и уточняет по вашим идеям наброски. Работает в 10 раз быстрее обычного режима и стоит в два раза дешевле.
Кроме того, это первая модель с персонализацией по умолчанию. Можно активировать, 5 минут потратить на небольшой опрос, и модель будет лучше понимать, что вы имеете в виду или что вам нравится.
Пока обе версии (Turbo и Relax) выкатили в альфа-тестирование и обещают обновлять еще несколько раз в течение последующих недель.
www.midjourney.com/updates/v7-alpha
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥77👍21❤9🤯3
А конкуренция в ИИ все растет: Сбербанк сообщает, что в этом году у них на 35% больше заявок на ML-стажировку
Компания говорит, что в марте 2024 заявок поступило 1566, а в марте 2025г – 2128. Общее число заявок по всем направлениям при этом возросло на рекордные 60%.
Также сообщается, что на направлениях AI, IT, разработка, аналитика, кибербезопасность уже почти все позиции закрыты.
Хотя набор продолжается до конца мая, и, вероятно, успеть попасть на оплачиваемую стажировку можно.
Компания говорит, что в марте 2024 заявок поступило 1566, а в марте 2025г – 2128. Общее число заявок по всем направлениям при этом возросло на рекордные 60%.
Также сообщается, что на направлениях AI, IT, разработка, аналитика, кибербезопасность уже почти все позиции закрыты.
Хотя набор продолжается до конца мая, и, вероятно, успеть попасть на оплачиваемую стажировку можно.
🤯62👍20😁13🗿9🤔8❤6🔥2🤝1🫡1
Media is too big
VIEW IN TELEGRAM
Вышел Devin 2.0 – конкурент Cursor.
О первой версии мы писали вот тут, она была довольно популярна. Что интересного в обновлении:
➖ Можно запускать несколько агентов одновременно. Они будут работать параллельно над разными задачами, но каждого можно контролировать.
➖ К среде агента подключили локальный браузер, так что теперь можно полноценно тестировать продукты не отходя от кассы (и ИИ).
➖ Перед тем, как что-то делать, агент покажет вам план и предложит его подкорректировать. Он также может помочь уточнить сырые требования и вместе с вами докрутить тз.
➖ Есть специальные режимы Search и Deep Mode для поиска и ответов на вопросы по кодовой базе
➖ Ко всему, что делает, Devin сразу создает подробную документацию со схемами и ссылками на источники, чтобы пользователь не терял понимание происходящего
Стоит 20$. Попробовать можно здесь
О первой версии мы писали вот тут, она была довольно популярна. Что интересного в обновлении:
Стоит 20$. Попробовать можно здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🤨13❤4🔥3
Свежая статья от DeepSeek: как точнее оценивать награды в RL
Обучение с подкреплением строится вокруг того, что помимо обучаемой модели (агента) у нас есть некоторая reward модель (RM) – она оценивает награду, которую должен получать агент за свои действия. На основе именно этих наград агент пересматривает политику, так что чем они точнее – тем быстрее сходится RL и тем лучше результаты.
Обычно RM либо скалярные (выплевывают всего одно число – оценку), либо парные (сравнивают два ответа и выбирают лучший). Оба подхода не масштабируемые, не очень гибкие и довольно однобокие.
В DeepSeek предложили сделать RM генеративной (Generative Reward Model, GRM). И не просто генеративной, а с Inference-Time Scaling, то есть с неким аналогом ризонинга. То есть:
🟦 Модель получает на вход промпт и ответы агента (один или несколько), а на выход отдает подробный критический разбор каждого из них. Подход универсальный – так можно скорить и одиночные, и парные, и множественные ответы по любым нужным нам критериям без танцев с бубном.
🟦 RM также специально натаскали различать, какие ответы лучше других. Этому ее учили в два этапа. (1) Rejective Fine-Tuning – учимся отбрасывать совсем неподходящие ответы и генерировать верный формат ОС. (2) Rule-Based Online RL – дальнейший RL-тюнинг вида «угадай лучший ответ — будешь молодец, не угадаешь — штраф».
🟦 Ну и вишенка: такая RM может скейлиться на этапе инференса. То есть если k раз сэмплировать ее результаты и усреднять, то качество итоговой оценки растёт. С обычными ревард моделями такое вообще не работает, так что с практической точки зрения это ну очень полезный результат (рис 1).
На всех бенчмарках reward-моделей подход, естественно, показывает себя отлично и обгоняет даже популярные «LLM-as-a-Judge». Плюс демонтрирует меньшие перекосы (bias) и не переобучается на определенный тип задач.
Ксати саму ревард модель, которую обучили в лаборатории – DeepSeek-GRM – скоро пообещали опенсорснуть
arxiv.org/pdf/2504.02495
Обучение с подкреплением строится вокруг того, что помимо обучаемой модели (агента) у нас есть некоторая reward модель (RM) – она оценивает награду, которую должен получать агент за свои действия. На основе именно этих наград агент пересматривает политику, так что чем они точнее – тем быстрее сходится RL и тем лучше результаты.
Обычно RM либо скалярные (выплевывают всего одно число – оценку), либо парные (сравнивают два ответа и выбирают лучший). Оба подхода не масштабируемые, не очень гибкие и довольно однобокие.
В DeepSeek предложили сделать RM генеративной (Generative Reward Model, GRM). И не просто генеративной, а с Inference-Time Scaling, то есть с неким аналогом ризонинга. То есть:
На всех бенчмарках reward-моделей подход, естественно, показывает себя отлично и обгоняет даже популярные «LLM-as-a-Judge». Плюс демонтрирует меньшие перекосы (bias) и не переобучается на определенный тип задач.
Ксати саму ревард модель, которую обучили в лаборатории – DeepSeek-GRM – скоро пообещали опенсорснуть
arxiv.org/pdf/2504.02495
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68🔥31❤11🤯6❤🔥2
Хорошая новость: OpenAI выпустит o3 и o4-mini через пару недель. Об этом сообщил Сэм Альтман в своем твиттере. Это, к слову, первое упоминание модели o4.
Плохая новость: также Альтман сообщил, что запуск GPT-5 откладывается.
Плохая новость: также Альтман сообщил, что запуск GPT-5 откладывается.
На это есть есть куча причин, но самая захватывающая из них заключается в том, что мы можем сделать GPT-5 намного лучше, чем планировали. Кроме того, мы хотим убедиться, что у нас достаточно мощностей для поддержки этой модели, которая, как мы ожидаем, будет пользоваться беспрецедентным спросом.
👍102😁32❤13👻5🗿4🔥3
Бывший исследователь OpenAI Даниэль Кокотаджило предсказал, что случится с ИИ в 2026–2027
В 2024 Дэниэль вошел в список топ-100 самых влиятельных людей в ИИ по версии журнала TIME. Он известен двумя вещами.
Во-первых, в том же 2024 он с шумом ушел с высокой позиции в OpenAI, отказавшись подписать NDA. За подпись ему предлагали примерно $2 миллиона в виде акций, но он выбрал свободу слова.
Во-вторых, в 2021, еще до прихода в OpenAI и задолго до успеха ChatGPT, он написал статью, в которой описал свое виденье того, как будет выглядеть ИИ до 2026, и пока оказался необыкновенно прав. Представьте: он предсказал и массовый хайп, и венчурный бум, и даже ограничение экспорта чипов из США в Китай еще до того, как кто-либо вообще хотя бы единожды поговорил с чат-ботом.
Так вот, на днях Дэниэль показал свой новый прогноз до 2028. Его он разрабатывал уже не один, а с командой его собственной лаборатории AI Futures Project. Вот этот документ, вот подкаст по нему. Основное:
⭐️ 2025: агенты развиваются, но их эффективность все еще ограничена. Тем не менее, внутри компаний уже начинают разворачивать узкоспециализированных агентов, автоматизирующих некоторые задачи.
⭐️ Конец 2025: GPT-3 moment для агентов. Появляется система, действительно способная действовать автономно.
⭐️ Начало 2026: флагмагманские агенты дают 50%-ное ускорение алгоритмического прогресса в компаниях. Китай объединяет все свои ведущие AI-компании в единый центр, чтобы догнать США.
⭐️ Конец 2026: массовые увольнения и перестройка рынка труда.
⭐️ Начало 2027: новые прорывы, полная автоматизация разработки, экономика растет, но разрыв между классам увеличивается.
⭐️ Конец 2027: оказывается, что агенты не вполне безопасны, и вот тут возникает развилка. Либо в этот момент человечество решит приостановить разработку и поработать над элайментом, либо гонка продолжается.
Ну а дальше вы поняли. Либо суперинтеллект поглощает власть над всеми сферами жизни и людям каюк, либо развитие немного притормаживается и больше внимания мы начинаем уделять безопасности и жесткому международному мониторингу.
Что сказать. Сохраняйте, проверим через 3 года.
В 2024 Дэниэль вошел в список топ-100 самых влиятельных людей в ИИ по версии журнала TIME. Он известен двумя вещами.
Во-первых, в том же 2024 он с шумом ушел с высокой позиции в OpenAI, отказавшись подписать NDA. За подпись ему предлагали примерно $2 миллиона в виде акций, но он выбрал свободу слова.
Во-вторых, в 2021, еще до прихода в OpenAI и задолго до успеха ChatGPT, он написал статью, в которой описал свое виденье того, как будет выглядеть ИИ до 2026, и пока оказался необыкновенно прав. Представьте: он предсказал и массовый хайп, и венчурный бум, и даже ограничение экспорта чипов из США в Китай еще до того, как кто-либо вообще хотя бы единожды поговорил с чат-ботом.
Так вот, на днях Дэниэль показал свой новый прогноз до 2028. Его он разрабатывал уже не один, а с командой его собственной лаборатории AI Futures Project. Вот этот документ, вот подкаст по нему. Основное:
Ну а дальше вы поняли. Либо суперинтеллект поглощает власть над всеми сферами жизни и людям каюк, либо развитие немного притормаживается и больше внимания мы начинаем уделять безопасности и жесткому международному мониторингу.
Что сказать. Сохраняйте, проверим через 3 года.
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍175😁59🤯30❤20🗿14👾9🤨7👻5
Релизнули в трех весах: Llama 4 Scout на 109B, Llama 4 Maverick на 400B и Llama 4 Behemoth на 2T (да-да, в триллионах).
– Llama 4 Scout. Контекст 10M токенов (вау!), MoE на 16 экспертов, 17B активных параметров. Запускается на одной GPU. Уровень Gemini 2.0 Flash Lite.
– Llama 4 Maverick. Контекст поменьше, 1M. 128 экспертов по 17B активных параметров. Примерно на уровне GPT-4o. На арене модель сейчас на 2 месте с рейтингом 1417.
Обе модели выше мультимодальные (на вход принимают до 5 изображений) и поддерживают много языков. Знания – по август 2024. Веса
– Llama 4 Behemoth. Модель невероятных размеров, которая использовалась в качестве учителя для Scout и Maverick. 16 экспертов по 288B активных параметров. Уровень GPT-4.5 и Claude Sonnet 3.7. Весов пока нет, модель в превью и все еще обучается.
Блог | Попробовать
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3🤯99❤59👍37🔥18😁1
Что под капотом у новой Llama 4? Собрали некоторые интересные технические детали
Про архитектуру:
Про претрейн и мультимодальность:
Про пост-трейнинг, RL и длинный контекст:
Про дистилляцию:
Про архитектуру:
➖ Все три модели – Mixture-of-Experts (MoE). Это значит, что при обработке каждого токена активируется лишь часть параметров модели.➖ В каждом слое есть несколько экспертов (у Scout 16, у Maverick 128) и роутер, который выбирает, к какому эксперту направить токен.➖ В Scout огромный контекст 10M, так что в нем вместо обычных позиционных эмбеддингов использовали облегченные iRoPE. Это когда чередуются обычные attention блоки и блоки без фиксированных позиционных эмбеддингов вообще.
Про претрейн и мультимодальность:
➖ Модели нативно-мультимодальные, то есть во время обучения токены текста и визуальные токены объединяются в единый поток. Это называется early fusion. В качестве vision-энкодера используют MetaCLIP.➖ Гиперпараметры подбирают с помощью MetaP. Идея в том, что можно дешево экспериментировать на маленьких моделях, а затем масштабировать удачные сетапы на модели покрупнее.➖ Общий объем токенов для претрейна – около 30 трлн токенов. Это вдвое больше, чем для Llama 3. Обучали на 32К GPU.
Про пост-трейнинг, RL и длинный контекст:
➖ Общий пайплайн пост-обучения: файнтюнинг -> Online RL -> элаймент.➖ Во время файнтюнинга в датасете оставляют только сложные данные (чтобы не переобучить на банальных задачах)➖ То же самое во время RL: промты, которые становятся легкими, отсеиваются прямо во время обучения. Затем для элаймента используют классический DPO.➖ Для Maverick дополнительно использовали curriculum strategy – пошаговое добавление более сложных мультимодальных данных, чтобы модель не потерялась.➖ Для Scout основным упором был огромный контекст, так что добавляли дополнительные этапы long context extension.
Про дистилляцию:
➖ Самая массивная модель – Behemoth – служит в качестве «teacher model» для двух остальных. При этом используется схема co-distillation, то есть во время пре-трейна бегемота логиты для учеников вычисляются и применяются сразу же.➖ В distillation loss при этом добавили взвешивание между soft-таргетами (логиты учителя) и hard-таргетами (истинные метки из датасета). Это для того, чтобы ученики одновременно и фитились на реальных данных, и подражали более умной модели.➖ К слову, для Behemoth пришлось полностью переписать инфраструктуру RL, чтобы она была полностью асинхронная.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤67🔥42👍28🤯5❤🔥3👌2🫡1
Вайб-кодинг – да или нет?
Вайб-кодинг – это, пожалуй, самый горячий тех.тренд последних месяцев. Но использовать его надо осторожно. Пока одни говорят, что программирование с агентами – лучший опыт в их жизни, другие начинают тонуть в дебагинге.
Если хотите использовать ИИ с умом, приходите на лекцию про Vibe Coding от Школы Высшей Математики.
Руководитель ШВМ к.ф.-м.н. Александ Лыков и фаундер Vibe AI Богдан Печёнкин развеют все мифы и на реальных примерах покажут:
➖ Как правильно внедрить Copilot, ChatGPT, Cursor и др. в свою работу уже сегодня
➖ Как ИИ меняет процессы, что агенты могут и чего не могут
➖ Как вайб-кодить так, чтобы ускорить разработку в 10 раз и при этом не потерять контроль над проектом
Такое не пропускаем, так что сохраняйте и не забудьте регистрироваться.
Лекция пройдет онлайн 14 апреля в 17:00.
Вайб-кодинг – это, пожалуй, самый горячий тех.тренд последних месяцев. Но использовать его надо осторожно. Пока одни говорят, что программирование с агентами – лучший опыт в их жизни, другие начинают тонуть в дебагинге.
Если хотите использовать ИИ с умом, приходите на лекцию про Vibe Coding от Школы Высшей Математики.
Руководитель ШВМ к.ф.-м.н. Александ Лыков и фаундер Vibe AI Богдан Печёнкин развеют все мифы и на реальных примерах покажут:
Такое не пропускаем, так что сохраняйте и не забудьте регистрироваться.
Лекция пройдет онлайн 14 апреля в 17:00.
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿120👍22❤16😁14🤩3🍾3🤯1👨💻1👾1
Media is too big
VIEW IN TELEGRAM
Известный когнитивист и Computer Scientist Йоша Бах рассуждает, сознательны ли LLM, и говорит, что мозг как таковой тоже не обладает сознанием
Сознанием обладает человек, а мозг просто имитирует поведение наблюдателя, подавая сигналы, как если бы это он наблюдал окружающий мир.
С нейросетями ситуация аналогичная: они имитируют наблюдение мира, создавая в нем свою проекцию. Вопрос лишь в том, насколько такая симуляция далека от нашей.
youtu.be/iyEFLKnNWAM
Сознанием обладает человек, а мозг просто имитирует поведение наблюдателя, подавая сигналы, как если бы это он наблюдал окружающий мир.
С нейросетями ситуация аналогичная: они имитируют наблюдение мира, создавая в нем свою проекцию. Вопрос лишь в том, насколько такая симуляция далека от нашей.
youtu.be/iyEFLKnNWAM
🤔131👍70🔥16😁13💯12❤6🤯6☃2🍓2
This media is not supported in your browser
VIEW IN TELEGRAM
Если вам кажется, что вы видели все, то вот вам кадры с только что прошедшего в Германии турнира по бросанию серверов
Он проходит уже несколько лет в рамках известного CloudFest. Посоревноваться может кто угодно, правда за проходку на сам фестиваль нужно заплатить 500 евро.
Как я представляю себе идеальное утро понедельника⬆️
Он проходит уже несколько лет в рамках известного CloudFest. Посоревноваться может кто угодно, правда за проходку на сам фестиваль нужно заплатить 500 евро.
Как я представляю себе идеальное утро понедельника
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥90😁66🗿25🤨15👍6🫡4🤯3🍓3❤2