Data Secrets

Свежая статья от DeepSeek: как точнее оценивать награды в RL

Обучение с подкреплением строится вокруг того, что помимо обучаемой модели (агента) у нас есть некоторая reward модель (RM) – она оценивает награду, которую должен получать агент за свои действия. На основе именно этих наград агент пересматривает политику, так что чем они точнее – тем быстрее сходится RL и тем лучше результаты.

Обычно RM либо скалярные (выплевывают всего одно число – оценку), либо парные (сравнивают два ответа и выбирают лучший). Оба подхода не масштабируемые, не очень гибкие и довольно однобокие.

В DeepSeek предложили сделать RM генеративной (Generative Reward Model, GRM). И не просто генеративной, а с Inference-Time Scaling, то есть с неким аналогом ризонинга. То есть:

🟦 Модель получает на вход промпт и ответы агента (один или несколько), а на выход отдает подробный критический разбор каждого из них. Подход универсальный – так можно скорить и одиночные, и парные, и множественные ответы по любым нужным нам критериям без танцев с бубном.

🟦 RM также специально натаскали различать, какие ответы лучше других. Этому ее учили в два этапа. (1) Rejective Fine-Tuning – учимся отбрасывать совсем неподходящие ответы и генерировать верный формат ОС. (2) Rule-Based Online RL – дальнейший RL-тюнинг вида «угадай лучший ответ — будешь молодец, не угадаешь — штраф».

🟦 Ну и вишенка: такая RM может скейлиться на этапе инференса. То есть если k раз сэмплировать ее результаты и усреднять, то качество итоговой оценки растёт. С обычными ревард моделями такое вообще не работает, так что с практической точки зрения это ну очень полезный результат (рис 1).

На всех бенчмарках reward-моделей подход, естественно, показывает себя отлично и обгоняет даже популярные «LLM-as-a-Judge». Плюс демонтрирует меньшие перекосы (bias) и не переобучается на определенный тип задач.

Ксати саму ревард модель, которую обучили в лаборатории – DeepSeek-GRM – скоро пообещали опенсорснуть

arxiv.org/pdf/2504.02495

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍68🔥31❤11🤯6❤‍🔥2

16.3K views15:10

Data Secrets

Хорошая новость: OpenAI выпустит o3 и o4-mini через пару недель. Об этом сообщил Сэм Альтман в своем твиттере. Это, к слову, первое упоминание модели o4.

Плохая новость: также Альтман сообщил, что запуск GPT-5 откладывается.

На это есть есть куча причин, но самая захватывающая из них заключается в том, что мы можем сделать GPT-5 намного лучше, чем планировали. Кроме того, мы хотим убедиться, что у нас достаточно мощностей для поддержки этой модели, которая, как мы ожидаем, будет пользоваться беспрецедентным спросом.

👍102😁32❤13👻5🗿4🔥3

15.2K views17:19

Data Secrets

Бывший исследователь OpenAI Даниэль Кокотаджило предсказал, что случится с ИИ в 2026–2027

В 2024 Дэниэль вошел в список топ-100 самых влиятельных людей в ИИ по версии журнала TIME. Он известен двумя вещами.

Во-первых, в том же 2024 он с шумом ушел с высокой позиции в OpenAI, отказавшись подписать NDA. За подпись ему предлагали примерно $2 миллиона в виде акций, но он выбрал свободу слова.

Во-вторых, в 2021, еще до прихода в OpenAI и задолго до успеха ChatGPT, он написал статью, в которой описал свое виденье того, как будет выглядеть ИИ до 2026, и пока оказался необыкновенно прав. Представьте: он предсказал и массовый хайп, и венчурный бум, и даже ограничение экспорта чипов из США в Китай еще до того, как кто-либо вообще хотя бы единожды поговорил с чат-ботом.

Так вот, на днях Дэниэль показал свой новый прогноз до 2028. Его он разрабатывал уже не один, а с командой его собственной лаборатории AI Futures Project. Вот этот документ, вот подкаст по нему. Основное:

⭐️

2025: агенты развиваются, но их эффективность все еще ограничена. Тем не менее, внутри компаний уже начинают разворачивать узкоспециализированных агентов, автоматизирующих некоторые задачи.

⭐️

Конец 2025: GPT-3 moment для агентов. Появляется система, действительно способная действовать автономно.

⭐️

Начало 2026: флагмагманские агенты дают 50%-ное ускорение алгоритмического прогресса в компаниях. Китай объединяет все свои ведущие AI-компании в единый центр, чтобы догнать США.

⭐️

Конец 2026: массовые увольнения и перестройка рынка труда.

⭐️

Начало 2027: новые прорывы, полная автоматизация разработки, экономика растет, но разрыв между классам увеличивается.

⭐️

Конец 2027: оказывается, что агенты не вполне безопасны, и вот тут возникает развилка. Либо в этот момент человечество решит приостановить разработку и поработать над элайментом, либо гонка продолжается.

Ну а дальше вы поняли. Либо суперинтеллект поглощает власть над всеми сферами жизни и людям каюк, либо развитие немного притормаживается и больше внимания мы начинаем уделять безопасности и жесткому международному мониторингу.

Что сказать. Сохраняйте, проверим через 3 года.

Please open Telegram to view this post

VIEW IN TELEGRAM

2👍175😁59🤯30❤20🗿14👾9🤨7👻5

26K viewsedited 12:16

Data Secrets

⚡️

Вышла Llama-4 с огромным контекстом

Релизнули в трех весах: Llama 4 Scout на 109B, Llama 4 Maverick на 400B и Llama 4 Behemoth на 2T (да-да, в триллионах).

– Llama 4 Scout. Контекст 10M токенов (вау!), MoE на 16 экспертов, 17B активных параметров. Запускается на одной GPU. Уровень Gemini 2.0 Flash Lite.

– Llama 4 Maverick. Контекст поменьше, 1M. 128 экспертов по 17B активных параметров. Примерно на уровне GPT-4o. На арене модель сейчас на 2 месте с рейтингом 1417.

Обе модели выше мультимодальные (на вход принимают до 5 изображений) и поддерживают много языков. Знания – по август 2024. Веса

– Llama 4 Behemoth. Модель невероятных размеров, которая использовалась в качестве учителя для Scout и Maverick. 16 экспертов по 288B активных параметров. Уровень GPT-4.5 и Claude Sonnet 3.7. Весов пока нет, модель в превью и все еще обучается.

Блог | Попробовать

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

3🤯99❤59👍37🔥18😁1

39.7K views19:08

Data Secrets

Что под капотом у новой Llama 4? Собрали некоторые интересные технические детали

Про архитектуру:

➖ Все три модели – Mixture-of-Experts (MoE). Это значит, что при обработке каждого токена активируется лишь часть параметров модели.
➖ В каждом слое есть несколько экспертов (у Scout 16, у Maverick 128) и роутер, который выбирает, к какому эксперту направить токен.
➖ В Scout огромный контекст 10M, так что в нем вместо обычных позиционных эмбеддингов использовали облегченные iRoPE. Это когда чередуются обычные attention блоки и блоки без фиксированных позиционных эмбеддингов вообще.

Про претрейн и мультимодальность:

➖ Модели нативно-мультимодальные, то есть во время обучения токены текста и визуальные токены объединяются в единый поток. Это называется early fusion. В качестве vision-энкодера используют MetaCLIP.
➖ Гиперпараметры подбирают с помощью MetaP. Идея в том, что можно дешево экспериментировать на маленьких моделях, а затем масштабировать удачные сетапы на модели покрупнее.
➖ Общий объем токенов для претрейна – около 30 трлн токенов. Это вдвое больше, чем для Llama 3. Обучали на 32К GPU.

Про пост-трейнинг, RL и длинный контекст:

➖ Общий пайплайн пост-обучения: файнтюнинг -> Online RL -> элаймент.
➖ Во время файнтюнинга в датасете оставляют только сложные данные (чтобы не переобучить на банальных задачах)
➖ То же самое во время RL: промты, которые становятся легкими, отсеиваются прямо во время обучения. Затем для элаймента используют классический DPO.
➖ Для Maverick дополнительно использовали curriculum strategy – пошаговое добавление более сложных мультимодальных данных, чтобы модель не потерялась.
➖ Для Scout основным упором был огромный контекст, так что добавляли дополнительные этапы long context extension.

Про дистилляцию:

➖ Самая массивная модель – Behemoth – служит в качестве «teacher model» для двух остальных. При этом используется схема co-distillation, то есть во время пре-трейна бегемота логиты для учеников вычисляются и применяются сразу же.
➖ В distillation loss при этом добавили взвешивание между soft-таргетами (логиты учителя) и hard-таргетами (истинные метки из датасета). Это для того, чтобы ученики одновременно и фитились на реальных данных, и подражали более умной модели.
➖ К слову, для Behemoth пришлось полностью переписать инфраструктуру RL, чтобы она была полностью асинхронная.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤67🔥42👍28🤯5❤‍🔥3👌2🫡1

14.8K views11:36

Data Secrets

Вайб-кодинг – да или нет?

Вайб-кодинг – это, пожалуй, самый горячий тех.тренд последних месяцев. Но использовать его надо осторожно. Пока одни говорят, что программирование с агентами – лучший опыт в их жизни, другие начинают тонуть в дебагинге.

Если хотите использовать ИИ с умом, приходите на лекцию про Vibe Coding от Школы Высшей Математики.

Руководитель ШВМ к.ф.-м.н. Александ Лыков и фаундер Vibe AI Богдан Печёнкин развеют все мифы и на реальных примерах покажут:

➖ Как правильно внедрить Copilot, ChatGPT, Cursor и др. в свою работу уже сегодня
➖ Как ИИ меняет процессы, что агенты могут и чего не могут
➖ Как вайб-кодить так, чтобы ускорить разработку в 10 раз и при этом не потерять контроль над проектом

Такое не пропускаем, так что сохраняйте и не забудьте регистрироваться.
Лекция пройдет онлайн 14 апреля в 17:00.

Please open Telegram to view this post

VIEW IN TELEGRAM

🗿120👍22❤16😁14🤩3🍾3🤯1👨‍💻1👾1

15.4K views13:57

Известный когнитивист и Computer Scientist Йоша Бах рассуждает, сознательны ли LLM, и говорит, что мозг как таковой тоже не обладает сознанием

Сознанием обладает человек, а мозг просто имитирует поведение наблюдателя, подавая сигналы, как если бы это он наблюдал окружающий мир.

С нейросетями ситуация аналогичная: они имитируют наблюдение мира, создавая в нем свою проекцию. Вопрос лишь в том, насколько такая симуляция далека от нашей.

youtu.be/iyEFLKnNWAM

🤔131👍70🔥16😁13💯12❤6🤯6☃2🍓2

16K views15:49

Data Secrets

0:26

This media is not supported in your browser

VIEW IN TELEGRAM

Если вам кажется, что вы видели все, то вот вам кадры с только что прошедшего в Германии турнира по бросанию серверов

Он проходит уже несколько лет в рамках известного CloudFest. Посоревноваться может кто угодно, правда за проходку на сам фестиваль нужно заплатить 500 евро.

Как я представляю себе идеальное утро понедельника ⬆️

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥90😁66🗿25🤨15👍6🫡4🤯3🍓3❤2

20.3K views06:11

Data Secrets

Тем временем по поводу новой Llama 4 положительного фидбэка от пользователей как-то не слышно

Многие говорят, что модель им откровенно не нравится (особенно в кодинге) и недоумевают, как она вообще смогла набрать такой высокий рейинг на LMSYS.

Также появляются результаты тестов на локальных бенчмарках. Например, вот тут Scout и Maverick прогнали по Long context тесту и Scout, контекст которого заявляется как 10M, отработал хуже GPT-4o, R1 и даже Gemma 3 (128k). Возможно, в этом случае это какая-то ошибка, но если нет...

P.S. Если у вас пока не получилось потестить модель через официальный чат, то можно попробовать здесь в Together AI (дают 100 бесплатных сообщений в день)

🫡64🤔29👍12🔥5❤1💯1

14.9K views07:07

Data Secrets

Российский ответ ChatGPT: A-Vibe от Авито превзошла западные аналоги

Российская языковая модель A-Vibe от Авито стала лучшей среди легких нейросетей (до 10 млрд параметров) по результатам тестирования в российском независимом бенчмарке MERA. Отечественная разработка превзошла продукты OpenAI, Google и Anthropic в тестировании с задачами различной сложности.

На начальном этапе A-Vibe обучали с помощью открытой модели, у которой были ограничения в работе с русским языком (на него приходился всего 1% от общего объема данных). Разработчики пофиксили эту проблему, создав собственный токенизатор, умеющий работать с русским языком: в результате модель стала обрабатывать текст в 2 раза быстрее и нарастила качество генерации и понимания материала.

Результаты впечатляют:

1. В задачах генерации кода превзошла Gemini 1.5 на 25%
2. В диалоговых сценариях модель оказалась на 32% точнее Llama 3.1
3. При анализе текста A-Vibe показала на 23% лучший результат, чем Claude 3.5 Haiku

A-Vibe уже работает в сервисах Авито — например, помогает продавцам писать завлекающие описания. До конца года компания планирует добавить ИИ 20 новых сценариев, а в будущем может открыть код модели для всех.

Анастасия Рысьмятова, руководитель разработки больших языковых моделей Авито, заявила: «Мы рассматриваем возможность открытого релиза A-Vibe, что станет значимым вкладом в развитие российского ИИ-рынка». Это позволит малым бизнесам и разработчикам использовать передовые технологии без необходимости огромных инвестиций в инфраструктуру.

😁230🔥71🗿29👍15❤14⚡5🤯4🤔3🫡3🐳1👾1

15.3K views09:52

Data Secrets

В Оксфорде предложили метод обучения нейросетей без обратного распространения ошибки

Back-propagation – это канонический подход для обучения сетей, который используют всегда и везде. Суть его в том, что мы сначала «прогоняем» входные данные вперёд по сети (forward pass), вычисляем ошибку, а затем прогоняем сигнал ошибки назад (backward pass), чтобы вычислить градиенты и обновить веса.

Это работает хорошо, но есть несколько НО. Во-первых, высокое потребление памяти. Во-вторых, последовательная природа вычислений, из-за которых обучение сложно параллелить.

Что предлагают в статье:

➖ Общая концепция – «слой как денойзер». Это похоже на диффузионки. Каждый слой сети рассматривается как отдельный блок, который должен расшумлять некоторую шумную версию целевого выходного значения.

➖ На примере классификации изображений: на этапе обучения t мы берем нашу метку класса, зашумляем ее, передаем в слой и просим предсказать исходную чистую метку.

➖ Получается, что обучение каждого слоя происходит независимо от других слоёв. Нет общей цепочки прямого/обратного прохода.

Во время инференса исходные данные играют роль исходного шума и последовательно проходят по всем слоям, которые постепенно расшумляют информацию в сторону метки.

На MNIST подход выбивает точность около 99.5%. Это примерно столько же, сколько у классического backprop. На CIFAR-10 и CIFAR-100 результаты также очень близки. При этом памяти используется почти вдвое меньше.

Сложно, неинтуитивно, но интересно

arxiv.org/abs/2503.24322 (аккуратно, внутри зубодробительная математика)

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥149👍34🤯23🤔9❤8🐳1

17K views10:56

About

Blog

Apps

Platform