Data Secrets
77.3K subscribers
6.03K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Свежая статья от DeepSeek: как точнее оценивать награды в RL

Обучение с подкреплением строится вокруг того, что помимо обучаемой модели (агента) у нас есть некоторая reward модель (RM) – она оценивает награду, которую должен получать агент за свои действия. На основе именно этих наград агент пересматривает политику, так что чем они точнее – тем быстрее сходится RL и тем лучше результаты.

Обычно RM либо скалярные (выплевывают всего одно число – оценку), либо парные (сравнивают два ответа и выбирают лучший). Оба подхода не масштабируемые, не очень гибкие и довольно однобокие.

В DeepSeek предложили сделать RM генеративной (Generative Reward Model, GRM). И не просто генеративной, а с Inference-Time Scaling, то есть с неким аналогом ризонинга. То есть:

🟦 Модель получает на вход промпт и ответы агента (один или несколько), а на выход отдает подробный критический разбор каждого из них. Подход универсальный – так можно скорить и одиночные, и парные, и множественные ответы по любым нужным нам критериям без танцев с бубном.

🟦 RM также специально натаскали различать, какие ответы лучше других. Этому ее учили в два этапа. (1) Rejective Fine-Tuning – учимся отбрасывать совсем неподходящие ответы и генерировать верный формат ОС. (2) Rule-Based Online RL – дальнейший RL-тюнинг вида «угадай лучший ответ — будешь молодец, не угадаешь — штраф».

🟦 Ну и вишенка: такая RM может скейлиться на этапе инференса. То есть если k раз сэмплировать ее результаты и усреднять, то качество итоговой оценки растёт. С обычными ревард моделями такое вообще не работает, так что с практической точки зрения это ну очень полезный результат (рис 1).

На всех бенчмарках reward-моделей подход, естественно, показывает себя отлично и обгоняет даже популярные «LLM-as-a-Judge». Плюс демонтрирует меньшие перекосы (bias) и не переобучается на определенный тип задач.

Ксати саму ревард модель, которую обучили в лаборатории – DeepSeek-GRM – скоро пообещали опенсорснуть

arxiv.org/pdf/2504.02495
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68🔥3111🤯6❤‍🔥2
Хорошая новость: OpenAI выпустит o3 и o4-mini через пару недель. Об этом сообщил Сэм Альтман в своем твиттере. Это, к слову, первое упоминание модели o4.

Плохая новость: также Альтман сообщил, что запуск GPT-5 откладывается.

На это есть есть куча причин, но самая захватывающая из них заключается в том, что мы можем сделать GPT-5 намного лучше, чем планировали. Кроме того, мы хотим убедиться, что у нас достаточно мощностей для поддержки этой модели, которая, как мы ожидаем, будет пользоваться беспрецедентным спросом.
👍102😁3213👻5🗿4🔥3
Бывший исследователь OpenAI Даниэль Кокотаджило предсказал, что случится с ИИ в 2026–2027

В 2024 Дэниэль вошел в список топ-100 самых влиятельных людей в ИИ по версии журнала TIME. Он известен двумя вещами.

Во-первых, в том же 2024 он с шумом ушел с высокой позиции в OpenAI, отказавшись подписать NDA. За подпись ему предлагали примерно $2 миллиона в виде акций, но он выбрал свободу слова.

Во-вторых, в 2021, еще до прихода в OpenAI и задолго до успеха ChatGPT, он написал статью, в которой описал свое виденье того, как будет выглядеть ИИ до 2026, и пока оказался необыкновенно прав. Представьте: он предсказал и массовый хайп, и венчурный бум, и даже ограничение экспорта чипов из США в Китай еще до того, как кто-либо вообще хотя бы единожды поговорил с чат-ботом.

Так вот, на днях Дэниэль показал свой новый прогноз до 2028. Его он разрабатывал уже не один, а с командой его собственной лаборатории AI Futures Project. Вот этот документ, вот подкаст по нему. Основное:

⭐️ 2025: агенты развиваются, но их эффективность все еще ограничена. Тем не менее, внутри компаний уже начинают разворачивать узкоспециализированных агентов, автоматизирующих некоторые задачи.

⭐️ Конец 2025: GPT-3 moment для агентов. Появляется система, действительно способная действовать автономно.

⭐️ Начало 2026: флагмагманские агенты дают 50%-ное ускорение алгоритмического прогресса в компаниях. Китай объединяет все свои ведущие AI-компании в единый центр, чтобы догнать США.

⭐️ Конец 2026: массовые увольнения и перестройка рынка труда.

⭐️ Начало 2027: новые прорывы, полная автоматизация разработки, экономика растет, но разрыв между классам увеличивается.

⭐️ Конец 2027: оказывается, что агенты не вполне безопасны, и вот тут возникает развилка. Либо в этот момент человечество решит приостановить разработку и поработать над элайментом, либо гонка продолжается.

Ну а дальше вы поняли. Либо суперинтеллект поглощает власть над всеми сферами жизни и людям каюк, либо развитие немного притормаживается и больше внимания мы начинаем уделять безопасности и жесткому международному мониторингу.

Что сказать. Сохраняйте, проверим через 3 года.
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍175😁59🤯3020🗿14👾9🤨7👻5
⚡️ Вышла Llama-4 с огромным контекстом

Релизнули в трех весах: Llama 4 Scout на 109B, Llama 4 Maverick на 400B и Llama 4 Behemoth на 2T (да-да, в триллионах).

– Llama 4 Scout. Контекст 10M токенов (вау!), MoE на 16 экспертов, 17B активных параметров. Запускается на одной GPU. Уровень Gemini 2.0 Flash Lite.

Llama 4 Maverick. Контекст поменьше, 1M. 128 экспертов по 17B активных параметров. Примерно на уровне GPT-4o. На арене модель сейчас на 2 месте с рейтингом 1417.

Обе модели выше мультимодальные (на вход принимают до 5 изображений) и поддерживают много языков. Знания – по август 2024. Веса

Llama 4 Behemoth. Модель невероятных размеров, которая использовалась в качестве учителя для Scout и Maverick. 16 экспертов по 288B активных параметров. Уровень GPT-4.5 и Claude Sonnet 3.7. Весов пока нет, модель в превью и все еще обучается.

Блог | Попробовать
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
3🤯9959👍37🔥18😁1
Что под капотом у новой Llama 4? Собрали некоторые интересные технические детали

Про архитектуру:
Все три модели – Mixture-of-Experts (MoE). Это значит, что при обработке каждого токена активируется лишь часть параметров модели.
В каждом слое есть несколько экспертов (у Scout 16, у Maverick 128) и роутер, который выбирает, к какому эксперту направить токен.
В Scout огромный контекст 10M, так что в нем вместо обычных позиционных эмбеддингов использовали облегченные iRoPE. Это когда чередуются обычные attention блоки и блоки без фиксированных позиционных эмбеддингов вообще.


Про претрейн и мультимодальность:
Модели нативно-мультимодальные, то есть во время обучения токены текста и визуальные токены объединяются в единый поток. Это называется early fusion. В качестве vision-энкодера используют MetaCLIP.
Гиперпараметры подбирают с помощью MetaP. Идея в том, что можно дешево экспериментировать на маленьких моделях, а затем масштабировать удачные сетапы на модели покрупнее.
Общий объем токенов для претрейна – около 30 трлн токенов. Это вдвое больше, чем для Llama 3. Обучали на 32К GPU.


Про пост-трейнинг, RL и длинный контекст:
Общий пайплайн пост-обучения: файнтюнинг -> Online RL -> элаймент.
Во время файнтюнинга в датасете оставляют только сложные данные (чтобы не переобучить на банальных задачах)
То же самое во время RL: промты, которые становятся легкими, отсеиваются прямо во время обучения. Затем для элаймента используют классический DPO.
Для Maverick дополнительно использовали curriculum strategy – пошаговое добавление более сложных мультимодальных данных, чтобы модель не потерялась.
Для Scout основным упором был огромный контекст, так что добавляли дополнительные этапы long context extension.


Про дистилляцию:
Самая массивная модель – Behemoth – служит в качестве «teacher model» для двух остальных. При этом используется схема co-distillation, то есть во время пре-трейна бегемота логиты для учеников вычисляются и применяются сразу же.
В distillation loss при этом добавили взвешивание между soft-таргетами (логиты учителя) и hard-таргетами (истинные метки из датасета). Это для того, чтобы ученики одновременно и фитились на реальных данных, и подражали более умной модели.
К слову, для Behemoth пришлось полностью переписать инфраструктуру RL, чтобы она была полностью асинхронная.
Please open Telegram to view this post
VIEW IN TELEGRAM
67🔥42👍28🤯5❤‍🔥3👌2🫡1
Вайб-кодинг – да или нет?

Вайб-кодинг – это, пожалуй, самый горячий тех.тренд последних месяцев. Но использовать его надо осторожно. Пока одни говорят, что программирование с агентами – лучший опыт в их жизни, другие начинают тонуть в дебагинге.

Если хотите использовать ИИ с умом, приходите на лекцию про Vibe Coding от Школы Высшей Математики.

Руководитель ШВМ к.ф.-м.н. Александ Лыков и фаундер Vibe AI Богдан Печёнкин развеют все мифы и на реальных примерах покажут:

Как правильно внедрить Copilot, ChatGPT, Cursor и др. в свою работу уже сегодня
Как ИИ меняет процессы, что агенты могут и чего не могут
Как вайб-кодить так, чтобы ускорить разработку в 10 раз и при этом не потерять контроль над проектом

Такое не пропускаем, так что сохраняйте и не забудьте регистрироваться.
Лекция пройдет онлайн 14 апреля в 17:00.
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿120👍2216😁14🤩3🍾3🤯1👨‍💻1👾1
Media is too big
VIEW IN TELEGRAM
Известный когнитивист и Computer Scientist Йоша Бах рассуждает, сознательны ли LLM, и говорит, что мозг как таковой тоже не обладает сознанием

Сознанием обладает человек, а мозг просто имитирует поведение наблюдателя, подавая сигналы, как если бы это он наблюдал окружающий мир.

С нейросетями ситуация аналогичная: они имитируют наблюдение мира, создавая в нем свою проекцию. Вопрос лишь в том, насколько такая симуляция далека от нашей.

youtu.be/iyEFLKnNWAM
🤔131👍70🔥16😁13💯126🤯62🍓2
This media is not supported in your browser
VIEW IN TELEGRAM
Если вам кажется, что вы видели все, то вот вам кадры с только что прошедшего в Германии турнира по бросанию серверов

Он проходит уже несколько лет в рамках известного CloudFest. Посоревноваться может кто угодно, правда за проходку на сам фестиваль нужно заплатить 500 евро.

Как я представляю себе идеальное утро понедельника ⬆️
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥90😁66🗿25🤨15👍6🫡4🤯3🍓32
Тем временем по поводу новой Llama 4 положительного фидбэка от пользователей как-то не слышно

Многие говорят, что модель им откровенно не нравится (особенно в кодинге) и недоумевают, как она вообще смогла набрать такой высокий рейинг на LMSYS.

Также появляются результаты тестов на локальных бенчмарках. Например, вот тут Scout и Maverick прогнали по Long context тесту и Scout, контекст которого заявляется как 10M, отработал хуже GPT-4o, R1 и даже Gemma 3 (128k). Возможно, в этом случае это какая-то ошибка, но если нет...

P.S. Если у вас пока не получилось потестить модель через официальный чат, то можно попробовать здесь в Together AI (дают 100 бесплатных сообщений в день)
🫡64🤔29👍12🔥51💯1
Российский ответ ChatGPT: A-Vibe от Авито превзошла западные аналоги

Российская языковая модель A-Vibe от Авито стала лучшей среди легких нейросетей (до 10 млрд параметров) по результатам тестирования в российском независимом бенчмарке MERA. Отечественная разработка превзошла продукты OpenAI, Google и Anthropic в тестировании с задачами различной сложности.

На начальном этапе A-Vibe обучали с помощью открытой модели, у которой были ограничения в работе с русским языком (на него приходился всего 1% от общего объема данных). Разработчики пофиксили эту проблему, создав собственный токенизатор, умеющий работать с русским языком: в результате модель стала обрабатывать текст в 2 раза быстрее и нарастила качество генерации и понимания материала.

Результаты впечатляют:

1. В задачах генерации кода превзошла Gemini 1.5 на 25%
2. В диалоговых сценариях модель оказалась на 32% точнее Llama 3.1
3. При анализе текста A-Vibe показала на 23% лучший результат, чем Claude 3.5 Haiku

A-Vibe уже работает в сервисах Авито — например, помогает продавцам писать завлекающие описания. До конца года компания планирует добавить ИИ 20 новых сценариев, а в будущем может открыть код модели для всех.

Анастасия Рысьмятова, руководитель разработки больших языковых моделей Авито, заявила: «Мы рассматриваем возможность открытого релиза A-Vibe, что станет значимым вкладом в развитие российского ИИ-рынка». Это позволит малым бизнесам и разработчикам использовать передовые технологии без необходимости огромных инвестиций в инфраструктуру.
😁230🔥71🗿29👍15145🤯4🤔3🫡3🐳1👾1