299K subscribers
5.02K photos
1.13K videos
17 files
5.38K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
📌Autodata: ИИ-агенты теперь сами себе дата-саентисты

Проект RAM Марка Цукерберга замахнулся решить проблему качества синтетических данных для обучения, выкатив концепт фреймворка Autodata.

Идея - превращать компьют, который тратится на инференс, в качественные данные для тренировки. Агенты крутятся в цикле, гоняют LLM по много раз, и вместо одного ответа пользователю получается отфильтрованный датасет для обучения следующего поколения моделей.


Схема строится на архитектуре Agentic Self-Instruct, где главная LLM-ка дирижирует командой из четырех субагентов:

🟢Challenger: читает исходный документ (например, научную статью), генерит сложный вопрос, эталонный ответ и рубрику для оценки;

🟢Слабая модель: пытается решить эту задачу. По задумке, она должна зафейлиться;

🟢Сильная модель: тоже решает задачу, но уже обязана с ней справиться;

🟢Судья: прогоняет ответы обеих моделей по критериям рубрики.

Фишка в том, что система работает в замкнутом цикле. Если задача оказалась слишком легкой (обе модели справились) или непроходимой (обе слились), главный агент анализирует репорты судьи и заставляет Challenger'а переписать промпт, чтобы создать идеальный хардкорный пример, который разделяет слабую и сильную модели.

Но на этом умные люди Марка не остановились и прикрутили мета-оптимизацию как внешний цикл. Система буквально читает логи своих падений и переписывает собственный код.

Например, мета-оптимизатор сам допёр, что отрицательные веса в рубриках работают как баг — они рушили скоринг сильной модели и съедали разрыв со слабой. И сам же выпилил их из кода, оставив только положительные баллы.


🟡Эксперименты

Прогнали 10 тыс научных статей через пайплайн, вытянув 2117 качественных QA-пар.

Если использовать стандартный CoT в один шот, то разрыв между моделями всего 1.9 п.п. (задачи слишком легкие). После агентного цикла Autodata разница улетела до 34 п.п. (слабая модель набирает 43.7%, сильная — 77.8%).

Сделали дотюн слабой Qwen-3.5-4B и обучили через GRPO на собранных данных. Модель, проглотившая датасет Autodata, заметно обходит ту, что училась на базовой синтетике.

Мета-оптимизация (когда агент правил свой же код) подняла долю успешных генераций с 12.8% до 42.4% за 233 итерации.

🟡Звучит круто, но...

Во-первых, 5 LLM-ролей в цикле до успешного результата — это дорого (главный агент + Challenger + слабая + сильная + Судья; на практике их крутили на трех моделях, но оркестрация всё равно жирная).

Во-вторых, исследователи поймали агентов на читерстве: чтобы слабая модель гарантированно провалила тест, агент втихую менял ей промпт, добавляя инструкцию "будь слабой" классика.

Также генерируемые вопросы часто переобучаются на конкретные цифры из статей, а не на проверку фундаментальной логики.

Ну и если честно: максимальный pass rate в 42.4% даже после авто-патчей намекает, что генерить реально сложные задачи все еще очень тяжело.

Так что заменить кожаных дата-саентистов полностью пока не выйдет, но работа интересная и начало положено: сложный сетапы приходят на смену слепой генерации синтетики.


Ждем полноценный пейпер и опенсорс.


🟡Блогпост


#AI #ML #Datasets #Autodata #RAMTeam
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤔7954🔥3020👍16💯12👏9🤣4🤨2😢1