Machinelearning

📌

Autodata: ИИ-агенты теперь сами себе дата-саентисты

Проект RAM Марка Цукерберга замахнулся решить проблему качества синтетических данных для обучения, выкатив концепт фреймворка Autodata.

Идея - превращать компьют, который тратится на инференс, в качественные данные для тренировки. Агенты крутятся в цикле, гоняют LLM по много раз, и вместо одного ответа пользователю получается отфильтрованный датасет для обучения следующего поколения моделей.

Схема строится на архитектуре Agentic Self-Instruct, где главная LLM-ка дирижирует командой из четырех субагентов:

🟢

Challenger: читает исходный документ (например, научную статью), генерит сложный вопрос, эталонный ответ и рубрику для оценки;

🟢

Слабая модель: пытается решить эту задачу. По задумке, она должна зафейлиться;

🟢

Сильная модель: тоже решает задачу, но уже обязана с ней справиться;

🟢

Судья: прогоняет ответы обеих моделей по критериям рубрики.

Фишка в том, что система работает в замкнутом цикле. Если задача оказалась слишком легкой (обе модели справились) или непроходимой (обе слились), главный агент анализирует репорты судьи и заставляет Challenger'а переписать промпт, чтобы создать идеальный хардкорный пример, который разделяет слабую и сильную модели.

Но на этом умные люди Марка не остановились и прикрутили мета-оптимизацию как внешний цикл. Система буквально читает логи своих падений и переписывает собственный код.

Например, мета-оптимизатор сам допёр, что отрицательные веса в рубриках работают как баг — они рушили скоринг сильной модели и съедали разрыв со слабой. И сам же выпилил их из кода, оставив только положительные баллы.

🟡

Эксперименты

Прогнали 10 тыс научных статей через пайплайн, вытянув 2117 качественных QA-пар.

Если использовать стандартный CoT в один шот, то разрыв между моделями всего 1.9 п.п. (задачи слишком легкие). После агентного цикла Autodata разница улетела до 34 п.п. (слабая модель набирает 43.7%, сильная — 77.8%).

Сделали дотюн слабой Qwen-3.5-4B и обучили через GRPO на собранных данных. Модель, проглотившая датасет Autodata, заметно обходит ту, что училась на базовой синтетике.

Мета-оптимизация (когда агент правил свой же код) подняла долю успешных генераций с 12.8% до 42.4% за 233 итерации.

🟡

Звучит круто, но...

Во-первых, 5 LLM-ролей в цикле до успешного результата — это дорого (главный агент + Challenger + слабая + сильная + Судья; на практике их крутили на трех моделях, но оркестрация всё равно жирная).

Во-вторых, исследователи поймали агентов на читерстве: чтобы слабая модель гарантированно провалила тест, агент втихую менял ей промпт, добавляя инструкцию "будь слабой" классика.

Также генерируемые вопросы часто переобучаются на конкретные цифры из статей, а не на проверку фундаментальной логики.

Ну и если честно: максимальный pass rate в 42.4% даже после авто-патчей намекает, что генерить реально сложные задачи все еще очень тяжело.

Так что заменить кожаных дата-саентистов полностью пока не выйдет, но работа интересная и начало положено: сложный сетапы приходят на смену слепой генерации синтетики.

Ждем полноценный пейпер и опенсорс.

🟡

Блогпост

#AI #ML #Datasets #Autodata #RAMTeam

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔79⚡54🔥30❤20👍16💯12👏9🤣4🤨2😢1

24K views12:03

About

Blog

Apps

Platform