Технозаметки Малышева

🚀 DR Tulu: Прорыв в открытых моделях для глубоких исследований (Deep Research)

Allen Institute for AI (Ai2) представил DR Tulu-8B - открытую модель, специально обученную для задач «глубокого исследования» (Deep Research).
Это класс задач, где ИИ должен не просто ответить на вопрос, а провести многошаговый поиск, синтезировать информацию из множества источников и написать подробный отчет с цитатами.

💡 Главная инновация: RLER
Большинство открытых моделей обучаются на коротких ответах (Factoid QA) и плохо справляются с написанием длинных отчетов.

Чтобы решить эту проблему, авторы разработали новый метод обучения — Reinforcement Learning with Evolving Rubrics (RLER).

Как это работает: Вместо статических критериев оценки, система создает динамические рубрики, которые эволюционируют вместе с моделью в процессе обучения.

Самосовершенствование: Система анализирует текущие ответы модели, находит в них слабые места и генерирует новые критерии («рубрики») для оценки следующих итераций.

Проверка фактов: Эти рубрики основаны на реальных данных из поисковой выдачи, что заставляет модель придерживаться фактов, и не галлюцинировать.

📊 Результаты и производительность
Несмотря на скромный размер (8 миллиардов параметров), DR Tulu показывает впечатляющие результаты:

Качество: DR Tulu-8B значительно превосходит существующие открытые модели (включая более крупные, например, Tongyi Deep Research 30B) и конкурирует с проприетарными системами уровня GPT-5 + Search и Gemini 3 Pro на задачах написания научных отчетов.

Экономия: Это самая экономически эффективная модель на рынке. Стоимость одного запроса в DR Tulu составляет около $0.0019, в то время как аналогичный запрос в OpenAI Deep Research стоит около $1.8. Это разница почти в 3 порядка (в 1000 раз дешевле).

Точность цитирования: Модель обучена давать точные ссылки на источники (snippets), подтверждающие каждое утверждение, что критически важно для научных или медицинских работы.

🛠 Доступность (Open Source) всех компонентов:
- Веса модели DR Tulu-8B.
- Код для обучения и инференса.
- Датасеты.
- Инфраструктуру для агентов (библиотека dr-agent-lib на базе протокола MCP).

Итог: DR Tulu доказывает, что небольшие, но специализированные модели с правильным методом обучения (RLER) могут превзойти гигантов в сложных задачах, требующих синтеза информации и работы с источниками.

🔗 Ссылки:
Блог: allenai.org/blog/dr-tulu
Код: github.com/rlresearch/dr-tulu
Модели: huggingface.co/collections/rl-research/dr-tulu

Инструкция как запустить локально

#Tulu #DeepResearch
———
@tsingular

⚡10🔥7🆒3❤1

1.98K viewsedited 05:02