Технозаметки Малышева

🤖 DisCIPL: когда рой сверхмалых моделей побеждает крупные, работая в команде

MIT CSAIL представили фреймворк, в котором одна большая модель руководит армией маленьких — и вместе они обходят топовые модели.

Как работает
Большая модель (GPT-4o) — «босс-планировщик». Получает задачу и пишет программу вывода на языке LLaMPPL.

Маленькие модели (Llama-3.2-1B) параллельно выполняют эту программу, оркестратор собирает и корректирует результаты.

Ключевая идея: вместо того чтобы рассуждать текстом (как, например, o1), система «рассуждает» кодом на Python.

Код компактнее и точнее.

В основе, - LLaMPPL

LLaMPPL,- вероятностный язык программирования для управления языковыми моделями.

Возможности:
- Определение жёстких ограничений: «каждое слово не длиннее 5 букв»
- Заполнение пропусков: «To tell the truth, every[ПРОПУСК] he[ПРОПУСК] to[ПРОПУСК]»
- Пересечение промптов: текст, который одинаково вероятен для нескольких разных запросов

Вместо стандартного декодирования используется последовательный метод Монте-Карло (SMC) — алгоритм поддерживает «популяцию» вариантов, отсеивая слабые и размножая сильные.

При этом удалось добиться 80% экономии в сравнении с o1
- на 40% короче «рассуждения» (за счёт того, что это код а не текст)
- Llama-модели в 1000-10000× дешевле за токен
- Точность на уровне o1 при параллельном запуске десятков моделей
- 72% затрат — кэшируемый системный промпт (можно оптимизировать)

Где работает
Тестировали на бенчмарке COLLIE и наборе PUZZLES:
- Тексты со строгими ограничениями («напиши 18 слов, 4-е слово — Glasgow»)
- Списки покупок с бюджетом
- Планирование путешествий
- Грантовые заявки с лимитом слов
- Стихи с точным числом слогов

Главный вывод
Не обязательно гнаться за самой большой моделью. Умная оркестрация маленьких даёт лучший результат за копейки.

Модель сама пишет программу поиска решения — и это работает лучше, чем «думать вслух».

Код: GitHub

#MIT #LLM #DisCIPL #LLaMPPL #SMC #оптимизация
———
@tsingular

✍11👍8🔥7❤1💯1

3.47K views05:10