Вайб-кодинг

Вышел Harness-1 — поисковый агент на 20B параметров с довольно необычной идеей.

Вместо того чтобы заставлять модель хранить всю историю поиска в контексте, авторы решили вынести состояние наружу и обучить модель работать через специальный harness.

Получился агент на 20B параметров, который на длинных поисковых задачах конкурирует с гораздо более крупными моделями.

Обычно поисковые агенты работают по схеме:
поиск → чтение → поиск → чтение → всё подряд добавляется в контекст.

В итоге модель одновременно играет роль поисковика, памяти, заметочника, верификатора и библиотекаря.

Harness-1 разделяет эти задачи.

Модель по-прежнему решает, что искать, что читать, какие факты сохранять и что проверять. Но всё состояние поиска хранится во внешнем harness-слое.

Он ведёт рабочую память агента:

• найденные документы
• отобранные доказательства
• историю поиска
• связи между источниками
• результаты проверок
• дедупликацию и сжатие данных
• контроль контекстного бюджета

Интересно и то, что модель обучалась на сравнительно небольшом объёме данных: всего 899 SFT-траекторий и RL на 3453 запросах. Авторы считают, что значительную часть нужного поведения можно вынести в сам harness, а не зашивать в веса модели

Самый любопытный результат - переносимость. На новых бенчмарках, которых модель не видела во время обучения, прирост оказался ещё выше, чем на исходных задачах.

Paper : arxiv.org/abs/2606.02373
Code : https://github.com/pat-jj/harness-1
Model : https://huggingface.co/pat-jj/harness-1
HF Paper: https://huggingface.co/papers/2606.02373

14.2K views06:10

Вайб-кодинг

Одно из исследовательских направлений, в которое сейчас вкладывается много ресурсов — continual learning (непрерывное обучение).

Несмотря на большое количество работ в этой области, прогресс в его измерении остаётся минимальным.

Поэтому возникает простой вопрос. Действительно ли специализированные системы памяти позволяют агентам учиться на собственном опыте?

Согласно Continual Learning Bench — пока нет. В шести экспертно валидированных предметных областях с общей обучаемой структурой обычный in-context learning часто работает лучше, чем навороченные системы памяти, которые специально проектировали для обучения на опыте.

CL-Bench вводит метрику gain, которая отделяет реальное обучение от уже имеющихся способностей модели, и показывает, что агенты часто либо переобучаются на недавних наблюдениях, либо не могут повторно использовать знания между разными экземплярами задач.

Если обычный ICL-бейзлайн обходит вашу архитектуру памяти, значит архитектура добавляет накладные расходы, а не обеспечивает обучение. 🤔

Please open Telegram to view this post