🧠 Почему у моделей пропадает «рандомность» во время RL-обучения - и как это чинится
Новая работа разбирает, почему у моделей во время RL для reasoning рушится энтропия (то есть исчезает разнообразие ответов) - и что с этим делать.
Главные выводы:
- 📉 Хорошего набора в ~600 задач хватает, чтобы догнать обучение на 17 000.
Ключ - разнообразие, а не размер датасета.
- 🎯 Reward сужает модель.
При обучении она начинает повторять несколько самых “прибыльных” токенов → энтропия падает → исследование ухудшается.
- 🔄 Меньше энтропии → меньше разнообразия, но измеренная энтропия по промптам почти не коррелирует с точностью.
- ⚙️ Адаптивный энтропийный регуляризатор удерживает «случайность» на целевом уровне, при этом точность продолжает расти.
- 🧪 Off-policy обновления усиливают коллапс, поднимают reward и ломают обобщение — классический overfitting.
- 🧩 Низкое разнообразие данных ускоряет коллапс, но маленький *разнообразный* датасет иногда работает так же хорошо, как полный.
- 🔧 Клиппинг и reweighting позитивных advantage-токенов (например, Progressive Advantage Reweighting) помогают управлять энтропией и борот
arxiv.org/abs/2511.05993
Новая работа разбирает, почему у моделей во время RL для reasoning рушится энтропия (то есть исчезает разнообразие ответов) - и что с этим делать.
Главные выводы:
- 📉 Хорошего набора в ~600 задач хватает, чтобы догнать обучение на 17 000.
Ключ - разнообразие, а не размер датасета.
- 🎯 Reward сужает модель.
При обучении она начинает повторять несколько самых “прибыльных” токенов → энтропия падает → исследование ухудшается.
- 🔄 Меньше энтропии → меньше разнообразия, но измеренная энтропия по промптам почти не коррелирует с точностью.
- ⚙️ Адаптивный энтропийный регуляризатор удерживает «случайность» на целевом уровне, при этом точность продолжает расти.
- 🧪 Off-policy обновления усиливают коллапс, поднимают reward и ломают обобщение — классический overfitting.
- 🧩 Низкое разнообразие данных ускоряет коллапс, но маленький *разнообразный* датасет иногда работает так же хорошо, как полный.
- 🔧 Клиппинг и reweighting позитивных advantage-токенов (например, Progressive Advantage Reweighting) помогают управлять энтропией и борот
arxiv.org/abs/2511.05993
👍12❤1