🧠🚫 Как отучить LLM “думать по кругу” и сэкономить токены
У продвинутых LLM есть скрытая проблема: overthinking.
Модель уже нашла ответ…
но продолжает писать лишние рассуждения, самопроверки и повторяет одно и то же разными словами.
В итоге вы платите не за ум модели - а за повторение.
По оценкам, до 70% токенов уходит именно на такую “избыточную рефлексию”.
YuanLab выпустили Yuan3.0 Flash, где модель учат останавливаться вовремя.
Что внутри:
✅ RIRM - reward-механизм: модель получает сигнал *когда пора завершать ответ*
(нашёл решение - закончи, не раздувай)
✅ RAPO - адаптивная оптимизация policy, ускоряющая обучение на 50%+
Что это даёт:
- до 75% дешевле инференс
- без потери качества
- быстрее ответы, меньше затрат
Главная идея:
Запуск LLM будет не только за “самый умный ответ”,
а за самый дешёвый и быстрый умный ответ.
🚀Model: https://modelscope.cn/models/Yuanlab/Yuan3.0-Flash
🔧Github: https://github.com/Yuan-lab-LLM/Yuan3.0
📄 Paper: https://modelscope.cn/papers/2601.01718
#LLM #AI #Tokens #Inference #Optimization
У продвинутых LLM есть скрытая проблема: overthinking.
Модель уже нашла ответ…
но продолжает писать лишние рассуждения, самопроверки и повторяет одно и то же разными словами.
В итоге вы платите не за ум модели - а за повторение.
По оценкам, до 70% токенов уходит именно на такую “избыточную рефлексию”.
YuanLab выпустили Yuan3.0 Flash, где модель учат останавливаться вовремя.
Что внутри:
✅ RIRM - reward-механизм: модель получает сигнал *когда пора завершать ответ*
(нашёл решение - закончи, не раздувай)
✅ RAPO - адаптивная оптимизация policy, ускоряющая обучение на 50%+
Что это даёт:
- до 75% дешевле инференс
- без потери качества
- быстрее ответы, меньше затрат
Главная идея:
Запуск LLM будет не только за “самый умный ответ”,
а за самый дешёвый и быстрый умный ответ.
🚀Model: https://modelscope.cn/models/Yuanlab/Yuan3.0-Flash
🔧Github: https://github.com/Yuan-lab-LLM/Yuan3.0
📄 Paper: https://modelscope.cn/papers/2601.01718
#LLM #AI #Tokens #Inference #Optimization
👍27❤15🔥6🤔1