Xiaomi выпустила в опенсорсный релиз MiMo-7B — набор языковых моделей, созданных для решения сложных задач, от математики до генерации кода.
Несмотря на скромные 7 млрд. параметров, модель демонстрирует результаты, превосходящие 32B-конкурентов, разрушая стереотипы о зависимости качества от размера.
Создание MiMo началось с предтрейна на 25 трлн. токенов, где акцент был на повышении плотности логических паттернов.
Для этого разработчики пересмотрели обработку данных: улучшили извлечение математических формул и блоков кода из веб-страниц, добавили синтетические данные, сгенерированные топовыми ризонинг-моделями, и все это обработали уникальной стратегией смешивания.
На первых этапах доля STEM-контента достигала 70%, а на финальном — добавили синтетику и расширили контекст до 32K токенов.
Обучение с подкреплением на стадии посттренинга проводили на массиве из 130 тыс. задач, где каждая проверялась автоматически. Чтобы избежать reward hacking, использовали только rule-based награды.
Для сложных задач по программированию ввели систему частичных баллов (как на олимпиадах по информатике) - даже если решение не идеально, модель получает feedback за пройденные тесты. А чтобы RL не застревал на простых примерах, добавили ресэмплинг: 10% данных брали из пула уже решенных задач, балансируя эффективность и стабильность обучения.
Результаты бенчмарков: на LiveCodeBench v6 MiMo-7B-RL набрала 49.3%, обойдя QwQ-32B на 10 пунктов, а на AIME 2025 — 55.4%, оставив позади OpenAI o1-mini. При этом базовая версия модели уже показывала 75.2% на BBH, что выше аналогов своего класса.
⚠️ Разработчики рекомендуют использовать для локального инференса их форк vLLM , он поддерживает MTP (Multiple-Token Prediction), но и на HF Transformers инференс тоже работает.
@ai_machinelearning_big_data
#AI #ML #LLM #RL #Xiaomi #MiMo
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤87👍36🔥22🤔3😨3
В опубликованном наборе 2 модели с 2 вариантами по контекстному окну каждая - на 256 тыс и 1 млн токенов.
MoE на 1,02 трлн параметров (42 млрд активных) c позиционированием для сложных задач в и работы агентов.
В SWE-bench Verified V2.5-Pro набирает 78,9 баллов, при этом в многошаговых задачах она тратит на 40–60% меньше токенов по сравнению с GPT-5.4 или Claude Opus 4.6.
В демонстрации возможностей V2.5-Pro самостоятельно написала рабочий компилятор из SysY в RISC-V: на процесс ушло 4,3 часа и почти 700 вызовов внешних инструментов.
Мультимодальная модель на 310 млрд общих и 15 млрд активных параметров c выделенным визуальным (729 млн) и аудиоэнкодером (261 млн), которая понимает текст, изображения, видео и звук.
Обе ветки семейства используют гибридную систему внимания (скользящее окно плюс глобальное) и трехуровневый модуль MTP, который предсказывает сразу несколько токенов.
с 27 апреля по 27 мая компания бесплатно распределит между разработчиками и стартапами пул в 100 триллионов токенов.
После аппрува заявки полученные лимиты можно будет подключить к Cursor и Claude Code.
@ai_machinelearning_big_data
#AI #ML #LLM #MMLM #MiMO #Xiaomi
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡119❤57👍33🤓24👏20🔥10🤬1🎉1