Machinelearning

🌟

MiMo-7B: Набор компактных ризонинг-моделей от Xiaomi.

Xiaomi выпустила в опенсорсный релиз MiMo-7B — набор языковых моделей, созданных для решения сложных задач, от математики до генерации кода.

Несмотря на скромные 7 млрд. параметров, модель демонстрирует результаты, превосходящие 32B-конкурентов, разрушая стереотипы о зависимости качества от размера.

Создание MiMo началось с предтрейна на 25 трлн. токенов, где акцент был на повышении плотности логических паттернов.

Для этого разработчики пересмотрели обработку данных: улучшили извлечение математических формул и блоков кода из веб-страниц, добавили синтетические данные, сгенерированные топовыми ризонинг-моделями, и все это обработали уникальной стратегией смешивания.

На первых этапах доля STEM-контента достигала 70%, а на финальном — добавили синтетику и расширили контекст до 32K токенов.

Обучение с подкреплением на стадии посттренинга проводили на массиве из 130 тыс. задач, где каждая проверялась автоматически. Чтобы избежать reward hacking, использовали только rule-based награды.

Для сложных задач по программированию ввели систему частичных баллов (как на олимпиадах по информатике) - даже если решение не идеально, модель получает feedback за пройденные тесты. А чтобы RL не застревал на простых примерах, добавили ресэмплинг: 10% данных брали из пула уже решенных задач, балансируя эффективность и стабильность обучения.

Результаты бенчмарков: на LiveCodeBench v6 MiMo-7B-RL набрала 49.3%, обойдя QwQ-32B на 10 пунктов, а на AIME 2025 — 55.4%, оставив позади OpenAI o1-mini. При этом базовая версия модели уже показывала 75.2% на BBH, что выше аналогов своего класса.

▶️

Состав набора:

🟠

MiMo-7B-Base - базовая модель с потенциалом рассуждений;

🟠

MiMo-7B-RL-Zero - RL-модель, обученная на основе базовой;

🟠

MiMo-7B-SFT - модель SFT, обученная на основе MiMo-7B-Base;

🟢

MiMo-7B-RL - RL-модель, обученная на основе SFT-модели, та, которая в бенчмарках обошла OpenAI o1-mini.

⚠️ Разработчики рекомендуют использовать для локального инференса их форк vLLM , он поддерживает MTP (Multiple-Token Prediction), но и на HF Transformers инференс тоже работает.

📌Лицензирование: MIT License.

🟡

Набор моделей

🟡

Техотчет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #RL #Xiaomi #MiMo

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤87👍36🔥22🤔3😨3

18.2K views14:04

Machinelearning

⚡️

Xiaomi выложила веса семейства MiMo-V2.5

В опубликованном наборе 2 модели с 2 вариантами по контекстному окну каждая - на 256 тыс и 1 млн токенов.

🟢

MiMo-V2.5-Pro (1M) и MiMo-V2.5-Pro Base (256K)

MoE на 1,02 трлн параметров (42 млрд активных) c позиционированием для сложных задач в и работы агентов.

В SWE-bench Verified V2.5-Pro набирает 78,9 баллов, при этом в многошаговых задачах она тратит на 40–60% меньше токенов по сравнению с GPT-5.4 или Claude Opus 4.6.

В демонстрации возможностей V2.5-Pro самостоятельно написала рабочий компилятор из SysY в RISC-V: на процесс ушло 4,3 часа и почти 700 вызовов внешних инструментов.

🟠

MiMo-V2.5 (1M) и MiMo-V2.5 Base (256K)

Мультимодальная модель на 310 млрд общих и 15 млрд активных параметров c выделенным визуальным (729 млн) и аудиоэнкодером (261 млн), которая понимает текст, изображения, видео и звук.

Обе ветки семейства используют гибридную систему внимания (скользящее окно плюс глобальное) и трехуровневый модуль MTP, который предсказывает сразу несколько токенов.

🟡

Вместе с релизом Xiaomi запустила грантовую программу Orbit.

с 27 апреля по 27 мая компания бесплатно распределит между разработчиками и стартапами пул в 100 триллионов токенов.

После аппрува заявки полученные лимиты можно будет подключить к Cursor и Claude Code.

📌Лицензирование: MIT License

🟡

Статья

🟡

Набор моделей

🟡

Demo

@ai_machinelearning_big_data

#AI #ML #LLM #MMLM #MiMO #Xiaomi

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

⚡119❤57👍33🤓24👏20🔥10🤬1🎉1

22.2K views18:03

About

Blog

Apps

Platform