Моделька на 309B параметров, из которых одновременно активны лишь 15B - за счёт умной MoE-маршрутизации модель достигает высокой эффективности. Сравнима с DeepSeek-V3.2 на общих бенчмарках.
MiMo-V2-Flash заточена под агентов и работу с инструментами.
🔥 Ключевые особенности
🏗️ Hybrid Attention
5:1 чередование 128-window SWA и Global Attention
Контекст — 256K токенов
🏆 Код и разработка
• SWE-Bench Verified - 73.4%
• SWE-Bench Multilingual - 71.7%
Новый SOTA среди open-source моделей
🚀 Скорость
• До 150 output tokens/sec
• Day-0 поддержка от @lmsysorg
MiMo-V2-Flash - пример того, как MoE-архитектуры выходят на новый уровень: быстрее, дешевле и готовые к агентным сценариям.
🤗 Model: http://hf.co/XiaomiMiMo/MiMo-V2-Flash
📝 Blog: http://mimo.xiaomi.com/blog/mimo-v2-flash
📄 Technical Report: http://github.com/XiaomiMiMo/MiMo-V2-Flash/blob/main/paper.pdf
🎨 AI Studio: http://aistudio.xiaomimimo.com
#AI #LLM #MoE #OpenSource #AgenticAI #MachineLearning #DeepLearning #GenAI #SWEBench #Xiaomi #AIModels
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Речь идёт не о симуляциях, а о связке:
- ИИ-модели
- реальные wet-lab эксперименты
- автоматизация научного цикла от гипотезы до результата
Что меняется на практике:
- ИИ помогает формулировать гипотезы, на которые раньше уходили месяцы ручной работы
- подсказывает, какие эксперименты ставить в первую очередь, экономя время и реагенты
- результаты экспериментов сразу возвращаются в модель и используются в следующей итерации
- меньше случайных проб, больше целенаправленных решений
Ключевая мысль:
ИИ перестаёт быть вспомогательным инструментом и становится участником научного процесса.
Почему это критично:
- биология и медицина - одни из самых медленных и дорогих областей науки
- каждая итерация эксперимента стоит времени, денег и ресурсов
- ускорение даже в 2–3 раза радикально меняет экономику разработки лекарств и биотехнологий
OpenAI фактически показывает направление, где:
- ИИ работает не только с текстом и кодом
- замыкается цикл «гипотеза → эксперимент → вывод → новая гипотеза»
- наука начинает масштабироваться так же, как софт
Это не очередной апдейт модели.
Это задел на новую инфраструктуру научных открытий.
https://openai.com/index/accelerating-biological-research-in-the-wet-lab/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Модель интересна нестандартным подходом к механизму внимания. Xiaomi использовали гибридную схему, чередующую глобальное внимание и внимание скользящего окна в пропорции 1 к 5.
Само скользящее окно всего 128 токенов, но несмотря на такую компактность, модель получила контекстное окно в 256 тыс. токенов.
MiMo-V2-Flash выдает 150 токенов в секунду по API и добиться таких показателей удалось благодаря Multi-Token Prediction .
В отличие от стандартных методов, где декодирование упирается в пропускную способность памяти из-за низкой арифметической интенсивности, MTP генерирует несколько черновых токенов за раз. Основная модель затем валидирует их параллельно.
Блок MTP в MiMo-V2-Flash спроектирован легковесным: он использует плотную сеть прямого распространения вместо MoE и опирается на все то же скользящее окно внимания.
Измерения показали, что в этом есть смысл: при использовании 3-слойного MTP длина принятой последовательности составляет от 2,8 до 3,6 токена, что дает чистое ускорение инференса в 2,0–2,6 раза без увеличения операций ввода-вывода KV-кэша.
Ее суть в том, что модель-студент сэмплирует варианты ответов из собственной политики, а награды ей выдают сразу несколько моделей-учителей.
Это дало возможность масштабировать RL с ощутимой экономией: для пиковой производительности учителей требуется менее 1/50 вычислительных ресурсов по сравнению с традиционными пайплайнами SFT+RL.
На SWE-bench Verified модель набрала 73,4%. Это первое место среди всех открытых моделей и очень близко к показателям GPT-5-High.
В мультиязычном тесте SWE-bench Multilingual решила 71,7% задач.
В математическом AIME 2025 и научном бенчмарке GPQA-Diamond MiMo-V2-Flash входит в топ-2 среди open-source решений.
Для задач поиска на BrowseComp результат составил 45,4, а при использовании управления контекстом вырос до 58,3.
В прямом сравнении ризонинг-задачах MiMo-V2-Flash держит паритет с K2 Thinking и DeepSeek V3.2 Thinking, но превосходит K2 Thinking на длинных контекстах.
@ai_machinelearning_big_data
#AI #ML #LLM #MiMOv2Flash #Xiaomi
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
✍️ python-course - структурированный и глубокий разбор Python от базовых принципов до продвинутых тем.
Это подробный текстовый курс для вдумчивого самостоятельного изучения. Материал выстроен последовательно: от основ синтаксиса и ключевых конструкций — к ООП, генераторам, итераторам, замыканиям и внутреннему устройству языка. Без воды, с акцентом на понимание того, как и почему Python работает именно так.
Подойдёт тем, кто хочет:
- выстроить прочный фундамент
- систематизировать разрозненные знания
- глубже разобраться во внутренних механизмах языка
https://python-course.eu/
Это подробный текстовый курс для вдумчивого самостоятельного изучения. Материал выстроен последовательно: от основ синтаксиса и ключевых конструкций — к ООП, генераторам, итераторам, замыканиям и внутреннему устройству языка. Без воды, с акцентом на понимание того, как и почему Python работает именно так.
Подойдёт тем, кто хочет:
- выстроить прочный фундамент
- систематизировать разрозненные знания
- глубже разобраться во внутренних механизмах языка
https://python-course.eu/
⚡ Gemini 3 Flash - быстрый ИИ нового поколения от Google
Gemini 3 Flash:
- это очень быстрая модель с минимальной задержкой
- при этом она сохраняет сильные способности к рассуждению
- Frontier-уровень на GPQA Diamond - рассуждения уровня PhD
- Хорошие результаты на Humanity’s Last Exam
- State-of-the-art на MMMU Pro - хорошо работает с видео и мультимодальными данными
- В целом, качество сопоставимо с Gemini 3 Pro
По сути, Flash - это попытка Google сбалансировать три вещи одновременно: скорость + интеллект + стоимость.
https://blog.google/products/gemini/gemini-3-flash/
@ai_machinelearning_big_data
#AI #Gemini #Google #LLM #Multimodal #AIModels #MachineLearning
Gemini 3 Flash:
- это очень быстрая модель с минимальной задержкой
- при этом она сохраняет сильные способности к рассуждению
- Frontier-уровень на GPQA Diamond - рассуждения уровня PhD
- Хорошие результаты на Humanity’s Last Exam
- State-of-the-art на MMMU Pro - хорошо работает с видео и мультимодальными данными
- В целом, качество сопоставимо с Gemini 3 Pro
По сути, Flash - это попытка Google сбалансировать три вещи одновременно: скорость + интеллект + стоимость.
https://blog.google/products/gemini/gemini-3-flash/
@ai_machinelearning_big_data
#AI #Gemini #Google #LLM #Multimodal #AIModels #MachineLearning
Главные новости ИИ и МЛ
✔️ HY World 1.5: модель для генерации 3D-миров в реальном времени.
Tencent релизнула HY World 1.5 - "модель мира" для генерации бесконечных интерактивных 3D-пространств с фрейм-рейтом 24 FPS.
В этом релизе решили проблему амнезии модели. Это значит, что при возвращении в ранее сгенерированную локацию она сохранит свой исходный облик, а не перестроится случайным образом.
Под капотом - связка Diffusion Transformer и 3D VAE, предсказывающая чанки по 16 кадров на лету. Управление от первого или третьего лица реализовано через гибридную систему Dual Action (клавиши WASD плюс положение камеры).
3d-models.hunyuan.tencent.com
✔️ Microsoft обновила 3D-модель TRELLIS.
TRELLIS 2 получила 4 млрд. параметров и способность генерировать детализированные 3D-меши с разрешением до 1536³ по тексту или изображению. Модель отличается реалистичной проработкой материалов и улучшенной топологией мешей по сравнению с первой версией.
В основе системы - высокопроизводительная архитектура O-Voxel: черновой вариант генерируется всего за 3 секунды, а версия в максимальном качестве — около минуты.
microsoft.github.io
✔️ Adobe добавил видеоредактор в Firefly.
Adobe выпустила обновление Firefly. Теперь там есть полноценный видеоредактор, позволяющий вносить точечные изменения в ролики с помощью текстовых команд. Через промпты можно корректировать отдельные элементы, цветовую гамму и ракурсы камеры. Для удобства работы добавлен интерфейс с привычным таймлайном.
Компания также расширила экосистему, добавив модели FLUX.2 и Topaz Astra для апскейла видео до 4K. Кроме того, собственная видеомодель Adobe научилась повторять движение камеры, используя первый кадр и референсное видео.
Функции вышли из стадии закрытой беты и уже доступны на тарифах Firefly Pro, Firefly Premium бесплатно до 15 января.
blog.adobe.com
✔️ Google Labs делает экспериментального ИИ-агента для автоматизации рутины.
Это ИИ-ассистент под названием CC на базе Gemini, который берет на себя роль умного секретаря. Сервис интегрируется с Gmail, Google Calendar и Drive, чтобы каждое утро присылать пользователю структурированный бриф с планами на день и важными задачами.
Бот умеет не просто агрегировать информацию, но и выделять контекст: он подскажет, когда нужно подготовиться к встрече или оплатить счет, а также может сам составить черновик письма или создать событие в календаре.
Взаимодействие с ассистентом происходит исключительно через электронную почту: вы обучаете его, просто отвечая на письма. Ранний доступ к СС открыт только для пользователей из США и Канады через лист ожидания.
blog.google
✔️ Perplexity обновила свое приложение для iPad.
Perplexity выпустила новую версию приложения для iPad, ориентированную на студентов и бизнес-пользователей, которым нужны глубокие исследования.
Теперь это не просто растянутая версия с iPhone: интерфейс полностью переработан с учетом эргономики планшетов. Появилась удобная боковая панель для навигации и поддержка режима Split View для полноценной многозадачности.
В компании не скрывают, что улучшение UX бля больших экранов — это стратегический шаг для наращивания базы платных подписчиков, так как безлимитный доступ к расширенным исследовательским функциям открывается именно в Pro-тарифе.
bloomberg.com
#news #ai #ml
Tencent релизнула HY World 1.5 - "модель мира" для генерации бесконечных интерактивных 3D-пространств с фрейм-рейтом 24 FPS.
В этом релизе решили проблему амнезии модели. Это значит, что при возвращении в ранее сгенерированную локацию она сохранит свой исходный облик, а не перестроится случайным образом.
Под капотом - связка Diffusion Transformer и 3D VAE, предсказывающая чанки по 16 кадров на лету. Управление от первого или третьего лица реализовано через гибридную систему Dual Action (клавиши WASD плюс положение камеры).
3d-models.hunyuan.tencent.com
TRELLIS 2 получила 4 млрд. параметров и способность генерировать детализированные 3D-меши с разрешением до 1536³ по тексту или изображению. Модель отличается реалистичной проработкой материалов и улучшенной топологией мешей по сравнению с первой версией.
В основе системы - высокопроизводительная архитектура O-Voxel: черновой вариант генерируется всего за 3 секунды, а версия в максимальном качестве — около минуты.
microsoft.github.io
Adobe выпустила обновление Firefly. Теперь там есть полноценный видеоредактор, позволяющий вносить точечные изменения в ролики с помощью текстовых команд. Через промпты можно корректировать отдельные элементы, цветовую гамму и ракурсы камеры. Для удобства работы добавлен интерфейс с привычным таймлайном.
Компания также расширила экосистему, добавив модели FLUX.2 и Topaz Astra для апскейла видео до 4K. Кроме того, собственная видеомодель Adobe научилась повторять движение камеры, используя первый кадр и референсное видео.
Функции вышли из стадии закрытой беты и уже доступны на тарифах Firefly Pro, Firefly Premium бесплатно до 15 января.
blog.adobe.com
Это ИИ-ассистент под названием CC на базе Gemini, который берет на себя роль умного секретаря. Сервис интегрируется с Gmail, Google Calendar и Drive, чтобы каждое утро присылать пользователю структурированный бриф с планами на день и важными задачами.
Бот умеет не просто агрегировать информацию, но и выделять контекст: он подскажет, когда нужно подготовиться к встрече или оплатить счет, а также может сам составить черновик письма или создать событие в календаре.
Взаимодействие с ассистентом происходит исключительно через электронную почту: вы обучаете его, просто отвечая на письма. Ранний доступ к СС открыт только для пользователей из США и Канады через лист ожидания.
blog.google
Perplexity выпустила новую версию приложения для iPad, ориентированную на студентов и бизнес-пользователей, которым нужны глубокие исследования.
Теперь это не просто растянутая версия с iPhone: интерфейс полностью переработан с учетом эргономики планшетов. Появилась удобная боковая панель для навигации и поддержка режима Split View для полноценной многозадачности.
В компании не скрывают, что улучшение UX бля больших экранов — это стратегический шаг для наращивания базы платных подписчиков, так как безлимитный доступ к расширенным исследовательским функциям открывается именно в Pro-тарифе.
bloomberg.com
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Исследователи показали: большие языковые модели могут ощущать, что на их внутреннее состояние что-то сильно влияет, но при этом обычно не способны объяснить, что именно.
Что сделали авторы:
- Они искусственно «подталкивают» скрытые активации модели в заданном направлении
- Модель часто может определить насколько сильным был этот сдвиг
- Но даже заметив изменение внутри себя, она не может корректно назвать внедрённый концепт, например «предательство» или «спутники»
Проще говоря:
Модель может сказать
«на меня сейчас сильно что-то влияет»,
но не может надёжно сказать
«это именно концепт предательства»
Поэтому авторы называют это частичной интроспекцией:
- модель считывает простой сигнал (силу воздействия)
- но не понимает смысл собственного внутреннего состояния
Результаты:
- На Llama 3.1 8B Instruct модель определяет силу инъекции (от слабой до очень сильной) с точностью около 70%
- Случайный уровень - 25%
- Корректно назвать сам концепт удаётся лишь примерно в 20% случаев
- Переформулировка вопроса легко ломает ответы
Некоторые идеи AI-безопасности предполагают, что модель можно спросить, активировано ли внутри неё опасное состояние.
Но эксперимент показывает:
- LLM действительно чувствуют внутренние сигналы
- Однако их объяснения того, что эти сигналы означают, ненадёжны
Как это работает:
- Каждый токен формирует большое числовое состояние
- Авторы создают направление концепта, сравнивая примеры с контрастным набором
- Затем на выбранном слое слегка смещают внутреннее состояние
- И смотрят, что модель может сказать о происходящем
LLM обладают ограниченной самодиагностикой,
но интроспекция не равна пониманию.
Paper:https://arxiv.org/abs/2512.12411
Please open Telegram to view this post
VIEW IN TELEGRAM
Суровая реальность нашего времени: вы хотите сгенерировать 5-секундное видео на большой SOTA-модели. Вы запускаете промпт, идете пить кофе, возвращаетесь, а процесс все еще идет. И зачастую генерация может занимать больше часа.
Главные виновники - чудовищная вычислительная сложность механизма внимания в трансформерах, необходимость сотен шагов денойзинга и огромный объем памяти для весов в полной точности.
Авторы проекта TurboDiffusion из Цинхуа и Беркли решили собрать все эффективные методы сжатия и ускорения в один пайплайн. Их идея заключалась в том, что разреженность и квантование — это техники, которые не мешают друг другу.
В довершении ко всему смогли объединить после файнтюнинга под SLA и дистилляции rCM веса в единую модель, избежав конфликтов.
На RTX 5090 время генерации для тяжелой модели Wan2.2-I2V 14B упало с 69 минут до 35.4 секунд. А для более легкой Wan 2.1-1.3B - с почти 3-х минут до 1.8 секунды.
Это ускорение больше чем в 100 раз.
При этом, судя по примерам, визуальное качество осталось практически неотличимым от оригинала.
@ai_machinelearning_big_data
#AI #ML #I2V #T2V #TurboDiffusion
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔍 Mistral представила OCR 3 - новую версию своей AI-системы распознавания документов.
Ключевое:
- Существенный рост качества по сравнению с OCR 2, особенно на формах, таблицах и сложных PDF
- Уверенно работает со сканами, рукописным текстом и нестандартной версткой
- Возвращает структурированный результат, а не просто сырой текст
- Подходит для автоматизации Document AI и downstream-аналитики
- Доступен через API и готов к продакшен-использованию
Главное
- На 74% лучше Mistral OCR 2 при работе с формами, сканированными документами, сложными таблицами и рукописным текстом.
- Точность уровня state-of-the-art: Обходит как корпоративные системы обработки документов, так и современные AI-OCR решения.
- Используется в Document AI Playground:
В Mistral AI Studio появился простой drag-and-drop интерфейс для разбора PDF и изображений в чистый текст или структурированный JSON.
https://mistral.ai/news/mistral-ocr-3
@ai_machinelearning_big_data
#ocr #mistal #llm
Ключевое:
- Существенный рост качества по сравнению с OCR 2, особенно на формах, таблицах и сложных PDF
- Уверенно работает со сканами, рукописным текстом и нестандартной версткой
- Возвращает структурированный результат, а не просто сырой текст
- Подходит для автоматизации Document AI и downstream-аналитики
- Доступен через API и готов к продакшен-использованию
Главное
- На 74% лучше Mistral OCR 2 при работе с формами, сканированными документами, сложными таблицами и рукописным текстом.
- Точность уровня state-of-the-art: Обходит как корпоративные системы обработки документов, так и современные AI-OCR решения.
- Используется в Document AI Playground:
В Mistral AI Studio появился простой drag-and-drop интерфейс для разбора PDF и изображений в чистый текст или структурированный JSON.
https://mistral.ai/news/mistral-ocr-3
@ai_machinelearning_big_data
#ocr #mistal #llm