Machinelearning

⚡️

Mistral выпустила Small 4.

Mistral Small 4 - это мультимодальный комбайн, который закрывает сразу три задачи: ризонинг, агентный кодинг и работу с изображениями. Раньше под каждую из них была отдельная модель: Magistral, Devstral и Pixtral. Теперь один чекпоинт,

🟡

Архитектура

MoE с 128 экспертами, из которых на каждый токен активируются 4. Всего 119B параметров, активных - 6B на токен. Контекстное окно - 256 тыс. токенов.

По сравнению с Mistral Small 3 в новой версии задержка сократилась на 40%, пропускная способность выросла в 3 раза.

Ключевая фича - параметр reasoning_effort. Если поставить none будет быстрый чат-режим, как в Small 3.2, а с ключом high модель начнет разворачивать цепочку рассуждений, сопоставимую с Magistral. Переключение в рантайме, без смены модели.

🟡

Тесты

Small 4 с включенным reasoning обходит GPT-OSS 120B на LiveCodeBench и генерирует при этом на 20% меньше токенов.

На AA LCR набирает 0.72 при длине ответа 1.6K символов. Для сравнения, модели Qwen для тех же результатов нужно от 5.8K до 6.1K.

Для self-hosted деплоя минимальный стенд - 4× NVIDIA HGX H100, 2× HGX H200 или 1× DGX B200.

Попробовать бесплатно можно на build.nvidia.com, через Mistral API или AI Studio.

📌 Лицензирование: Apache 2.0 License.

🟡

Статья

🟡

Набор моделей

@ai_machinelearning_big_data

#AI #ML #LLM #MistralSmall4 #MistralAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

10👍135👏23🤩13❤11🔥9🤣5👨‍💻5🥰3🎉3❤‍🔥1💯1

22.1K views14:15

About

Blog

Apps

Platform