321K subscribers
4.72K photos
1.02K videos
17 files
5.15K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
⚡️ Mistral выпустила Small 4.

Mistral Small 4 - это мультимодальный комбайн, который закрывает сразу три задачи: ризонинг, агентный кодинг и работу с изображениями. Раньше под каждую из них была отдельная модель: Magistral, Devstral и Pixtral. Теперь один чекпоинт,

🟡Архитектура

MoE с 128 экспертами, из которых на каждый токен активируются 4. Всего 119B параметров, активных - 6B на токен. Контекстное окно - 256 тыс. токенов.

По сравнению с Mistral Small 3 в новой версии задержка сократилась на 40%, пропускная способность выросла в 3 раза.

Ключевая фича - параметр reasoning_effort. Если поставить none будет быстрый чат-режим, как в Small 3.2, а с ключом high модель начнет разворачивать цепочку рассуждений, сопоставимую с Magistral. Переключение в рантайме, без смены модели.

🟡Тесты

Small 4 с включенным reasoning обходит GPT-OSS 120B на LiveCodeBench и генерирует при этом на 20% меньше токенов.

На AA LCR набирает 0.72 при длине ответа 1.6K символов. Для сравнения, модели Qwen для тех же результатов нужно от 5.8K до 6.1K.

Для self-hosted деплоя минимальный стенд - 4× NVIDIA HGX H100, 2× HGX H200 или 1× DGX B200.


Попробовать бесплатно можно на build.nvidia.com, через Mistral API или AI Studio.


📌 Лицензирование: Apache 2.0 License.


🟡Статья
🟡Набор моделей


@ai_machinelearning_big_data

#AI #ML #LLM #MistralSmall4 #MistralAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍135👏23🤩1311🔥9🤣5👨‍💻5🥰3🎉3❤‍🔥1💯1