Data Science by ODS.ai 🦜

🌟

Kimi-VL: VLM с MoE, ризонингом и контекстом 128K.

Moonshot AI опубликовала веса Kimi-VL — открытой VLM, которая объединяет обработку текста, изображений и видео. Благодаря архитектуре MoE модель активирует всего 2.8 млрд. параметров в языковом декодере, обеспечивая скорость, сопоставимую с компактными аналогами, и результативность флагманских решений.

Главное преимущество Kimi-VL — способность анализировать длинные контексты до 128 тыс. токенов, что делает её идеальной для работы с объемными документами, длинными видео или сложными мультимедийными задачами.

Основу модели составляет визуальный энкодер MoonViT, оптимизированный для нативной обработки изображений любого разрешения без необходимости разбивать их на части. Это позволяет точно распознавать текст, графики или UI-интерфейсы даже в высокодетализированных скриншотах.

Например, на бенчмарке InfoVQA модель показывает точность 83.2%, обходя даже GPT-4o. В задачах OCR Kimi-VL достигает 86.7% на OCRBench, что ставит её в ряд лучших в индустрии.

Разработчики также представили Kimi-VL-Thinking — версию с расширенными возможностями CoT. Благодаря использованным RL и длительному CoT-тюнингу она демонстрирует впечатляющие результаты в математических и академических задачах: на MathVista точность составила 71.3%, а на MMMU — до 61.7%, что лучше, чем у Gemma-3-12B-IT.

В тестах Kimi-VL превосходит конкурентов в работе с агентами: на OSWorld её результат 8.22% выше, чем у GPT-4o (5.03%), а на WindowsAgentArena — 10.4%. Для длинных видео модель набирает 64.5% на LongVideoBench, подтверждая способность анализировать часовые записи без потери ключевых деталей.

Модели доступны на Hugging Face в двух вариантах:

🟢

Kimi-VL-A3B-Instruct для стандартных задач;

🟠

Kimi-VL-Thinking для сложных рассуждений.

▶️ Инференс через Transformers занимает несколько строк кода — достаточно загрузить изображение, задать запрос и получить подробный ответ.

📌Лицензирование: MIT License.

🟡

Набор моделей

🟡

Техотчет

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #VLM #KimiAI #MoonShotAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍8🔥3❤1

3.53K views10:02

Data Science by ODS.ai 🦜

Forwarded from Китай.AI

🚀 Kimi K2: Китайский гигант ИИ отвечает на вызов DeepSeek открытой SOTA-моделью с 1 трлн параметров

После полугода молчания китайская компания MoonshotAI представила мощную альтернативу DeepSeek — модель Kimi K2 с развитыми возможностями в кодинге, математике и автоматизации задач.

📌 Количество звезд на GitHub уже превысило 3k!

🔥 Основные особенности:
• Архитектура MoE (Mixture of Experts) с 1 триллионом общих параметров (активно используется 32 млрд)
• Поддержка контекста 128K токенов
• Открытый исходный код (модифицированная MIT-лицензия)
• Лучшие показатели среди открытых моделей в тестах SWE Bench, Tau2, AceBench

💡 Чем удивил Kimi K2?
→ Генерация 3D-ландшафтов с циклом день/ночь
→ Автоматическое планирование сложных задач (например, организация поездки на концерт)
→ Сильная сторона — генерация кода (пользователи называют "DeepSeek-моментом" для coding моделей)

🔧 Технические инновации:
• Новый оптимизатор Muon вместо традиционного Adam
• Система MuonClip для стабильного обучения на триллионах параметров
• Обучение на 15.5T токенов без аномалий (zero loss spike)
• Самооценочный механизм (self-judging) для задач без четких критериев

🌐 Открытая модель доступна в двух вариантах:
- Kimi-K2-Base (базовая)
- Kimi-K2-Instruct (для Agent-задач)

GitHub | Huggingface

#КитайскийИИ #КитайAI #MoonshotAI #Kimi

❤1

2.86K views09:53

About

Blog

Apps

Platform