Forwarded from Китай.AI
🔮 CN-AI-MODELS | ИИ модели Китая
🔥 ByteDance представил Seed1.5-VL — новый лидер в мультимодальном анализе
Китайский гигант ByteDance представил модель Seed1.5-VL. Несмотря на компактные размеры (всего 20B параметров), она конкурирует с топовыми решениями вроде Gemini2.5 Pro. И она умеет "глубоко размышлять" над изображениями!
🚀 Что умеет?
- Видеоанализ: Например, по запросу «что натворил кот?» выдает таймкоды всех «преступлений»
- Точный поиск объектов: Находит товары на полке, читает ценники и считает сумму
- Распознавание эмоций: Определяет количество злых котиков на фото с указанием координат
- GUI-интеграция: Может имитировать клики пользователя в интерфейсах
💡 Технические детали:
• Архитектура:
• Обучение: 3 этапа с фокусом на OCR, визуальном grounding’е и работе с длинными последовательностями
• Инновации: гибрид RLHF/RLVR, оптимизированная балансировка нагрузки GPU
⚡️ Результаты
Модель набрала 38 топ-результатов в 60 тестах (включая 14/19 видео-тестов)
Официальный сайт | Отчет | GitHub
#КитайскийИИ #КитайAI #МультимодальныйИИ #ComputerVision #ByteDance
🔥 ByteDance представил Seed1.5-VL — новый лидер в мультимодальном анализе
Китайский гигант ByteDance представил модель Seed1.5-VL. Несмотря на компактные размеры (всего 20B параметров), она конкурирует с топовыми решениями вроде Gemini2.5 Pro. И она умеет "глубоко размышлять" над изображениями!
🚀 Что умеет?
- Видеоанализ: Например, по запросу «что натворил кот?» выдает таймкоды всех «преступлений»
- Точный поиск объектов: Находит товары на полке, читает ценники и считает сумму
- Распознавание эмоций: Определяет количество злых котиков на фото с указанием координат
- GUI-интеграция: Может имитировать клики пользователя в интерфейсах
💡 Технические детали:
• Архитектура:
ViT-532M + MoE-LLM 20B • Обучение: 3 этапа с фокусом на OCR, визуальном grounding’е и работе с длинными последовательностями
• Инновации: гибрид RLHF/RLVR, оптимизированная балансировка нагрузки GPU
⚡️ Результаты
Модель набрала 38 топ-результатов в 60 тестах (включая 14/19 видео-тестов)
Официальный сайт | Отчет | GitHub
#КитайскийИИ #КитайAI #МультимодальныйИИ #ComputerVision #ByteDance
Volcengine
火山方舟大模型体验中心-火山引擎
火山方舟大模型体验中心,免登录即可体验,畅享DeepSeek、Doubao等最新模型!火山方舟是火山引擎推出的大模型服务平台,提供模型训练、推理、评测、精调等全方位功能与服务,并重点支撑大模型生态。
❤3👍3🔥2