🔊 Ke-Omni-R-3B
👉 Открытая модель, которая понимает аудио и отвечает на вопросы по аудио.
🏆 Лидирует на бенчмарках аудиорассуждений.
📌 Построена на базе Qwen 3B.
🎥 Omni-R1
👉 Модель для видеоанализа, которая "смотрит" на видео и рассуждает на уровне каждого пикселя.
⚔️ Уже конкурирует с лучшими проприетарными решениями.
📌 Построена на Qwen 7B.
💡 Qwen2.5 - основа для мультимодального ИИ: текст + аудио + видео.
Если ты делаешь проекты в этой сфере — обязательно посмотри, что уже делают на базе Qwen.
#Qwen #AI #Multimodal #HuggingFace #OpenSource #LLM
📎 Модель: https://huggingface.co/KE-Team/Ke-Omni-R-3B
👉 Открытая модель, которая понимает аудио и отвечает на вопросы по аудио.
🏆 Лидирует на бенчмарках аудиорассуждений.
📌 Построена на базе Qwen 3B.
🎥 Omni-R1
👉 Модель для видеоанализа, которая "смотрит" на видео и рассуждает на уровне каждого пикселя.
⚔️ Уже конкурирует с лучшими проприетарными решениями.
📌 Построена на Qwen 7B.
💡 Qwen2.5 - основа для мультимодального ИИ: текст + аудио + видео.
Если ты делаешь проекты в этой сфере — обязательно посмотри, что уже делают на базе Qwen.
#Qwen #AI #Multimodal #HuggingFace #OpenSource #LLM
📎 Модель: https://huggingface.co/KE-Team/Ke-Omni-R-3B
❤3👍1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥🔥 VideoPrism от GoogleDeepMind — универсальный видеоэнкодер нового поколения
Модель легко подключается к LLM или текстовому энкодеру, превращая видео в источник контекста.
🧠 Как работает:
• Сначала обучают CLIP-подобную video-text модель
• Затем дистиллируют видеоэнкодер в VideoPrism
• Получается компактный, но гибкий видеоэнкодер, готовый к интеграции в мультимодальные модели
Все модели доступны под лицензией A2.0
Установка:
• Github: https://github.com/google-deepmind/videoprism
• HF: https://huggingface.co/google/videoprism#model-description
• Arxiv: https://arxiv.org/pdf/2402.13217
• Blogpost: https://research.google/blog/videoprism-a-foundational-visual-encoder-for-video-understanding/
#AI #VideoAI #DeepLearning #GoogleDeepMind #LLM #multimodal
Модель легко подключается к LLM или текстовому энкодеру, превращая видео в источник контекста.
🧠 Как работает:
• Сначала обучают CLIP-подобную video-text модель
• Затем дистиллируют видеоэнкодер в VideoPrism
• Получается компактный, но гибкий видеоэнкодер, готовый к интеграции в мультимодальные модели
Все модели доступны под лицензией A2.0
Установка:
$ git clone https://github.com/google-deepmind/videoprism.git
$ cd videoprism
$ pip install .• Github: https://github.com/google-deepmind/videoprism
• HF: https://huggingface.co/google/videoprism#model-description
• Arxiv: https://arxiv.org/pdf/2402.13217
• Blogpost: https://research.google/blog/videoprism-a-foundational-visual-encoder-for-video-understanding/
#AI #VideoAI #DeepLearning #GoogleDeepMind #LLM #multimodal
🔥3
🚀 X-Omni – универсальная дискретная авторегрессивная модель для изображений и текста, прокачанная через Reinforcement Learning!
✅ Единая архитектура для генерации и изображений, и языковых модальностей
✅ Идеальное выполнение инструкций даже самых сложных
✅ Точный рендер текста на английском и китайском
✅ Любые разрешения: красивые картинки без потери качества
🔍 В процессе RL-марафона эстетика растёт, способность следовать инструкциям и рендерить длинные надписи улучшаются с каждой итерацией.
📄 Paper: https://arxiv.org/pdf/2507.22058
💻 GitHub: https://github.com/X-Omni-Team/X-Omni
🌐 Проект: https://x-omni-team.github.io
#AI #XOmni #ReinforcementLearning #ImageGen #Multimodal
✅ Единая архитектура для генерации и изображений, и языковых модальностей
✅ Идеальное выполнение инструкций даже самых сложных
✅ Точный рендер текста на английском и китайском
✅ Любые разрешения: красивые картинки без потери качества
🔍 В процессе RL-марафона эстетика растёт, способность следовать инструкциям и рендерить длинные надписи улучшаются с каждой итерацией.
📄 Paper: https://arxiv.org/pdf/2507.22058
💻 GitHub: https://github.com/X-Omni-Team/X-Omni
🌐 Проект: https://x-omni-team.github.io
#AI #XOmni #ReinforcementLearning #ImageGen #Multimodal
❤3🔥3👍2🤔1
👁️🧠 R-4B: маленькая, но умная мультимодальная модель
Исследователи представили R-4B — vision-модель с 4B параметров, которая догоняет и даже обгоняет 16B аналоги в сложных визуальных задачах рассуждения.
✨ В чём фишка:
- Модель сама решает, думать пошагово или отвечать сразу.
- На простых задачах — короткий ответ, экономия токенов.
- На сложных — развёрнутый reasoning со «scratchpad».
⚙️ Как обучали:
1. Дали два режима — reasoning (с тэгами `<think>…</think>`) и direct (пустые `<think></think>`).
2. Использовали Bi-mode Policy Optimization: для каждого промпта модель генерирует оба ответа, система оценивает и учит, когда стоит «думать».
📊 Итог:
- На лёгких задачах R-4B работает быстро и экономно.
- На тяжёлых — разворачивает reasoning и показывает качество на уровне 16B моделей, оставаясь компактной.
- Новый SOTA на 25 бенчмарках.
🔗 Paper: arxiv.org/abs/2508.21113
#AI #Vision #Multimodal #Research
Исследователи представили R-4B — vision-модель с 4B параметров, которая догоняет и даже обгоняет 16B аналоги в сложных визуальных задачах рассуждения.
✨ В чём фишка:
- Модель сама решает, думать пошагово или отвечать сразу.
- На простых задачах — короткий ответ, экономия токенов.
- На сложных — развёрнутый reasoning со «scratchpad».
⚙️ Как обучали:
1. Дали два режима — reasoning (с тэгами `<think>…</think>`) и direct (пустые `<think></think>`).
2. Использовали Bi-mode Policy Optimization: для каждого промпта модель генерирует оба ответа, система оценивает и учит, когда стоит «думать».
📊 Итог:
- На лёгких задачах R-4B работает быстро и экономно.
- На тяжёлых — разворачивает reasoning и показывает качество на уровне 16B моделей, оставаясь компактной.
- Новый SOTA на 25 бенчмарках.
🔗 Paper: arxiv.org/abs/2508.21113
#AI #Vision #Multimodal #Research
🔥8❤3👍2