!!! Qwen2-VL: обновление мультимодальных моделей
Alibaba представила Qwen2-VL - усовершенствованную версию мультимодальной модели, способную:
• Анализировать изображения разного разрешения и пропорций
• Понимать видео длительностью более 20 минут
• Управлять мобильными устройствами и роботами
• Работать с текстом на разных языках, включая рукописный
Доступны три версии модели : 72B, 7B и 2B (оптимизирована для мобильных).
Улучшены навыки распознавания объектов, математических вычислений и кодирования.
Модель демонстрирует потенциал визуального агента с расширенными возможностями анализа видеоконтента.
По описанию, - очень круто! Надо пробовать.
DEMO
HuggingFace
#Qwen2VL #ComputerVision #Multimodal #Китай
-------
@tsingular
Alibaba представила Qwen2-VL - усовершенствованную версию мультимодальной модели, способную:
• Анализировать изображения разного разрешения и пропорций
• Понимать видео длительностью более 20 минут
• Управлять мобильными устройствами и роботами
• Работать с текстом на разных языках, включая рукописный
Доступны три версии модели : 72B, 7B и 2B (оптимизирована для мобильных).
Улучшены навыки распознавания объектов, математических вычислений и кодирования.
Модель демонстрирует потенциал визуального агента с расширенными возможностями анализа видеоконтента.
По описанию, - очень круто! Надо пробовать.
DEMO
HuggingFace
#Qwen2VL #ComputerVision #Multimodal #Китай
-------
@tsingular
🍾1
NVIDIA выпускает серию мультимодалок NVEagle
NVIDIA представила семейство NVEagle - передовых мультимодальных языковых моделей.
Доступны версии 7B, 13B и 13B chat.
Ключевые особенности:
• Интеграция обработки визуальной и текстовой информации
• Смесь экспертных систем в визуальных энкодерах
• Конкатенация визуальных токенов от разных энкодеров
• Поддержка изображений высокого разрешения (до 1K)
• Улучшенная производительность в OCR и понимании документов
описание
Модели на Hugging Face.
#NVIDIA #NVEagle #ComputerVision
-------
@tsingular
NVIDIA представила семейство NVEagle - передовых мультимодальных языковых моделей.
Доступны версии 7B, 13B и 13B chat.
Ключевые особенности:
• Интеграция обработки визуальной и текстовой информации
• Смесь экспертных систем в визуальных энкодерах
• Конкатенация визуальных токенов от разных энкодеров
• Поддержка изображений высокого разрешения (до 1K)
• Улучшенная производительность в OCR и понимании документов
описание
Модели на Hugging Face.
#NVIDIA #NVEagle #ComputerVision
-------
@tsingular
👍7
LLaVA-o1: Новая открытая визуальная нейронка с пошаговыми рассуждениями
Вышла визуально-языковая модель LLaVA-o1 в 11 млрд. параметров.
Превосходит Gemini-1.5-pro и GPT-4o-mini в комплексных задачах анализа изображений.
Нейросеть применяет четырёхэтапный подход:
1. описание задачи
2. интерпретация картинки
3. логический анализ
4. формирование вывода.
Файнтюн сделан на базе Llama-3.2-11B-Vision-Instruct на датасете LLaVA-o1-100k с использованием 8 GPU H100.
Демонстрирует особую эффективность в математических и научных задачах.
https://huggingface.co/Xkev/Llama-3.2V-11B-cot
А вот и парсер для сложных PDF документов, кстати.
46 гигов полный размер. в 2х4090 впритык будет.
Отдельно полезно пэйпер почитать, чтобы понять как оно под капотом устроено:
https://arxiv.org/html/2411.10440v1
#LLaVA #ComputerVision #agents #CoT
-------
@tsingular
Вышла визуально-языковая модель LLaVA-o1 в 11 млрд. параметров.
Превосходит Gemini-1.5-pro и GPT-4o-mini в комплексных задачах анализа изображений.
Нейросеть применяет четырёхэтапный подход:
1. описание задачи
2. интерпретация картинки
3. логический анализ
4. формирование вывода.
Файнтюн сделан на базе Llama-3.2-11B-Vision-Instruct на датасете LLaVA-o1-100k с использованием 8 GPU H100.
Демонстрирует особую эффективность в математических и научных задачах.
https://huggingface.co/Xkev/Llama-3.2V-11B-cot
А вот и парсер для сложных PDF документов, кстати.
46 гигов полный размер. в 2х4090 впритык будет.
Отдельно полезно пэйпер почитать, чтобы понять как оно под капотом устроено:
https://arxiv.org/html/2411.10440v1
#LLaVA #ComputerVision #agents #CoT
-------
@tsingular
✍2👍2⚡1
Media is too big
VIEW IN TELEGRAM
CAT4D: революция в создании динамических 3D сцен из обычного видео от команды Google Deepmind
Система комбинирует видео-диффузионную модель с многоракурсным преобразованием и оптимизацией через гауссово представление.
Технология не нуждается в синхронизированной мультикамерной съёмке, восстанавливая даже скрытые участки сцены.
Обучение выполнено на смеси синтетических и реальных датасетов: Objaverse, Kubric, CO3D.
Обработка занимает 1 минуту на 16×A100 GPU, оптимизация - 25 минут на одной карте.
Сайт
Paper
#Cat4D #computervision #3Dreconstruction #Google ##Deepmind
———
@tsingular
Система комбинирует видео-диффузионную модель с многоракурсным преобразованием и оптимизацией через гауссово представление.
Технология не нуждается в синхронизированной мультикамерной съёмке, восстанавливая даже скрытые участки сцены.
Обучение выполнено на смеси синтетических и реальных датасетов: Objaverse, Kubric, CO3D.
Обработка занимает 1 минуту на 16×A100 GPU, оптимизация - 25 минут на одной карте.
Сайт
Paper
#Cat4D #computervision #3Dreconstruction #Google ##Deepmind
———
@tsingular
🔥6⚡1👍1
Media is too big
VIEW IN TELEGRAM
Meta* представила V-JEPA-v2: продвинутую ИИ-модель для понимания роботами окружающего пространства
Ян ЛеКун представил V-JEPA-v2 — новую версию самообучающейся модели компьютерного зрения, которая работает без размеченных данных.
Модель использует архитектуру joint embedding predictive, что обеспечивает более эффективное обучение и лучшую адаптацию к различным визуальным задачам.
Прорыв откроет возможности в автономных авто, ритейл-аналитике и медицинской визуализации, снизив затраты на разметку данных и ускорив внедрение ИИ-систем зрения.
Всего с 1.2 млрд параметров роботы смогут понимать окружающий мир без сложных размышлений, обучаясь непосредственно во время работы.
GitHub
HuggingFace
Сайт проекта
Paper
*Meta - запрещённая в РФ организация
#VJEPA #ComputerVision #Meta
———
@tsingular
Ян ЛеКун представил V-JEPA-v2 — новую версию самообучающейся модели компьютерного зрения, которая работает без размеченных данных.
Модель использует архитектуру joint embedding predictive, что обеспечивает более эффективное обучение и лучшую адаптацию к различным визуальным задачам.
Прорыв откроет возможности в автономных авто, ритейл-аналитике и медицинской визуализации, снизив затраты на разметку данных и ускорив внедрение ИИ-систем зрения.
Всего с 1.2 млрд параметров роботы смогут понимать окружающий мир без сложных размышлений, обучаясь непосредственно во время работы.
GitHub
HuggingFace
Сайт проекта
Paper
*Meta - запрещённая в РФ организация
#VJEPA #ComputerVision #Meta
———
@tsingular
✍6⚡5👍3❤2🍓1
Media is too big
VIEW IN TELEGRAM
🚀 RF-DETR от Roboflow - новый лидер анализа видео в реальном времени
Roboflow выкатили трансформер, который переплюнул все YOLO по точности при сопоставимой скорости.
RF-DETR-M на 576x576 даёт 54.7 AP при 4.52ms скорости - это новый потолок для real-time детекторов.
Плюс превью сегментации: RF-DETR Seg в 3 раза быстрее самой большой YOLO при большей точности.
Техническая начинка:
- Четыре размера: Nano, Small, Medium
- Apache 2.0 лицензия — берите и дообучайте под себя
- optimize_for_inference() даёт 2x буст скорости из коробки
- Обучение на кастомных датасетах через rfdetr package
- Интеграция с Roboflow Inference для деплоя
Зачем это нам:
- Производственные линии: контроль качества в реальном времени с минимальной задержкой
- Розница: счётчики товаров на полках с точностью enterprise-уровня
- Автономныемирные системы: детекция объектов там, где каждая миллисекунда критична
Код предельно простой — 10 строк и у вас работающая детекция.
Если нужна сегментация — меняете модель на rfdetr-seg-preview.
Короче пока вы тут в генИИ развлекаетесь, - ML ускакал далеко вперёд и выглядит как реально полезная штука в любых сценариях использования.
Как в гражданских, так и в не.
#RFDETR #ComputerVision #Roboflow #ObjectDetection
———
@tsingular
Roboflow выкатили трансформер, который переплюнул все YOLO по точности при сопоставимой скорости.
RF-DETR-M на 576x576 даёт 54.7 AP при 4.52ms скорости - это новый потолок для real-time детекторов.
Плюс превью сегментации: RF-DETR Seg в 3 раза быстрее самой большой YOLO при большей точности.
Техническая начинка:
- Четыре размера: Nano, Small, Medium
- Apache 2.0 лицензия — берите и дообучайте под себя
- optimize_for_inference() даёт 2x буст скорости из коробки
- Обучение на кастомных датасетах через rfdetr package
- Интеграция с Roboflow Inference для деплоя
Зачем это нам:
- Производственные линии: контроль качества в реальном времени с минимальной задержкой
- Розница: счётчики товаров на полках с точностью enterprise-уровня
- Автономные
Код предельно простой — 10 строк и у вас работающая детекция.
Если нужна сегментация — меняете модель на rfdetr-seg-preview.
Короче пока вы тут в генИИ развлекаетесь, - ML ускакал далеко вперёд и выглядит как реально полезная штука в любых сценариях использования.
Как в гражданских, так и в не.
#RFDETR #ComputerVision #Roboflow #ObjectDetection
———
@tsingular
🔥10✍4⚡2
Forwarded from Machinelearning
Tencent выложила в open-source новую модель HunyuanOCR.
Это компактная, быстрая и полностью готовая end-to-end система для OCR, построенная на мультимодальной архитектуре Hunyuan.
Главное - при размере только 1 миллиард параметров она показывает результаты уровня крупных моделей и стоит в разы дешевле в запуске.
⚡ Топ по бенчмаркам
• 860 на OCRBench среди всех моделей до 3B
• 94.1 на OmniDocBench - лучший результат в задачах распознованяисложных документов
🌐 Что умеет HunyuanOCR
Модель закрывает практически все типы OCR задач
• текст на улицах, витринах, табличках
• рукописный текст и художественные шрифты
• сложные документы: таблицы, формулы, встроенный HTML и LaTeX
• субтитры в видео
• перевод текста на фото end-to-end сразу на 14 языков
Это не каскадный пайплайн, а единое решение
Один запрос и одно инференс-прогон дают готовый результат.
Это быстрее, надёжнее и удобнее, чем традиционные OCR-цепочки.
📌 Project Page
web: https://hunyuan.tencent.com/vision/zh?tabIndex=0
mobile: https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
🔗 GitHub
https://github.com/Tencent-Hunyuan/HunyuanOCR
🤗 Hugging Face
https://huggingface.co/tencent/HunyuanOCR
📄 Technical Report
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf
@ai_machinelearning_big_data
#HunyuanOCR #TencentAI #OCR #VisionAI #DeepLearning #Multimodal #AIModels #OpenSourceAI #ComputerVision #DocumentAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9⚡3❤2👍1
PackEat: крупнейший датасет для умных касс из России
Яндекс, Сколтех и ГУАП выпустили PackEat — открытый набор из 100 тысяч снимков фруктов и овощей для обучения систем компьютерного зрения в ритейле.
Датасет покрывает 34 вида и 65 сортов продуктов, снятых в реальных магазинах разных городов с пакетами, перекрытиями и фоновым шумом.
9 тысяч изображений размечены попредметно с указанием количества и общего веса упаковки.
Точность нейросетей, обученных на этих данных, может достигать 92%, что должно помочь ритейлерам сократить убытки от ручной идентификации весового товара.
Статья с описанием датасета опубликована в Scientific Data,
сам датасет - на Zenodo,
код и примеры моделей - на Kaggle
#PackEat #Retail #ComputerVision
———
@tsingular
Яндекс, Сколтех и ГУАП выпустили PackEat — открытый набор из 100 тысяч снимков фруктов и овощей для обучения систем компьютерного зрения в ритейле.
Датасет покрывает 34 вида и 65 сортов продуктов, снятых в реальных магазинах разных городов с пакетами, перекрытиями и фоновым шумом.
9 тысяч изображений размечены попредметно с указанием количества и общего веса упаковки.
Точность нейросетей, обученных на этих данных, может достигать 92%, что должно помочь ритейлерам сократить убытки от ручной идентификации весового товара.
Статья с описанием датасета опубликована в Scientific Data,
сам датасет - на Zenodo,
код и примеры моделей - на Kaggle
#PackEat #Retail #ComputerVision
———
@tsingular
🔥11👏3❤1⚡1✍1