Технозаметки Малышева

Microsoft презентовала Phi-3-vision - компактную мультимодальную модель ИИ для анализа изображений и текста

Microsoft выпустила Phi-3-vision - небольшую языковую модель с возможностью анализа изображений, оптимизированную для мобильных устройств.
Модель с 4.2 млрд параметров может отвечать на вопросы по изображениям и диаграммам, но не генерирует новые картинки.
Phi-3-vision - часть линейки Phi-3 наряду с Phi-3-mini, Phi-3-small и Phi-3-medium.
NVIDIA и Microsoft совместно оптимизируют модели Phi-3 для GPU NVIDIA и Azure.

Доступно на HF: https://huggingface.co/microsoft/Phi-3-vision-128k-instruct

#Phi-3 #VisionAI #Azure
-------
@tsingular

117 viewsedited 16:15

Raspberry Pi и Hailo выпустили AI Kit для интеграции ИИ в Raspberry Pi 5

Raspberry Pi совместно с Hailo представили новый набор для интеграции ИИ в популярный одноплатный компьютер Raspberry Pi 5.
Набор включает модуль M.2 HAT+ с предустановленным ускорителем ИИ Hailo-8L, обеспечивающим производительность до 13 ТОПС.
Raspberry Pi AI Kit позволяет создавать приложения компьютерного зрения на базе ИИ с низкой задержкой и энергопотреблением.
Hailo предоставляет библиотеку оптимизированных предобученных моделей нейросетей.
Набор поддерживает одновременную работу с 1-2 камерами и интегрируется с rpicam-apps, Picamera2 и GStreamer.
Цена - $70, доступен у официальных реселлеров Raspberry Pi.

Теперь и на Raspberry Pi можно запускать нейросети.
Скоро любой школьник сможоет собрать C3PO или R2D2! 🤖💻

#RaspberryPi #Hailo #VisionAI
-------
@tsingular

👍2

131 viewsedited 07:37

Технозаметки Малышева

Forwarded from Machinelearning

⚡️

HunyuanOCR: открытая OCR-модель, которая рвёт бенчмарки при размере всего 1B

Tencent выложила в open-source новую модель HunyuanOCR.

Это компактная, быстрая и полностью готовая end-to-end система для OCR, построенная на мультимодальной архитектуре Hunyuan.

Главное - при размере только 1 миллиард параметров она показывает результаты уровня крупных моделей и стоит в разы дешевле в запуске.

⚡ Топ по бенчмаркам
• 860 на OCRBench среди всех моделей до 3B
• 94.1 на OmniDocBench - лучший результат в задачах распознованяисложных документов

🌐 Что умеет HunyuanOCR
Модель закрывает практически все типы OCR задач
• текст на улицах, витринах, табличках
• рукописный текст и художественные шрифты
• сложные документы: таблицы, формулы, встроенный HTML и LaTeX
• субтитры в видео
• перевод текста на фото end-to-end сразу на 14 языков

Это не каскадный пайплайн, а единое решение
Один запрос и одно инференс-прогон дают готовый результат.

Это быстрее, надёжнее и удобнее, чем традиционные OCR-цепочки.

📌 Project Page
web: https://hunyuan.tencent.com/vision/zh?tabIndex=0
mobile: https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
🔗 GitHub
https://github.com/Tencent-Hunyuan/HunyuanOCR
🤗 Hugging Face
https://huggingface.co/tencent/HunyuanOCR
📄 Technical Report
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf

@ai_machinelearning_big_data

#HunyuanOCR #TencentAI #OCR #VisionAI #DeepLearning #Multimodal #AIModels #OpenSourceAI #ComputerVision #DocumentAI

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥9⚡3❤2👍1

2.26K views12:31

About

Blog

Apps

Platform