Технозаметки Малышева
8.24K subscribers
3.69K photos
1.38K videos
40 files
3.89K links
Новости инноваций из мира Искусственного Интеллекта. 🤖

Всё об ИИ, ИТ трендах и Технологической Сингулярности.

🤖: @ai_gptfreebot [бесплатный бот]
✍️: @tsingular_bot [каталог ботов и курсов]

💸[поддержка]: pay.cloudtips.ru/p/c8960bbb
Download Telegram
Microsoft презентовала Phi-3-vision - компактную мультимодальную модель ИИ для анализа изображений и текста

Microsoft выпустила Phi-3-vision - небольшую языковую модель с возможностью анализа изображений, оптимизированную для мобильных устройств.
Модель с 4.2 млрд параметров может отвечать на вопросы по изображениям и диаграммам, но не генерирует новые картинки.
Phi-3-vision - часть линейки Phi-3 наряду с Phi-3-mini, Phi-3-small и Phi-3-medium.
NVIDIA и Microsoft совместно оптимизируют модели Phi-3 для GPU NVIDIA и Azure.

Доступно на HF: https://huggingface.co/microsoft/Phi-3-vision-128k-instruct

#Phi-3 #VisionAI #Azure
-------
@tsingular
Raspberry Pi и Hailo выпустили AI Kit для интеграции ИИ в Raspberry Pi 5

Raspberry Pi совместно с Hailo представили новый набор для интеграции ИИ в популярный одноплатный компьютер Raspberry Pi 5.
Набор включает модуль M.2 HAT+ с предустановленным ускорителем ИИ Hailo-8L, обеспечивающим производительность до 13 ТОПС.
Raspberry Pi AI Kit позволяет создавать приложения компьютерного зрения на базе ИИ с низкой задержкой и энергопотреблением.
Hailo предоставляет библиотеку оптимизированных предобученных моделей нейросетей.
Набор поддерживает одновременную работу с 1-2 камерами и интегрируется с rpicam-apps, Picamera2 и GStreamer.
Цена - $70, доступен у официальных реселлеров Raspberry Pi.

Теперь и на Raspberry Pi можно запускать нейросети.
Скоро любой школьник сможоет собрать C3PO или R2D2! 🤖💻

#RaspberryPi #Hailo #VisionAI
-------
@tsingular
👍2
Forwarded from Machinelearning
⚡️ HunyuanOCR: открытая OCR-модель, которая рвёт бенчмарки при размере всего 1B

Tencent выложила в open-source новую модель HunyuanOCR.

Это компактная, быстрая и полностью готовая end-to-end система для OCR, построенная на мультимодальной архитектуре Hunyuan.

Главное - при размере только 1 миллиард параметров она показывает результаты уровня крупных моделей и стоит в разы дешевле в запуске.

Топ по бенчмаркам
860 на OCRBench среди всех моделей до 3B
94.1 на OmniDocBench - лучший результат в задачах распознованяисложных документов

🌐 Что умеет HunyuanOCR
Модель закрывает практически все типы OCR задач
• текст на улицах, витринах, табличках
• рукописный текст и художественные шрифты
• сложные документы: таблицы, формулы, встроенный HTML и LaTeX
• субтитры в видео
• перевод текста на фото end-to-end сразу на 14 языков

Это не каскадный пайплайн, а единое решение
Один запрос и одно инференс-прогон дают готовый результат.

Это быстрее, надёжнее и удобнее, чем традиционные OCR-цепочки.

📌 Project Page
web: https://hunyuan.tencent.com/vision/zh?tabIndex=0
mobile: https://hunyuan.tencent.com/open_source_mobile?tab=vision&tabIndex=0
🔗 GitHub
https://github.com/Tencent-Hunyuan/HunyuanOCR
🤗 Hugging Face
https://huggingface.co/tencent/HunyuanOCR
📄 Technical Report
https://github.com/Tencent-Hunyuan/HunyuanOCR/blob/main/HunyuanOCR_Technical_Report.pdf

@ai_machinelearning_big_data


#HunyuanOCR #TencentAI #OCR #VisionAI #DeepLearning #Multimodal #AIModels #OpenSourceAI #ComputerVision #DocumentAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥932👍1