📄 PaddleOCR-VL (0.9B) — компактная Vision-Language модель нового поколения
Команда Baidu AI представила PaddleOCR-VL (0.9B) — сверхлёгкую VLM-модель, которая достигает SOTA-точности в задачах распознавания:
- текстов,
- таблиц,
- формул,
- графиков
💡 Под капотом:
- NaViT - динамический vision-энкодер
- ERNIE - облегчённая языковая модель от Baidu
⚡️ Поддержка 109 языков.
🟠 GitHub: https://github.com/PaddlePaddle/PaddleOCR)
🟠 HuggingFace: https://huggingface.co/PaddlePaddle/PaddleOCR-VL
🟠 Docs https://paddleocr.ai/latest/en/index.html
@ai_machinelearning_big_data
#BaiduAI #PaddlePaddle #Ernie #PaddleOCR #VisionLanguage #AI #OCR
Команда Baidu AI представила PaddleOCR-VL (0.9B) — сверхлёгкую VLM-модель, которая достигает SOTA-точности в задачах распознавания:
- текстов,
- таблиц,
- формул,
- графиков
💡 Под капотом:
- NaViT - динамический vision-энкодер
- ERNIE - облегчённая языковая модель от Baidu
@ai_machinelearning_big_data
#BaiduAI #PaddlePaddle #Ernie #PaddleOCR #VisionLanguage #AI #OCR
Please open Telegram to view this post
VIEW IN TELEGRAM
❤55🔥30👍17😁2💘1
PaddlePaddle обновили свою линейку PaddleOCR-VL, выпустив PaddleOCR-VL-1.5 - компактную VLM на 0.9 млрд. параметров на базе ERNIE-4.5-0.3B-Paddle. Несмотря на скромный размер, в задачах разбора документов она показывает SOTA-результаты.
На тесте OmniDocBench v1.5 модель выбила 94.5% точности, обойдя не только прошлую версию, но и более тяжелых конкурентов.
Фишка обновления - упор на полевые условия. Модель специально учили работать с плохими исходниками: кривыми сканами, бликами от мониторов и мятыми страницами.
Попутно сделали бенчмарк Real5-OmniDocBench, который гоняет модели по 5 сценариям: сканирование, перекосы, деформация листа, фото с экрана и плохое освещение.
Модель работает с
transformers, дружит с Flash Attention 2 и, само собой, поддерживается PaddlePaddle 3.2.1.Если нужно быстро поднять сервис - есть готовый Docker-образ.
Если нужен полноценный постраничный парсинг всего документа, лучше использовать официальный пакет PaddleOCR. Реализация через transformers пока ограничена только распознаванием отдельных элементов и споттингом.
В пайплайн встроили логику препроцессинга. Если картинка меньше 1500 пикселей, она автоматом апскейлится фильтром Lanczos. При этом есть потолок в 1.6 млн. пикселей для споттинга, это чтобы не перегружать память GPU и сохранить читаемость мелкого шрифта.
@ai_machinelearning_big_data
#AI #ML #VL #OCR #PaddleOCR
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤52🔥25👍19👌2🦄2