Forwarded from Machinelearning
🐋 DeepSeek выпустили DeepSeek-OCR 2 - новое поколение OCR с SOTA качеством
DeepSeek представили DeepSeek-OCR 2 - 3B модель для продвинутого понимания изображений, документов и OCR, которая выходит на уровень SOTA.
Ключевая новинка - DeepEncoder V2.
В отличие от классических vision LLM, которые «читают» картинку как сетку (слева-направо, сверху-вниз), DeepEncoder V2 работает ближе к тому, как читает человек:
- Сначала формируется глобальное понимание изображения
- Затем модель определяет логический порядок чтения — что важно первым, что дальше
Что это даёт на практике
📄 Лучше работает со сложными макетами документов
📊 Корректно читает таблицы
🧾 Связывает подписи и значения
📰 Понимает колонки и структурированный текст
🔀 Надёжнее обрабатывает смесь текста и визуальной структуры
По качеству
- Обходит Gemini 3 Pro на ряде бенчмарков
- Даёт >4% прироста по сравнению с прошлой версией DeepSeek-OCR
И это при размере модели всего 3B параметров.
Можно запускать и дообучать
Теперь DeepSeek-OCR 2 можно удобно запускать и fine-tune через Unsloth по готовому гайду.
🔗 Guide: https://unsloth.ai/docs/models/deepseek-ocr-2
🔗 Model: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
@ai_machinelearning_big_data
#DeepSeek #ocr #opensource
DeepSeek представили DeepSeek-OCR 2 - 3B модель для продвинутого понимания изображений, документов и OCR, которая выходит на уровень SOTA.
Ключевая новинка - DeepEncoder V2.
В отличие от классических vision LLM, которые «читают» картинку как сетку (слева-направо, сверху-вниз), DeepEncoder V2 работает ближе к тому, как читает человек:
- Сначала формируется глобальное понимание изображения
- Затем модель определяет логический порядок чтения — что важно первым, что дальше
Что это даёт на практике
📄 Лучше работает со сложными макетами документов
📊 Корректно читает таблицы
🧾 Связывает подписи и значения
📰 Понимает колонки и структурированный текст
🔀 Надёжнее обрабатывает смесь текста и визуальной структуры
По качеству
- Обходит Gemini 3 Pro на ряде бенчмарков
- Даёт >4% прироста по сравнению с прошлой версией DeepSeek-OCR
И это при размере модели всего 3B параметров.
Можно запускать и дообучать
Теперь DeepSeek-OCR 2 можно удобно запускать и fine-tune через Unsloth по готовому гайду.
🔗 Guide: https://unsloth.ai/docs/models/deepseek-ocr-2
🔗 Model: https://huggingface.co/deepseek-ai/DeepSeek-OCR-2
@ai_machinelearning_big_data
#DeepSeek #ocr #opensource
❤13👍4🔥3