Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
📄 Dolphin — новая OCR модель ByteDance для понимания сложных документов в виде изображений
Dolphin — это мультимодальная модель, которая умеет разбирать сканы и фотографии документов, включая текст, таблицы, формулы и графики.
Подойдет для автоматизации чтения и структурирования PDF-файлов, отсканированных отчётов и научных статей.
Как работает модель:
1️⃣ Анализ страницы — модель определяет порядок элементов доцентов так, как читает человек
2️⃣ Разбор содержимого — параллельно обрабатываются абзацы, таблицы, формулы и другие элементы, используя специальные встроенные промпты
Архитектура:
• Визуальный энкодер — Swin Transformer
• Текстовый декодер — MBart
• Управление через промпты
📌 Возможности:
• Постраничная обработка документа
• Точечный парсинг отдельных элементов (например, таблиц)
• Высокая точность и скорость работы модели
• Открытая MIT-лицензия
Установка:
• Github
• HF
• Demo
@ai_machinelearning_big_data
#ocr #ByteDance
Dolphin — это мультимодальная модель, которая умеет разбирать сканы и фотографии документов, включая текст, таблицы, формулы и графики.
Подойдет для автоматизации чтения и структурирования PDF-файлов, отсканированных отчётов и научных статей.
Как работает модель:
1️⃣ Анализ страницы — модель определяет порядок элементов доцентов так, как читает человек
2️⃣ Разбор содержимого — параллельно обрабатываются абзацы, таблицы, формулы и другие элементы, используя специальные встроенные промпты
Архитектура:
• Визуальный энкодер — Swin Transformer
• Текстовый декодер — MBart
• Управление через промпты
📌 Возможности:
• Постраничная обработка документа
• Точечный парсинг отдельных элементов (например, таблиц)
• Высокая точность и скорость работы модели
• Открытая MIT-лицензия
Установка:
git clone https://github.com/ByteDance/Dolphin.git
cd Dolphin• Github
• HF
• Demo
@ai_machinelearning_big_data
#ocr #ByteDance
👍5❤1🔥1
🤖 ByteDance Seed представил **AgentGym-RL** — новый единый фреймворк для обучения агентов с подкреплением.
🔹 Первый универсальный RL-фреймворк для обучения агентов в многошаговых задачах (без SFT).
🔹 Модульная и расширяемая архитектура: web, поиск, игры, embodied-среды и научные задачи.
🔹 Агенты достигают и даже превосходят коммерческие модели на 27 задачах.
▪proj: https://agentgym-rl.github.io
▪repo: https://github.com/woooodyy/AgentGym-RL
#RL #AI #ByteDance #AgentGym #ReinforcementLearning #Agents
🔹 Первый универсальный RL-фреймворк для обучения агентов в многошаговых задачах (без SFT).
🔹 Модульная и расширяемая архитектура: web, поиск, игры, embodied-среды и научные задачи.
🔹 Агенты достигают и даже превосходят коммерческие модели на 27 задачах.
▪proj: https://agentgym-rl.github.io
▪repo: https://github.com/woooodyy/AgentGym-RL
#RL #AI #ByteDance #AgentGym #ReinforcementLearning #Agents
❤2