Машинное обучение RU

⚡️NVIDIA выпустили Eagle 2 — 1B, 2B и 9B VLM.

Eagle 2 - это обновление семейство мощных vision language моделей.

Модель 9B превосходит GPT4o ChartQA, OCRBench и MathVista, а также Llama 3.2 Vision 90B и llava 70B 🔥

Может работать с длинным контекстом, поддерживает 4K, HD.

> Eagle2-9B превосходит InternVL2-8B и MiniCPM-v2.6 по всем 14 тестам
> Он превосходит Qwen2-VL-7B в 9 из 14 тестов и превосходит его в OpenCompass
> Конкурирует с более крупными моделями, такими как InternVL2-26B, LLaVa-OneVision-72B и LLaMa-3.2-90B-Vision
> Eagle2-9B превосходит GPT-4o на ChartQA, OCRBench и MathVista и близок к GPT-4o на DocVQA, MMStar, AI2D и OpenCompass
> В открытом доступе выложены модель и чекпоинты

🤗

Hf: https://huggingface.co/collections/nvidia/eagle-2-6764ba887fa1ef387f7df067

@ai_machinelearning_big_data

#eagle #nvidia #vision #ml #ai

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥3👍1😁1

2.51K views12:07

Машинное обучение RU

👁️🧠 R-4B: маленькая, но умная мультимодальная модель

Исследователи представили R-4B — vision-модель с 4B параметров, которая догоняет и даже обгоняет 16B аналоги в сложных визуальных задачах рассуждения.

✨ В чём фишка:
- Модель сама решает, думать пошагово или отвечать сразу.
- На простых задачах — короткий ответ, экономия токенов.
- На сложных — развёрнутый reasoning со «scratchpad».

⚙️ Как обучали:
1. Дали два режима — reasoning (с тэгами `<think>…</think>`) и direct (пустые `<think></think>`).
2. Использовали Bi-mode Policy Optimization: для каждого промпта модель генерирует оба ответа, система оценивает и учит, когда стоит «думать».

📊 Итог:
- На лёгких задачах R-4B работает быстро и экономно.
- На тяжёлых — разворачивает reasoning и показывает качество на уровне 16B моделей, оставаясь компактной.
- Новый SOTA на 25 бенчмарках.

🔗 Paper: arxiv.org/abs/2508.21113

#AI #Vision #Multimodal #Research

🔥8❤3👍2

2.32K views16:34

About

Blog

Apps

Platform