360K subscribers
4.33K photos
816 videos
17 files
4.81K links
Погружаемся в машинное обучение и Data Science

Показываем как запускать любые LLm на пальцах.

По всем вопросам - @haarrp

@itchannels_telegram -🔥best channels

Реестр РКН: clck.ru/3Fmqri
Download Telegram
🧠 ByteDance показывает: моделям для рассуждений нужны не только слова, но и картинки

MIRA - Multimodal Imagination for Reasoning Assessment, тест, который измеряет, как модели рассуждают, если им дать промежуточные визуальные шаги.

Суть очень простая и понятная:

- Там, где текст не помогает, картинки резко улучшают мышление модели.
- Если дать модели рисунки промежуточных шагов, точность в среднем растёт на 33.7%.
- Бенчмарк включает 546 задач в 20 категориях, где нужно «видеть», а не просто читать: кубики, зеркала, траектории, силы и тд.

Как устроена проверка:

- прямой вопрос
- рассуждение текстом
- рассуждение с визуальными шагами (скетчами)

Что выяснилось:

- Только текст часто делает хуже, потому что слова плохо описывают пространство.
- Если дать модели картинки - результат сильно улучшается, особенно в точных науках.

В бенчмарке: 546 задач по геометрии, физике, логическим головоломкам и причинным связям.

Режимы тестирования:
• Direct - модель отвечает напрямую
• Text-CoT - текстовый chain-of-thought
• Visual-CoT - модель рассуждает через рисунки и визуальные шаги

Ключевые результаты:
• Ни одна модель не превысила 20% точности в Direct-режиме (GPT-5 ~16.5%)
• Text-CoT часто ухудшает результат (например, −18% у Gemini 2.5 Pro)
• Visual-CoT даёт средний прирост +33.7%, особенно заметный в задачах по физике

Главный вывод:

Моделям нужен *визуальный способ думать*.
Им нужно уметь читать простые схемы, понимать их и использовать в рассуждениях, иначе многие задачи просто остаются нерешаемыми.

Статья: arxiv.org/abs/2511.02779

@ai_machinelearning_big_data

#ByteDance
🤔51👍4116🔥5👏4👨‍💻2