🧠 ByteDance показывает: моделям для рассуждений нужны не только слова, но и картинки
MIRA - Multimodal Imagination for Reasoning Assessment, тест, который измеряет, как модели рассуждают, если им дать промежуточные визуальные шаги.
Суть очень простая и понятная:
- Там, где текст не помогает, картинки резко улучшают мышление модели.
- Если дать модели рисунки промежуточных шагов, точность в среднем растёт на 33.7%.
- Бенчмарк включает 546 задач в 20 категориях, где нужно «видеть», а не просто читать: кубики, зеркала, траектории, силы и тд.
Как устроена проверка:
- прямой вопрос
- рассуждение текстом
- рассуждение с визуальными шагами (скетчами)
Что выяснилось:
- Только текст часто делает хуже, потому что слова плохо описывают пространство.
- Если дать модели картинки - результат сильно улучшается, особенно в точных науках.
В бенчмарке: 546 задач по геометрии, физике, логическим головоломкам и причинным связям.
Режимы тестирования:
• Direct - модель отвечает напрямую
• Text-CoT - текстовый chain-of-thought
• Visual-CoT - модель рассуждает через рисунки и визуальные шаги
Ключевые результаты:
• Ни одна модель не превысила 20% точности в Direct-режиме (GPT-5 ~16.5%)
• Text-CoT часто ухудшает результат (например, −18% у Gemini 2.5 Pro)
• Visual-CoT даёт средний прирост +33.7%, особенно заметный в задачах по физике
Главный вывод:
Моделям нужен *визуальный способ думать*.
Им нужно уметь читать простые схемы, понимать их и использовать в рассуждениях, иначе многие задачи просто остаются нерешаемыми.
Статья: arxiv.org/abs/2511.02779
@ai_machinelearning_big_data
#ByteDance
MIRA - Multimodal Imagination for Reasoning Assessment, тест, который измеряет, как модели рассуждают, если им дать промежуточные визуальные шаги.
Суть очень простая и понятная:
- Там, где текст не помогает, картинки резко улучшают мышление модели.
- Если дать модели рисунки промежуточных шагов, точность в среднем растёт на 33.7%.
- Бенчмарк включает 546 задач в 20 категориях, где нужно «видеть», а не просто читать: кубики, зеркала, траектории, силы и тд.
Как устроена проверка:
- прямой вопрос
- рассуждение текстом
- рассуждение с визуальными шагами (скетчами)
Что выяснилось:
- Только текст часто делает хуже, потому что слова плохо описывают пространство.
- Если дать модели картинки - результат сильно улучшается, особенно в точных науках.
В бенчмарке: 546 задач по геометрии, физике, логическим головоломкам и причинным связям.
Режимы тестирования:
• Direct - модель отвечает напрямую
• Text-CoT - текстовый chain-of-thought
• Visual-CoT - модель рассуждает через рисунки и визуальные шаги
Ключевые результаты:
• Ни одна модель не превысила 20% точности в Direct-режиме (GPT-5 ~16.5%)
• Text-CoT часто ухудшает результат (например, −18% у Gemini 2.5 Pro)
• Visual-CoT даёт средний прирост +33.7%, особенно заметный в задачах по физике
Главный вывод:
Моделям нужен *визуальный способ думать*.
Им нужно уметь читать простые схемы, понимать их и использовать в рассуждениях, иначе многие задачи просто остаются нерешаемыми.
Статья: arxiv.org/abs/2511.02779
@ai_machinelearning_big_data
#ByteDance
🤔51👍41❤16🔥5👏4👨💻2