Forwarded from Технозаметки Малышева
🧠 ИИ и Олимпиадная Математика: Почему Умнейшие Модели Провалились на USAMO-2025
Интересная ситуация: топовые модели ИИ, которые, казалось бы, уже решают сложные математические проблемы, с треском провалились на олимпиадных задачах для школьников! Исследователи из ETH Zurich и INSAIT протестировали новейшие модели на задачах математической олимпиады США (USAMO) 2025 года — и результаты оказались так себе.
Технические детали теста
1. Подопытные: O3-Mini, O1-Pro, Claude 3.7, QWQ-32B, DeepSeek R1 и Gemini Flash-Thinking — одни из самых сильных моделей за последние месяцы.
2. Методология: Каждая модель получала задачу, должна была предоставить полное доказательство в формате LaTeX. Решения анонимизировались и оценивались экспертами-математиками (бывшими участниками IMO).
3. Система оценки: 7 баллов за задачу, 42 максимум за все задачи, с возможностью получения частичных баллов за значимый прогресс.
4. Результат: Лучшая модель (R1) набрала всего 2 балла из 42 возможных — это меньше 5%! Из ~150 проверенных решений ни одно не получило максимальный балл.
Типы ошибок AI-математиков
1. Логические провалы (самые частые): необоснованные шаги, ошибочные рассуждения, неверная интерпретация предыдущих результатов.
2. Неоправданные предположения: модели часто принимали критические шаги доказательства за "тривиальные", не доказывая их (особенно O3-Mini).
3. Недостаток креативности: большинство моделей раз за разом пыталось использовать одну и ту же неверную стратегию решения.
4. Алгебраические ошибки: удивительно, но с базовыми вычислениями модели справлялись неплохо (кроме R1).
Интересные артефакты ИИ-решателей
1. "Боксинг" ответов: Модели часто помещали ответы в конструкцию \boxed{} даже когда это не требовалось — побочный эффект их обучения с подкреплением, которое поощряет четкое маркирование ответов.
2. Чрезмерная обобщение паттернов: Модели часто замечали закономерность на малых значениях и безосновательно переносили её на общий случай.
3. Структура ответов: O3-Mini и O1-Pro давали более структурированные и понятные решения, QWQ и Flash-Thinking создавали хаотичные ответы.
Выводы
1. Проверка — обязательна: Модели абсолютно уверены в своих решениях даже когда грубо ошибаются. Без экспертной проверки их математические выкладки использовать опасно.
2. Ограничения в формальных доказательствах: Хотя ИИ хорошо работает с числовыми ответами, в формальных доказательствах он пока что слаб — это нужно учитывать при применении в образовании или научных исследованиях.
3. Перспективы автоматической проверки: Исследователи также пытались использовать ИИ для проверки решений других моделей — и снова провал! ИИ-проверяющие ставили в 10-20 раз больше баллов, чем заслуживали решения.
В целом, несмотря на весь хайп вокруг математических способностей ИИ, исследование показывает, что даже лучшие модели далеки от настоящего математического мышления. Они могут манипулировать символами и следовать шаблонам, но совершенно не понимают глубинную логику.
В общем, в критических областях использовать ИИ нужно пока без фанатизма, придерживая человека в цепочке решений.
#бенчмарки
———
@tsingular
Интересная ситуация: топовые модели ИИ, которые, казалось бы, уже решают сложные математические проблемы, с треском провалились на олимпиадных задачах для школьников! Исследователи из ETH Zurich и INSAIT протестировали новейшие модели на задачах математической олимпиады США (USAMO) 2025 года — и результаты оказались так себе.
Технические детали теста
1. Подопытные: O3-Mini, O1-Pro, Claude 3.7, QWQ-32B, DeepSeek R1 и Gemini Flash-Thinking — одни из самых сильных моделей за последние месяцы.
2. Методология: Каждая модель получала задачу, должна была предоставить полное доказательство в формате LaTeX. Решения анонимизировались и оценивались экспертами-математиками (бывшими участниками IMO).
3. Система оценки: 7 баллов за задачу, 42 максимум за все задачи, с возможностью получения частичных баллов за значимый прогресс.
4. Результат: Лучшая модель (R1) набрала всего 2 балла из 42 возможных — это меньше 5%! Из ~150 проверенных решений ни одно не получило максимальный балл.
Типы ошибок AI-математиков
1. Логические провалы (самые частые): необоснованные шаги, ошибочные рассуждения, неверная интерпретация предыдущих результатов.
2. Неоправданные предположения: модели часто принимали критические шаги доказательства за "тривиальные", не доказывая их (особенно O3-Mini).
3. Недостаток креативности: большинство моделей раз за разом пыталось использовать одну и ту же неверную стратегию решения.
4. Алгебраические ошибки: удивительно, но с базовыми вычислениями модели справлялись неплохо (кроме R1).
Интересные артефакты ИИ-решателей
1. "Боксинг" ответов: Модели часто помещали ответы в конструкцию \boxed{} даже когда это не требовалось — побочный эффект их обучения с подкреплением, которое поощряет четкое маркирование ответов.
2. Чрезмерная обобщение паттернов: Модели часто замечали закономерность на малых значениях и безосновательно переносили её на общий случай.
3. Структура ответов: O3-Mini и O1-Pro давали более структурированные и понятные решения, QWQ и Flash-Thinking создавали хаотичные ответы.
Выводы
1. Проверка — обязательна: Модели абсолютно уверены в своих решениях даже когда грубо ошибаются. Без экспертной проверки их математические выкладки использовать опасно.
2. Ограничения в формальных доказательствах: Хотя ИИ хорошо работает с числовыми ответами, в формальных доказательствах он пока что слаб — это нужно учитывать при применении в образовании или научных исследованиях.
3. Перспективы автоматической проверки: Исследователи также пытались использовать ИИ для проверки решений других моделей — и снова провал! ИИ-проверяющие ставили в 10-20 раз больше баллов, чем заслуживали решения.
В целом, несмотря на весь хайп вокруг математических способностей ИИ, исследование показывает, что даже лучшие модели далеки от настоящего математического мышления. Они могут манипулировать символами и следовать шаблонам, но совершенно не понимают глубинную логику.
В общем, в критических областях использовать ИИ нужно пока без фанатизма, придерживая человека в цепочке решений.
#бенчмарки
———
@tsingular
5👍28👎1