Data Secrets

OpenAI выпустили бенчмарк GDPval, который оценивает способности ИИ в реальных экономических задачах

TL;DR: пытаются ответить на вечный вопрос «Заменит ли нас предсказание следующего токена». Ответ: нет, ну уже сейчас сетки могут ускорить и удешевить работу.

– Берут 9 крупнейших секторов экономики США, которые дают наибольший вклад в ВВП.
– Для каждого сектора взяли 5 профессий, которые создают наибольшую часть зарплат в секторе + выполняют в основном цифровую работу.
– Отобрали из этих профессий экспертов с опытом > 4 лет (большинство оказалось 10+ лет опыта) и посадили их создавать задачи.

Каждая задача – это реальный рабочий кейс. В среднем одна таска из бенчмарка выполняется человеком за 7-9 часов, но на некоторые требуются дни.

Оценивать пытались максимально честно. Эксперт-оценщик видел только задачу и два решения. Одно сделано моделью, другое человеком (или другой моделью). Но эксперт не знает, где какое, и выбирает, исходя только из качества результата. Так измеряется win-rate, то есть доля случаев, когда ИИ не хуже человека.

OpenAI также пытались разработать авто-оценщика. Получилось, что он совпадает с людьми в 66% случаев. Как будто немного, но задача в целом невыполнимая, учитывая что сами эксперты совпадают между собой в 71% случаев 😁

Ну так вот, результаты:

– Лучше всего себя показал Claude Opus 4.1, он выигрывал или был на уровне человека в 47.6% задач.

– GPT-5 чуть отстает, зато сильнее на точности и следовании инструкциям.

– Все модели периодически галлюцинируют (да и задачки в бенче пока довольно односложные). НО даже если считать, что человек сначала пробует использовать модель, а потом при необходимости доделывает работу сам, время выполнения может сократиться в 1.4 раза, а стоимость – почти в 1.6 раза.

На самом деле, хорошая работа, закрывающая большую дырку в бенчмарках. Ждать реальных экономических эффектов, чтобы оценить возможности ИИ – это супер долго (для компьютеров вот потребовались десятилетия). А пытаться оценивать через задачки по математике или теоретические научные вопросы – ну, мягко говоря, провальная затея. Тут – хотя бы какое-то отражение реальной картины.

cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤64👍36🔥12😁2🤔2

20K views08:19