Sakana AI впервые провела реальный эксперимент: три научные статьи, полностью сгенерированные ИИ (The AI Scientist-v2), были отправлены на слепое рецензирование на ICLR Workshop 2025.
Одна из них получила баллы выше среднего уровня принятия — лучше многих статей, написанных людьми. Это исторический момент в научной публикационной практике.
Статьи были на 100% созданы AI — от идеи до финального форматирования и списка литературы.
Человек не правил ни одного слова: только выбрал тему и три лучшие статьи из набора, сгенерированного AI.
В ICLR Workshop было отправлено 3 статьи из 43 (≈7%) — рецензенты знали, что среди них есть AI-работы, но не знали, какие именно.
- 2 статьи были отклонены.
- 1 статья прошла, получив баллы:
Средняя оценка статьи: 6.33 — это выше, чем у многих человеческих работ, принятых на воркшоп.
— Придумывает научные идеи
— Пишет и запускает код для экспериментов
— Анализирует результаты, строит графики
— Сама пишет статью в научном формате
— И… сама себя рецензирует
@ai_machinelearning_big_data
#ai #ml #Sakana
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍56🔥36❤20😁6🌚5😨5🤔1
This media is not supported in your browser
VIEW IN TELEGRAM
Sakana AI представили Sudoku-Bench - набор классических и продвинутых судоку-задач, который проверяет не память модели, а её способность рассуждать, понимать новые правила и держать всю логику пазла в голове.
Они протестировали современные модели, включая GPT-5 и методы тонкой настройки вроде GRPO и thought-cloning.
Главное:
GPT-5 стала первой моделью, которая уверенно решает часть сложных задач и показала около 33 % успешных решений на наборе challenge_100. Ранее ни одна LLM не справлялась даже с обычным 9×9.
Но треть решённых - это всё ещё мало: большая часть задач остаётся нерешённой, особенно варианты с необычными правилами.
Ключевая трудность в том, что такие головоломки требуют не просто следовать правилам, а уметь понять незнакомые ограничения, найти стратегию «входа», просчитывать ходы вперёд и сохранять глобальную согласованность. Модели часто делают правильные локальные шаги, но теряют общую структуру.
GRPO и thought-cloning дают улучшения, но пока не позволяют моделям преодолеть сложные варианты. Даже с обучением на человеческих примерах ИИ быстро «запутывается» в длинных логических цепочках.
Sudoku-Bench - это тест на реальное рассуждение, а не на подбор паттернов. Он проверяет пространственное мышление, логику, способность адаптироваться и работать с новыми правилами. Прогресс на таких задачах - показатель движения к более структурному и осмысленному ИИ.
Авторы предлагают Sudoku-Bench как стандарт, по которому можно судить, насколько модели действительно умеют думать. Для будущих систем важны не просто большие параметры, а развитая логика, планирование и умение работать с новыми структурами задач.
@ai_machinelearning_big_data
#ai #ml #sakana
Please open Telegram to view this post
VIEW IN TELEGRAM
❤57👍26🥰7🔥5