Data Secrets

Google релизнули Alpha Geometry 2: модель решает задачи по геометрии на уровне золотого медалиста Международной Математической Олимпиады

Первая версия Alpha Geometry вышла практически ровно год назад, и относительно нее новая версия сильно прокачалась: если предшественница решала 54% всех задач по геометрии с IMO 2000-2024, то AG2 справляется с 84%. Это, если что, на 84% больше, чем результат o1 👽

При этом AG2 не совсем нейросеть. Это нейро-символьная система. То есть AG2 объединяет в себе и LLM, и символьные строгие методы для вычислений и доказательств. В общих чертах AG2 потрошится на три основных составляющих:

1. Зафайнтюненная Gemini, которой скормили 300 млн теорем. Модель анализирует текст задачи и диаграммы и как бы интуитивно намечает решение: подсказывает, какие свойства фигур могут быть полезны, какие теоремы могут пригодиться и так далее. Она также служит своеобразным энкодером и формализует текст задачи в доменный язык, который умеет воспринимать символьный модуль.

2. Символьный движок DDAR2, в который сгружаются все результаты Gemini. Он берет на себя доказательства по строгим правилам геометрии и проверку и расширение предложенных LM решений с помощью дедукции. В новый DDAR добавили поддержку сложных геометрических конструкций, а также умение работать с "двойными" точками (такие возникают в куче примеров, наверное все помнят со школы задачи вида "докажите, что такая-то точка пересечения лежит на такой-то окружности").

А еще по сравнению с DDAR1 DDAR2 сильно ускорили с помощью C++ реализации и оптимизированного перебора вариантов решений. Раньше все работало на брутфорсе, а сейчас алгоритм переделали и сложность уменьшилась с 𝑂(𝑁⁸) до 𝑂(𝑁³), что увеличило скорость решения в 300 раз!

3. Ну и финальное: деревья поиска SKEST. Это как раз та самая оптимизация. Классические деревья предлагают как бы один шаг решения за раз. А в SKEST мы пробуем несколько вершин разом: это присходит за счет параллельного запуска нескольких деревьев, которые могут делиться между собой найденными стратегиями.

Плюсом ко всему, Alpha Geometry 2 даже умеет автоматически строить к своим решениям рисунки. К сожалению, демо пока не выложили, зато доступна статья.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥132👍38🤯21❤16🗿6

24.3K views12:05

Data Secrets

AGI достигнут, расходимся

😁371👏34🔥21🍌4⚡3❤1❤‍🔥1

22.1K views16:44

Data Secrets

0:27

This media is not supported in your browser

VIEW IN TELEGRAM

Илья Суцкевер возвращается

… чтобы попросить денег. Reuters сообщает о том, что его компания Safe Superintelligence снова участвует в переговорах о финансировании.

При этом стартап (который, напоминаем, еще вообще ничего не выпустил) оценивается уже в минимум 20 миллиардов долларов. Для сравнения, OpenAI, которые работают уже 10 лет, оцениваются в 300 миллиардов, а основной европейский Mistral всего в 7 миллиардов.

Пока неясно, какую сумму хочет Илья, но она может быть значительной. Осенью стартап уже привлек 1 миллиард долларов, и с тех пор их оценка увеличилась в 4 раза.

😁116👍22❤14🤪12🔥5🤔3🎉2🗿2🦄2

17.6K views06:56

Альтман говорит, что у OpenAI есть внутренние модели, которые «входят» в топ-50 лучших программистов мира

«Наша первая ризонинг модель была где-то на уровне топ-миллион лучших программистов мира. Затем мы добились топ-10000. o3 находится в топ-175. Наши внутренние бенчмарки сейчас в районе топ-50, и к концу года это будет топ-1»

Были на этой недавней встрече в Токио, а также на другой в Германии (кстати OpenAI собирается открывать там офис) и другие интересные высказывания от Сэма:

«К 2035 году один датацентр ИИ будет обладать такой же интеллектуальной мощностью, как все люди и ИИ, которые сейчас существуют на Земле, вместе взятые»

«Я не могу переоценить, какого прогресса мы добьемся в ближайшие 2 года. Мы знаем, как улучшить эти модели настолько, настолько... прогресс, которого я ожидаю с февраля 2025 года по февраль 2027 года, точно будет еще более впечатляющим, чем с февраля 2023 года по февраль 2025 года»

«GPT-5 будет умнее чем я и превзойдет уровень интеллекта человека. Это будет инструмент с невероятно высоким IQ»

Верим? 🍿

Please open Telegram to view this post

VIEW IN TELEGRAM

5🤯178😁83🔥43👍31🤔29🙈16❤14🤪14🌚7🍌1😐1

24.5K views09:25

Data Secrets

Там обновилась главная математическая арена для LLM, но есть нюанс

MathArena – это платформа для оценки моделек на задачах последних математических олимпиад. Она позиционируется как «оценка LLM на незагрезненных данных», то есть на этой арене модельки гоняют только на тех новейших тестах, которые были составлены после их выхода и которые, таким образом, они точно не видели при обучении.

И вот сегодня арена обновилась но данных первого тура AIME 2025 (American Invitational Mathematics Examination, отборочный тур для американских школьников перед международной олимпиадой). Там всего 15 довольно сложных задач и они доступны здесь.

И… результаты моделей на этом тесте оказались высокими, даже очень высокими для эвала на абсолютно новых задачах. o3-mini решила 78%, а R1 65%.

Это многих удивило, поэтому кто-то из сообщества полез в Deep Research и за 10 минут из трех наугад выбранных задач нашел на просторах интернета… три. Все датируются 2024 или ранее, а это вероятность 99.9%, что в трейне они были. «Дальше я проверять не стал, потому что p-value и так слишком низкий».

Вот тебе и незагрезненные математически испытания. Конечно, организаторы ни в чем не виноваты, но кейс интересный и еще раз показывает, насколько мы далеки от непредвзятых и полностью репрезентативных эвалов LLM.

👍127🌚24🔥21❤11👨‍💻1

18.4K viewsedited 14:12

Data Secrets

По сети разлетелась новость о том, что ученые "обучили" модель уровня o1 за 50 долларов

"Скоро ИИ будет дешевле пары носков" – пишут в соцсетях. Почему это не совсем так?

Суть исследования, как написано в самой статье, была в поиске наиболее простого способа повторить результаты сложных моделей с точки зрения test-time скейлинга.

Так что фраза "обучили модель" тут сразу вводит в заслуждение. Да, модель действительно обучали, но важно не за сколько, а как. Многие пишут, что использовалась дистилляция, но и это не совсем корректно. Вот какой подход использовался на самом деле:

1. Авторы собрали 59 029 вопросов из 16 источников, включая соревнования по математике, олимпиады и тесты SAT/LSAT.

2. Из этого множества отобрали 1 000 примеров по трем критериям: сложность, разнообразие и качество.

3. Для разметки решений использовались reasoning traces, сгенерированные Gemini Flash Thinking.

4. На этих 1000 примеров зафайнтюнили готовую (даже не базовую, а уже зафайнтюненную предварительно) модель Qwen2.5-32B-Instruct. Для этого понадобилось всего 26 минут на 16 GPU H100 (5 эпох, batch size = 16, AdamW, bfloat16), что в пересчете на аренду железа действительно составляет около 50 долларов. Не мудрено, это всего 32B и 1000 (!) сэмплов.

Это и правда напоминает дистилляцию в том смысле, что базовая модель как бы учится имитировать поведение более мощной модели. Но это не дистилляция в привычном научном смысле слова. Дистилляция – это когда модель-ученик учится предсказывать вероятности выходов учителя, а тут Gemini Flash просто использовали для разметки.

К тому же крутых результатов тут добились не только за счет дообучения, но и за счет тестовой оптимизации. Авторы использовали Budget Forcing, то есть принудительно ограничивали или продлевавали размышления в процессе генерации.

Если число thinking tokens превышало порог – генерация ответа завершалась принудительно. Если требовалось больше вычислений – в конце reasoning trace добавляли слово "Wait", вынуждая модель переосмыслить ответ. Именно это, по словам самих авторов, позволило экстраполировать производительность модели без дополнительного дообучения.

И да, работа очень интересная и значимая, и 50 долларов – реально крутой результат. Но без дорогой взлослой Gemini Flash и дорогой предобученной Qwen2.5-32B-Instruct это не было бы возможно. Так что статья важна скорее с точки зрения прогресса в доступности качественных открытых моделей, а не с точки зрения понижения их стоимости.

https://arxiv.org/pdf/2501.19393

👍141🔥42❤21❤‍🔥4👌2🦄2😁1🎃1

18.7K viewsedited 10:40

Data Secrets

Сэм Альтман выложил ночью свежий блогпост про будущее с AGI. Разобрали для вас на самые интересные цитаты:

Системы, указывающие на появление AGI, уже начинают проявляться

AGI — это просто еще один инструмент в этом непрерывно растущем строительном лесу человеческого прогресса. Но с другой стороны, трудно не сказать ‘на этот раз все иначе’. Представьте мир, где все болезни излечимы, у нас намного больше времени для семьи, а творческий потенциал полностью раскрыт.

Стоимость использования AI падает в 10 раз каждые 12 месяцев. За год цена на токен от GPT-4 до GPT-4o снизилась в 150 раз.

Закон Мура менял мир в 2 раза каждые 18 месяцев; ИИ — штука невероятно более мощная

.

Интеллект AI-модели приблизительно равен логарифму используемых ресурсов.

Можно потратить любые деньги и получить предсказуемый прирост интеллекта

; законы масштабирования подтверждаются на многих порядках величины.

В новой экономической модели мира цена на многие товары резко упадет (сейчас их сдерживают стоимость труда и энергии), но цена ограниченных ресурсов — например, земли — может вырасти ещё сильнее. Баланс сил между капиталом и трудом может легко измениться.

Мы рассматриваем идею предоставления каждому жителю Земли “бюджета вычислений” для свободного использования AI.

В 2035 году любой человек должен иметь доступ к интеллектуальному потенциалу, эквивалентному всему человечеству 2025 года.

blog.samaltman.com/three-observations

🔥149👍52🤔28❤17😁8🐳6🙈6✍5🍌2🌚1😐1

19.2K views06:53

Реклама OpenAI на Суперкубке, которую они купили за 14 миллионов долларов

А теперь представьте, что вы не в теме и вообще ничего не знаете про ИИ. Поймете, что рекламируется?

🔥156🤔47😁31🙈14👍10❤8🌚6🤯5🤪4❤‍🔥3🦄1

17.7K viewsedited 09:31

Data Secrets

У Meta вышла примечательная работа про Brain-to-Text Decoding (да, это чтение мыслей)

Уже давно существуют инвазивные методы, которые могут восстановить коммуникацию людей потерявших способность говорить или двигаться. Но "инвазивный" – это значит с хирургическим вмешательством, то есть надо что-то вживлять, а это всегда риск. Что насчет неинвазивных подходов?

В Meta предложили как раз такой. Они показывали испытуемым некоторое предложение, те его запоминали, а затем набирали на клавиатуре. При этом двумя способами – EEG и MEG – фиксировалась их мозговая активность. EEG – это с помощью электродов на коже головы, а MEG – с помощью магнитных полей.

Эти записи подавали в систему Brain2Qwerty, которая пыталась восстановить текст. В Meta перепробовали много вариантов, и в итоге под капотом у Brain2Qwerty остались три составляющих:

1. сверточный модуль для извлечения вектора признаков из окон сигналов
2. трансформер (куда же без него), на выходе у которого логиты вероятности символов
3. LM для исправления ошибок трансформера на основе общих правил языка. Ее, кстати, обучали с нуля на вики

В итоге средняя ошибка на EEG получилась довольно большая (67%), а вот на MEG все оказалось гораздо лучше: 32% в среднем, а у лучших испытуемых 19%.

Все еще многовато, конечно, и с натяжкой работает в реальном времени, но зато полностью безопасно и довольно дешево по сравнению с имплантами.

ai.meta.com/research/publications/brain-to-text-decoding-a-non-invasive-approach-via-typing/

❤89👍53🔥32🤯11🤔2💯2🙈2

17.9K views11:23

Data Secrets

Microsoft выпустили статью про визуальный ризонинг

Люди используют как текстовое, так и визуальное мышление. Если мы чего-то не понимаем, мы можем нарисовать схему/таблицу/макет и станет проще. LLM так не умеют, поэтому все еще довольно плохи в пространственных рассуждениях: ведь думают они на уровне текста.

А Microsoft предложили добавить в ризонинг картинки. Это называется MVoT и по сути это генерация "визуальных" мыслей. Выглядит все примерно так:

Дано: мультимодальная авторегрессионная (это вот так) модель, мультимодальный промпт

Процесс: для каждого шага ризонинга модель помимо текста генерирует к нему логические иллюстрации. При переходе на следующую итерацию размышления картинка обновляется с учетом предыдущей схемы и контекста.

Выхлоп: текстовый вывод + итоговая схема мысленного "маршрута"

Результаты неоднозначные. MVoT тестировали на прохождении лабиринта, игре-раннере и построении алгоритма действий для робота. CoT (текст онли) иногда все еще оказывается лучше, но но жестко завязанных на обновлении действий в пространстве тасках валится, и вот тут MVoT впереди.

То есть прогресс наблюдается, но с учетом затрат на инференс с MVoT ну... В общем, для определенных задач однозначно кайф, а в целом требует оптимизаций. Тема перспективная кстати, Microsoft не одни смотрят в эту сторону, Google вот тоже писали про визуальный CoT

Прямо день крутых статей сегодня arxiv.org/pdf/2501.07542

👍80🔥30❤16😁2⚡1

17.5K views15:12

Data Secrets

⚡️

Тем временем DeepSeek выкупили домен ai.com

В 2023 его за 11 миллионов долларов купили OpenAI. До этого он принадлежал Google. Сколько за него заплатили в Китае, неизвестно.

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯229🐳60😁27❤16👍9🔥7⚡5🤪4🤔2🗿2

18.8K views15:21

Data Secrets

Илон Маск пытается купить OpenAI и настроен серьезно

Начальная ставка от его группы инвесторов за контрольный пакет акций – $97.4 млрд (1/5 Stargate). В документе также написано, что они готовы перебить любые другие ставки, если OpenAI собирается их рассматривать.

Маск не просто так проснулся сейчас. OpenAI, как мы знаем, пытается из некоммерческой организации стать коммерческой. Для этого нужно «убрать» некоммерческий совет директоров, который должен был получить компенсацию по справедливой рыночной стоимости за отказ от контроля.

Сколько им планировали заплатить OpenAI – неизвестно, но точно меньше 100 млрд. Вероятно около 30-40.

Поэтому Маск все усложнил, и поэтому то в документе и написано «перебьем любую ставку».

Альтман отказался от предложения (Маск в ответ на это назвал его мошенником), но решение будет принимать тот самый некоммерческий совет директоров. И даже если они откажутся, Альтману теперь придется платить им более чем щедро.

Ведь если переход в коммерческую организацию не завершится через 2 года, инвесторы 2024 года (которые вкладывались именно в идею ком. проекта) могут потребовать инвестиции обратно.

Сам Маск говорит, что его цель «сделать OpenAI снова Open» и опенсорснуть все их разработки.

Игра престолов в 21 веке выглядит так

🤔229🔥108😁90👍22❤21🦄6👾3❤‍🔥1

19K viewsedited 06:47

Data Secrets

Anthropic анонсировали собственный экономический индекс и в числах показали, как ИИ влияет на экономику труда

Anthropic Economic Index показывает, как люди на самом деле используют ИИ, и основан он на диалогах пользователей. Но не осуждайте: они очень бережно подходят к персональным данным, у них даже было огромное исследование на этот счет (наш разбор).

Если кратко, в том ресерче они релизовали очень умную систему анализа диалогов Clio, которая полностью автономно в несколько этапов чистит чаты от персональных данных и извлекает из них фичи. То есть люди вообще не имеют никакого доступа к текстам: только к финальным статистикам.

И вот теперь Clio используют для глубокой экономической аналитики. Вот что накопали в антропик:

➖ Уже в 36% профессий AI используется как минимум в четверти рабочих задач.

➖ В 57% случаев AI помогает пользователям (аугментация), а в 43% — заменяет их в выполнении задач (автоматизация).

➖ Больше всего AI используют разработчики, аналитики и технические писатели. Меньше всего — самые низкооплачиваемые и самые высокооплачиваемые профессии.

Прикольные нелинейные наблюдения (и графики красивые!). Для аналитики, кстати, даже привлекали экспертов социологов и экономистов.

Такую статистику, да еще и от такого крупного вендора, вообще нигде больше не увидишь. Кроме того, данные выложили в свободный доступ и они открыты для исследований (датасет на HuggingFace)

assets.anthropic.com/m/2e23255f1e84ca97/original/Economic_Tasks_AI_Paper.pdf

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤67👍40❤‍🔥7👨‍💻3🤯1😐1

20K views09:46

Data Secrets

Рисерчер из OpenAI поделился графиком прогресса по бенчмаркам

«Я сделал этот график для предстоящего выступления. Безумие, как быстро в наше время перенасыщаются бенчмарки»

Конечно, эта шкала немного необъективная. Почти все бенчмарки (или их открытые части) почти сразу после публикации попадают в трейны и получается лик, которым не полностью, но частично точно обусловлен рост метрик и «умирание» бенчмарка.

Интересно, когда на кладбище бенчей (такое существует!) попадет новый Humanity’s Last Exam. На графике он – маленькая синяя черточка справа, текущие модели OpenAI решают его на <30%

👍54🔥19❤11

17.6K views11:58

About

Blog

Apps

Platform