Data Secrets

OpenAI релизнули агентский бенчмарк PaperBench

Он оценивает способности агентов искать и безошибочно воспроизводить содержание свежих статей (важный навык для таких популярных штук, как Deep Researcher, например).

Для оценки взяли 20 докладов ICML 2024, вместе с авторами разбили каждую на подзадачи, и в целом получилось 8316 тасок на воспроизведение кода, понимание научной новизны, методологии и пр.

Казалось бы, задачи для современных агентов не очень сложные. Но, неожиданно, лучший результат – всего 21,0%, и выбил его агент на основе Claude 3.5 Sonnet (New). Скор o1-high тем временем – 13.2, а o3-mini-high – 2.6. Люди все еще справляются лучше 🚬

cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍68❤20🔥20

15.9K views19:07

Data Secrets

0:33

This media is not supported in your browser

VIEW IN TELEGRAM

Anthropic запускает версию Claude для учебы

Это будет специальный Learning mode внутри проектов, который отличается вот чем:

1. Вместо прямых ответов на вопросы и решения задач он будет, как учитель, давать подсказки и направлять на путь решения.

2. Обучен задавать вопросы, нацеленные на улучшение понимания учеником темы, и подстраиваться под его ответы.

3. Улучшенная генерация конспектов, роадмэпов, схем и всего, что может пригодиться в учебе.

Но сильно не радуемся: пока эта программа только для университетов. Для начала ее внедрят в Северо-Восточный университет, Лондонскую школу экономики и колледж Шамплейн.

Там абсолютно все преподаватели, студенты и сотрудники получат бесплатный доступ к Claude и Learning Mode. Плюс программы API грантов для студентов, конечно.

Также доступно, если вы подписчик Pro и адрес вашей почты заканчивается на .edu. Может и на простой народ когда-нибудь раскатят

👍126🔥45❤19🤨11💘2

15.2K views07:06

Data Secrets

Gemini 2.5 Pro порвала очередной бенчмарк

Появились результаты модели на USAMO 2025 (это главная американская математическая олимпиада) – она выбила невероятные 24.4%. До Gemini модели набирали максимум 4.76% (это результат R1). o1-pro заскорила всего 2.83.

Основной интерес здесь в том, что на данный момент это самый свежий мат.бенчмарк, он вышел всего две недели назад. А значит нет никакого лика данных, и результаты максимально чистые.

matharena.ai/

🔥140👀27👍19❤9🤨3☃2😁2

17.1K views10:29

Data Secrets

В Meta показали собственную вариацию механизма внимания: Multi-Token Attention

В стандартном multi-head attention внимание вычисляется посредством сравнения запросов (Q) и ключей (K) для каждого токена с каждым. Но если нужная информация распределена между несколькими токенами, такой подход приводит к тому, что модель может не суметь правильно её обнаружить.

А Multi-Token Attention – это атеншн со свертками: исследователи добавляют в классический подход key-query convolution и head mixing convolution.

В измерении ключей и запросов свертки помогают учитывать не один токен, а окно из нескольких рядом стоящих. Аналогично на уровне голов – после применения софтмакса головы не сразу домножаются на значения (V), а сначала миксуются в свертки и как бы обмениваются информацией. Схемы – на 1 и 2 картинках.

Работает ли это? Да, на валидационных срезах снижается и перплексия, и количество ошибок модели. Особенно это видно на задачах, где нужно аккуратно работать с контекстом, типа BabiLong (рис 4) и Needle-in-the-Haystack (рис 5).

Вычислительно напряжно, конечно, но все-таки идея интересная

arxiv.org/pdf/2504.00927

👍66❤13🔥11🤔4

36.2K views13:56

Data Secrets

OpenAI поделились статистикой о том, сколько картинок сгенерировала их модель за неделю после запуска

🟦 Функцией воспользовались 130 миллионов человек. Это почти как население России.
🟦 Всего было сгенерировано более 700 миллионов картинок (вдумайтесь в это число)

Рост юзеров OpenAI за эту неделю был феноменальным. Альтман писал, что на пике было + миллион пользователей за час. Когда ChatGPT запускался два года назад, это был показатель за 5 дней. К слову, сейчас самый быстрорастущий спрос на ChatGPT – в Индии.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍85🤯34🔥22👀9❤7

13.9K viewsedited 16:21

Data Secrets

OpenAI сделали подписку Plus на ChatGPT бесплатной для всех американских и канадских студентов просто потому что у них скоро экзамены

С этого дня и до конца мая студентам будет предоставлен полноценный доступ ко всем фичам Plus (вообще тариф стоит 20$). Все что нужно – подать заявку и подтвердить место учебы. И все, можно два месяца бесплатно "готовиться к экзаменам".

То чувство, когда тебе в университете выдавали максимум пропуск в библиотеку 🚬

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥141😁59❤20🗿12👍10🤩2

15.1K viewsedited 19:45

Data Secrets

Новое исследование от Anthropic: ризонинг модели на самом деле думают не то, что выдают за свои мысли

Исследователи провели простой эксперимент "на честность". Они давали модели два одинаковых промпта за одним исключением: в одном была скрытая подсказка по решению. Далее сверяли результаты (если модель изменила ответ после получения подсказки – значит, она ее использовала) и проверяли, упоминает ли LM о данной ей наводке в своих цепочках мыслей.

В итоге оказалось, что наши ИИ-друзья не такие уж и искренние: у DeepSeek R1 показатель честности – 39%, а у Claude 3.7 Sonnet – 25%. То есть лишь в четверти опытов агент открыто "делился мыслями". В остальных же случаях модель скрывала свои истинные рассуждения.

При этом чем сложнее задачи – тем менее репрезентативны CoT. На третьем скрине можно прямо проследить, как честность почти в два раза просаживается после перехода с бенчмарка MMLU (полегче) на GPQA (посложнее).

Не помогает даже специальное дообучение – метрики быстро выходят на плато (рис 4). Сами Anthropic говорят, что все это довольно тревожно:

Результат предполагает, что вопреки надеждам мониторинг CoT в текущем виде вряд ли можно использовать для выявления опасного поведения моделей.

Прочитать статью полностью можно вот здесь

🔥82🤔44👍16🤯9😁8🐳8❤1

16.7K views05:53

⚡️

Вышла Midjourney v7

Основное нововведение (помимо улучшения качества, фотореализма и анатомии) – драфт режим. Это скоростная генерация в голосовом моде: включаете conversational mode и наговариваете, что хотите, а модель в это время рисует и уточняет по вашим идеям наброски. Работает в 10 раз быстрее обычного режима и стоит в два раза дешевле.

Кроме того, это первая модель с персонализацией по умолчанию. Можно активировать, 5 минут потратить на небольшой опрос, и модель будет лучше понимать, что вы имеете в виду или что вам нравится.

Пока обе версии (Turbo и Relax) выкатили в альфа-тестирование и обещают обновлять еще несколько раз в течение последующих недель.

www.midjourney.com/updates/v7-alpha

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥77👍21❤9🤯3

16.4K views07:44

Data Secrets

А конкуренция в ИИ все растет: Сбербанк сообщает, что в этом году у них на 35% больше заявок на ML-стажировку

Компания говорит, что в марте 2024 заявок поступило 1566, а в марте 2025г – 2128. Общее число заявок по всем направлениям при этом возросло на рекордные 60%.

Также сообщается, что на направлениях AI, IT, разработка, аналитика, кибербезопасность уже почти все позиции закрыты.

Хотя набор продолжается до конца мая, и, вероятно, успеть попасть на оплачиваемую стажировку можно.

🤯62👍20😁13🗿9🤔8❤6🔥2🤝1🫡1

15.1K views10:42

Вышел Devin 2.0 – конкурент Cursor.

О первой версии мы писали вот тут, она была довольно популярна. Что интересного в обновлении:

➖

Можно запускать несколько агентов одновременно. Они будут работать параллельно над разными задачами, но каждого можно контролировать.

➖ К среде агента подключили локальный браузер, так что теперь можно полноценно тестировать продукты не отходя от кассы (и ИИ).

➖ Перед тем, как что-то делать, агент покажет вам план и предложит его подкорректировать. Он также может помочь уточнить сырые требования и вместе с вами докрутить тз.

➖ Есть специальные режимы Search и Deep Mode для поиска и ответов на вопросы по кодовой базе

➖

Ко всему, что делает, Devin сразу создает подробную документацию со схемами и ссылками на источники, чтобы пользователь не терял понимание происходящего

Стоит 20$. Попробовать можно здесь

Please open Telegram to view this post

VIEW IN TELEGRAM

👍65🤨13❤4🔥3

16.9K views11:47

About

Blog

Apps

Platform