OpenAI релизнули агентский бенчмарк PaperBench
Он оценивает способности агентов искать и безошибочно воспроизводить содержание свежих статей (важный навык для таких популярных штук, как Deep Researcher, например).
Для оценки взяли 20 докладов ICML 2024, вместе с авторами разбили каждую на подзадачи, и в целом получилось 8316 тасок на воспроизведение кода, понимание научной новизны, методологии и пр.
Казалось бы, задачи для современных агентов не очень сложные. Но, неожиданно, лучший результат – всего 21,0%, и выбил его агент на основе Claude 3.5 Sonnet (New). Скор o1-high тем временем – 13.2, а o3-mini-high – 2.6. Люди все еще справляются лучше🚬
cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
Он оценивает способности агентов искать и безошибочно воспроизводить содержание свежих статей (важный навык для таких популярных штук, как Deep Researcher, например).
Для оценки взяли 20 докладов ICML 2024, вместе с авторами разбили каждую на подзадачи, и в целом получилось 8316 тасок на воспроизведение кода, понимание научной новизны, методологии и пр.
Казалось бы, задачи для современных агентов не очень сложные. Но, неожиданно, лучший результат – всего 21,0%, и выбил его агент на основе Claude 3.5 Sonnet (New). Скор o1-high тем временем – 13.2, а o3-mini-high – 2.6. Люди все еще справляются лучше
cdn.openai.com/papers/22265bac-3191-44e5-b057-7aaacd8e90cd/paperbench.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍68❤20🔥20
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic запускает версию Claude для учебы
Это будет специальный Learning mode внутри проектов, который отличается вот чем:
1. Вместо прямых ответов на вопросы и решения задач он будет, как учитель, давать подсказки и направлять на путь решения.
2. Обучен задавать вопросы, нацеленные на улучшение понимания учеником темы, и подстраиваться под его ответы.
3. Улучшенная генерация конспектов, роадмэпов, схем и всего, что может пригодиться в учебе.
Но сильно не радуемся: пока эта программа только для университетов. Для начала ее внедрят в Северо-Восточный университет, Лондонскую школу экономики и колледж Шамплейн.
Там абсолютно все преподаватели, студенты и сотрудники получат бесплатный доступ к Claude и Learning Mode. Плюс программы API грантов для студентов, конечно.
Также доступно, если вы подписчик Pro и адрес вашей почты заканчивается на .edu. Может и на простой народ когда-нибудь раскатят
Это будет специальный Learning mode внутри проектов, который отличается вот чем:
1. Вместо прямых ответов на вопросы и решения задач он будет, как учитель, давать подсказки и направлять на путь решения.
2. Обучен задавать вопросы, нацеленные на улучшение понимания учеником темы, и подстраиваться под его ответы.
3. Улучшенная генерация конспектов, роадмэпов, схем и всего, что может пригодиться в учебе.
Но сильно не радуемся: пока эта программа только для университетов. Для начала ее внедрят в Северо-Восточный университет, Лондонскую школу экономики и колледж Шамплейн.
Там абсолютно все преподаватели, студенты и сотрудники получат бесплатный доступ к Claude и Learning Mode. Плюс программы API грантов для студентов, конечно.
Также доступно, если вы подписчик Pro и адрес вашей почты заканчивается на .edu. Может и на простой народ когда-нибудь раскатят
👍126🔥45❤19🤨11💘2
Gemini 2.5 Pro порвала очередной бенчмарк
Появились результаты модели на USAMO 2025 (это главная американская математическая олимпиада) – она выбила невероятные 24.4%. До Gemini модели набирали максимум 4.76% (это результат R1). o1-pro заскорила всего 2.83.
Основной интерес здесь в том, что на данный момент это самый свежий мат.бенчмарк, он вышел всего две недели назад. А значит нет никакого лика данных, и результаты максимально чистые.
matharena.ai/
Появились результаты модели на USAMO 2025 (это главная американская математическая олимпиада) – она выбила невероятные 24.4%. До Gemini модели набирали максимум 4.76% (это результат R1). o1-pro заскорила всего 2.83.
Основной интерес здесь в том, что на данный момент это самый свежий мат.бенчмарк, он вышел всего две недели назад. А значит нет никакого лика данных, и результаты максимально чистые.
matharena.ai/
🔥140👀27👍19❤9🤨3☃2😁2
В Meta показали собственную вариацию механизма внимания: Multi-Token Attention
В стандартном multi-head attention внимание вычисляется посредством сравнения запросов (Q) и ключей (K) для каждого токена с каждым. Но если нужная информация распределена между несколькими токенами, такой подход приводит к тому, что модель может не суметь правильно её обнаружить.
А Multi-Token Attention – это атеншн со свертками: исследователи добавляют в классический подход key-query convolution и head mixing convolution.
В измерении ключей и запросов свертки помогают учитывать не один токен, а окно из нескольких рядом стоящих. Аналогично на уровне голов – после применения софтмакса головы не сразу домножаются на значения (V), а сначала миксуются в свертки и как бы обмениваются информацией. Схемы – на 1 и 2 картинках.
Работает ли это? Да, на валидационных срезах снижается и перплексия, и количество ошибок модели. Особенно это видно на задачах, где нужно аккуратно работать с контекстом, типа BabiLong (рис 4) и Needle-in-the-Haystack (рис 5).
Вычислительно напряжно, конечно, но все-таки идея интересная
arxiv.org/pdf/2504.00927
В стандартном multi-head attention внимание вычисляется посредством сравнения запросов (Q) и ключей (K) для каждого токена с каждым. Но если нужная информация распределена между несколькими токенами, такой подход приводит к тому, что модель может не суметь правильно её обнаружить.
А Multi-Token Attention – это атеншн со свертками: исследователи добавляют в классический подход key-query convolution и head mixing convolution.
В измерении ключей и запросов свертки помогают учитывать не один токен, а окно из нескольких рядом стоящих. Аналогично на уровне голов – после применения софтмакса головы не сразу домножаются на значения (V), а сначала миксуются в свертки и как бы обмениваются информацией. Схемы – на 1 и 2 картинках.
Работает ли это? Да, на валидационных срезах снижается и перплексия, и количество ошибок модели. Особенно это видно на задачах, где нужно аккуратно работать с контекстом, типа BabiLong (рис 4) и Needle-in-the-Haystack (рис 5).
Вычислительно напряжно, конечно, но все-таки идея интересная
arxiv.org/pdf/2504.00927
👍66❤13🔥11🤔4
OpenAI поделились статистикой о том, сколько картинок сгенерировала их модель за неделю после запуска
🟦 Функцией воспользовались 130 миллионов человек. Это почти как население России.
🟦 Всего было сгенерировано более 700 миллионов картинок (вдумайтесь в это число)
Рост юзеров OpenAI за эту неделю был феноменальным. Альтман писал, что на пике было + миллион пользователей за час. Когда ChatGPT запускался два года назад, это был показатель за 5 дней. К слову, сейчас самый быстрорастущий спрос на ChatGPT – в Индии.
Рост юзеров OpenAI за эту неделю был феноменальным. Альтман писал, что на пике было + миллион пользователей за час. Когда ChatGPT запускался два года назад, это был показатель за 5 дней. К слову, сейчас самый быстрорастущий спрос на ChatGPT – в Индии.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍85🤯34🔥22👀9❤7
OpenAI сделали подписку Plus на ChatGPT бесплатной для всех американских и канадских студентов просто потому что у них скоро экзамены
С этого дня и до конца мая студентам будет предоставлен полноценный доступ ко всем фичам Plus (вообще тариф стоит 20$). Все что нужно – подать заявку и подтвердить место учебы. И все, можно два месяца бесплатно "готовиться к экзаменам".
То чувство, когда тебе в университете выдавали максимум пропуск в библиотеку🚬
С этого дня и до конца мая студентам будет предоставлен полноценный доступ ко всем фичам Plus (вообще тариф стоит 20$). Все что нужно – подать заявку и подтвердить место учебы. И все, можно два месяца бесплатно "готовиться к экзаменам".
То чувство, когда тебе в университете выдавали максимум пропуск в библиотеку
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥141😁59❤20🗿12👍10🤩2
Новое исследование от Anthropic: ризонинг модели на самом деле думают не то, что выдают за свои мысли
Исследователи провели простой эксперимент "на честность". Они давали модели два одинаковых промпта за одним исключением: в одном была скрытая подсказка по решению. Далее сверяли результаты (если модель изменила ответ после получения подсказки – значит, она ее использовала) и проверяли, упоминает ли LM о данной ей наводке в своих цепочках мыслей.
В итоге оказалось, что наши ИИ-друзья не такие уж и искренние: у DeepSeek R1 показатель честности – 39%, а у Claude 3.7 Sonnet – 25%. То есть лишь в четверти опытов агент открыто "делился мыслями". В остальных же случаях модель скрывала свои истинные рассуждения.
При этом чем сложнее задачи – тем менее репрезентативны CoT. На третьем скрине можно прямо проследить, как честность почти в два раза просаживается после перехода с бенчмарка MMLU (полегче) на GPQA (посложнее).
Не помогает даже специальное дообучение – метрики быстро выходят на плато (рис 4). Сами Anthropic говорят, что все это довольно тревожно:
Прочитать статью полностью можно вот здесь
Исследователи провели простой эксперимент "на честность". Они давали модели два одинаковых промпта за одним исключением: в одном была скрытая подсказка по решению. Далее сверяли результаты (если модель изменила ответ после получения подсказки – значит, она ее использовала) и проверяли, упоминает ли LM о данной ей наводке в своих цепочках мыслей.
В итоге оказалось, что наши ИИ-друзья не такие уж и искренние: у DeepSeek R1 показатель честности – 39%, а у Claude 3.7 Sonnet – 25%. То есть лишь в четверти опытов агент открыто "делился мыслями". В остальных же случаях модель скрывала свои истинные рассуждения.
При этом чем сложнее задачи – тем менее репрезентативны CoT. На третьем скрине можно прямо проследить, как честность почти в два раза просаживается после перехода с бенчмарка MMLU (полегче) на GPQA (посложнее).
Не помогает даже специальное дообучение – метрики быстро выходят на плато (рис 4). Сами Anthropic говорят, что все это довольно тревожно:
Результат предполагает, что вопреки надеждам мониторинг CoT в текущем виде вряд ли можно использовать для выявления опасного поведения моделей.
Прочитать статью полностью можно вот здесь
🔥82🤔44👍16🤯9😁8🐳8❤1
Media is too big
VIEW IN TELEGRAM
Основное нововведение (помимо улучшения качества, фотореализма и анатомии) – драфт режим. Это скоростная генерация в голосовом моде: включаете conversational mode и наговариваете, что хотите, а модель в это время рисует и уточняет по вашим идеям наброски. Работает в 10 раз быстрее обычного режима и стоит в два раза дешевле.
Кроме того, это первая модель с персонализацией по умолчанию. Можно активировать, 5 минут потратить на небольшой опрос, и модель будет лучше понимать, что вы имеете в виду или что вам нравится.
Пока обе версии (Turbo и Relax) выкатили в альфа-тестирование и обещают обновлять еще несколько раз в течение последующих недель.
www.midjourney.com/updates/v7-alpha
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥77👍21❤9🤯3
А конкуренция в ИИ все растет: Сбербанк сообщает, что в этом году у них на 35% больше заявок на ML-стажировку
Компания говорит, что в марте 2024 заявок поступило 1566, а в марте 2025г – 2128. Общее число заявок по всем направлениям при этом возросло на рекордные 60%.
Также сообщается, что на направлениях AI, IT, разработка, аналитика, кибербезопасность уже почти все позиции закрыты.
Хотя набор продолжается до конца мая, и, вероятно, успеть попасть на оплачиваемую стажировку можно.
Компания говорит, что в марте 2024 заявок поступило 1566, а в марте 2025г – 2128. Общее число заявок по всем направлениям при этом возросло на рекордные 60%.
Также сообщается, что на направлениях AI, IT, разработка, аналитика, кибербезопасность уже почти все позиции закрыты.
Хотя набор продолжается до конца мая, и, вероятно, успеть попасть на оплачиваемую стажировку можно.
🤯62👍20😁13🗿9🤔8❤6🔥2🤝1🫡1
Media is too big
VIEW IN TELEGRAM
Вышел Devin 2.0 – конкурент Cursor.
О первой версии мы писали вот тут, она была довольно популярна. Что интересного в обновлении:
➖ Можно запускать несколько агентов одновременно. Они будут работать параллельно над разными задачами, но каждого можно контролировать.
➖ К среде агента подключили локальный браузер, так что теперь можно полноценно тестировать продукты не отходя от кассы (и ИИ).
➖ Перед тем, как что-то делать, агент покажет вам план и предложит его подкорректировать. Он также может помочь уточнить сырые требования и вместе с вами докрутить тз.
➖ Есть специальные режимы Search и Deep Mode для поиска и ответов на вопросы по кодовой базе
➖ Ко всему, что делает, Devin сразу создает подробную документацию со схемами и ссылками на источники, чтобы пользователь не терял понимание происходящего
Стоит 20$. Попробовать можно здесь
О первой версии мы писали вот тут, она была довольно популярна. Что интересного в обновлении:
Стоит 20$. Попробовать можно здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
👍65🤨13❤4🔥3