Ничего необычного, просто сооснователь OpenAI Грег Брокман на красной дорожке вчерашнего Met Gala
Звезда Голливуда получается💅
Звезда Голливуда получается
Please open Telegram to view this post
VIEW IN TELEGRAM
😁58🔥16👍9🤯5🤓4👾2🦄1
Media is too big
VIEW IN TELEGRAM
Открытая модель от OpenAI будет отставать от передовых моделей стартапа на целое поколение
Об этом прямо заявил CPO OpenAI Кевин Вейл. Виной всему как всегда Китай:
Об этом прямо заявил CPO OpenAI Кевин Вейл. Виной всему как всегда Китай:
«Мы выпускаем эту модель, потому что хотим, чтобы лучший в мире открытый ИИ был производства США, а не Китая, и отвечал именно демократическим ценностям.
По этим же соображениям эта модель будет отставать примерно на поколение от наших лучших моделей. Выпустить открытую модель лучше – значит тоже помочь Китаю»
😁256🗿34👍21❤9🤔5🫡5🦄4🤓3🤯2🐳2
Nvidia поссорились с Anthropic – причина опять Китай. Обо всем по порядку:
➖ В прошлую среду Anthropic выложили блогпост, в котором выступили за более жесткий контроль экпорта США и введение новых запретов на продажу чипов Nvidia. По мнению компании это ключевой момент в гонке ИИ, и поэтому нужно еще больше снизить экспортный порог для стран Tier 2
➖ В числе прочего в блоге написано, что сейчас чипы ввозятся в Китай контрабандой, в том числе в «протезных детских животах» и «упакованные вместе с живыми лобстерами»
➖ Nvidia официально ответили на этот пост и сильно раскритиковали любое использование политики для ограничения конкурентоспособности. Тут лучше всего просто прочитать дословную цитату:
Игра престолов, не иначе😐
"В Китае работает половина мировых ИИ-исследователей. Америка не должна манипулировать санкциями, чтобы одержать победу в этой AI гонке. Американские компании должны сосредоточиться на инновациях и принять вызов Китая, а не рассказывать небылицы о том, что большая, тяжелая и чувствительная электроника каким-то образом контрабандой ввозится в детских животах или с живыми лобстерами"
Игра престолов, не иначе
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥241😁78👍38❤10👌3🗿3💯2👾2
Gemini 2.5 Pro обновили и теперь она еще круче в кодинге
На WebArena у нового чекпоинта прибавилось +147 баллов ELO (это прямо очень много, учитывая, что между соседними моделями в рейтинге разница иногда в десятки или даже единицы баллов). В общем, теперь моделька лучшая в веб-кодинге, а Sonnet 3.7 опустился на второе место.
Ну и в целом чекпоинт укрепился на первом месте по всем рейтингам арены (математика, веб, креатив, вижн и прочее). o3 теперь отстает еще сильнее. Цена на API у новой модели при этом остается такой же.
Интересно, если Google релизят такое сейчас, то что будет на их ежегодном I/O через две недели?
blog.google/products/gemini/gemini-2-5-pro-updates/
На WebArena у нового чекпоинта прибавилось +147 баллов ELO (это прямо очень много, учитывая, что между соседними моделями в рейтинге разница иногда в десятки или даже единицы баллов). В общем, теперь моделька лучшая в веб-кодинге, а Sonnet 3.7 опустился на второе место.
Ну и в целом чекпоинт укрепился на первом месте по всем рейтингам арены (математика, веб, креатив, вижн и прочее). o3 теперь отстает еще сильнее. Цена на API у новой модели при этом остается такой же.
Интересно, если Google релизят такое сейчас, то что будет на их ежегодном I/O через две недели?
blog.google/products/gemini/gemini-2-5-pro-updates/
👍57🔥26❤15🕊1
This media is not supported in your browser
VIEW IN TELEGRAM
Hugging Face запустили бесплатный аналог Operator
Их новый Computer Use агент работает на основе Qwen-2-VL-72B и разработан с помощью уже очень популярной библиотеки smolagents (тоже производства Hugging Face).
По аналогии с Operator, агент HF работает не на вашей машине, а на виртуалке с предустановленными программами. По способностям не SOTA, конечно, но с простыми задачами справляется отлично.
Все полностью бесплатно (но придется немного постоять в очереди).
демо здесь
Их новый Computer Use агент работает на основе Qwen-2-VL-72B и разработан с помощью уже очень популярной библиотеки smolagents (тоже производства Hugging Face).
По аналогии с Operator, агент HF работает не на вашей машине, а на виртуалке с предустановленными программами. По способностям не SOTA, конечно, но с простыми задачами справляется отлично.
Все полностью бесплатно (но придется немного постоять в очереди).
демо здесь
🔥59👍25❤9
О, там прямо сейчас на Kaggle идет отбор подмосковных школьников на международную олимпиаду по AI IOAI
Соревнование будет идти сегодня, завтра и послезавтра, и фишка в том, что поучаствовать может каждый желающий.
Сегодня и завтра будут три задачи: CV, NLP, табличные данные. Девятого дадут только CV и NLP. Задачки неочевидные, воткнуть градиентный бустинг и уйти не выйдет, нужно думать.
Вот вам и занятие на праздники👓
www.kaggle.com/competitions/neoai-2025/overview
Соревнование будет идти сегодня, завтра и послезавтра, и фишка в том, что поучаствовать может каждый желающий.
Сегодня и завтра будут три задачи: CV, NLP, табличные данные. Девятого дадут только CV и NLP. Задачки неочевидные, воткнуть градиентный бустинг и уйти не выйдет, нужно думать.
Вот вам и занятие на праздники
www.kaggle.com/competitions/neoai-2025/overview
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47🔥23❤14😁2
Cognition Lab (разработчики Devin) выпустили модель для написания эффективных ядер CUDA
Модель называется Kevin 32В, буквально K(ernel D)evin. Релиз, на самом деле, был бы не самый примечательный, если бы не техника: для дообучения инженеры завели RL с мультиступенчатым фидбэком от среды.
Разбираемся:
⚪️ В качестве базовой LM взяли QwQ-32B, это ризонинг модель. Ее дообучали всего на 180 задачах из датасета KernelBench. Это задачи на PyTorch, в которых надо заменить базовые операции (например, матричные операции или свертки) оптимизированными CUDA-ядрами.
⚪️ Для дообучения использовали только RL с GRPO (наш разбор метода). Но GRPO не обычный, а многоэтапный. Модель получает фидбэк не один раз за всю генерацию, а генерирует ядро -> получает ревард -> исправляет -> получает ревард -> ….
⚪️ Чтобы не было проблем с перегрузкой контекста, вместо полного CoT на следующие итерации передают только резюме. Плюс для стабилизации всего этого каждый шаг получает не обычное вознаграждение, а дисконтирование, то есть равное дисконтированной сумме скорингов всех последующих ядер.
По метрикам видно, что относительно привычного однопроходного RL такой подход сильно бустит обучение. Интересно было бы посмотреть, сработает ли такое с обычным кодингом.
Блогпост | Модель на HF
Модель называется Kevin 32В, буквально K(ernel D)evin. Релиз, на самом деле, был бы не самый примечательный, если бы не техника: для дообучения инженеры завели RL с мультиступенчатым фидбэком от среды.
Разбираемся:
По метрикам видно, что относительно привычного однопроходного RL такой подход сильно бустит обучение. Интересно было бы посмотреть, сработает ли такое с обычным кодингом.
Блогпост | Модель на HF
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥60👍30❤18💘1
Так-так: кажется, OpenAI больше не хочет делиться деньгами с Microsoft 💸
The Information пишет, что после реструктуризации OpenAI планирует сократить долю выручки, которую делит с Microsoft.
Сейчас это 20%, и договор действителен до 2030 года. Но уже сейчас OpenAI говорит потенциальным инвесторам о том, что дальше они планируют делиться не более чем 10 процентами.
Microsoft пока ситуацию не комментируют (ну еще бы)
The Information пишет, что после реструктуризации OpenAI планирует сократить долю выручки, которую делит с Microsoft.
Сейчас это 20%, и договор действителен до 2030 года. Но уже сейчас OpenAI говорит потенциальным инвесторам о том, что дальше они планируют делиться не более чем 10 процентами.
Microsoft пока ситуацию не комментируют (ну еще бы)
Please open Telegram to view this post
VIEW IN TELEGRAM
😁105❤11🤝5🤔4🔥1
Вышла новая модель от Mistral – Mistral Medium 3. Что надо знать:
➖ Не опенсорс 😞
➖ Зато отличное соотношение цена/качество. Цены: $0,4/M и $2/М. Это в разы дешевле многих передовых моделей. Например, в 8 раз дешевле Sonnet.
➖ По бенчмаркам соответствует Sonnet 3.7 и GPT-4o. На математике даже круче.
➖ Мультимодальность есть
➖ Контекст 128к токенов
В целом, отличный уровень. Кстати, одновременно стартап показал новую версию своего чат-бота Le Chat для бизнеса. Туда добавили больше фичей с инструментами, веб-поиск, агента программиста и возможность интеграции любых источников данных компании.
В целом, отличный уровень. Кстати, одновременно стартап показал новую версию своего чат-бота Le Chat для бизнеса. Туда добавили больше фичей с инструментами, веб-поиск, агента программиста и возможность интеграции любых источников данных компании.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥55👍31❤10😁2🎉2🤔1
Сэм Альтман и Грег Брокман поделились первыми фото с масштабной стройки одного из датацентров проекта Stargate.
Альтман пишет, что это будет самый мощный вычислительный ИИ-кластер в мире🔵
Альтман пишет, что это будет самый мощный вычислительный ИИ-кластер в мире
Please open Telegram to view this post
VIEW IN TELEGRAM
👍100🔥41😁21❤11🤔5🤯2👌1
Разбираем новую громкую статью «Absolute Zero Reasoner» про то, как дообучить модель вообще без данных
Сейчас в рисерче наблюдается яркий тренд на максимальное сокращение количества данных для дообучения. Совсем недавно хайповала работа, в которой проводили RL для ризонинга всего на одном примере.
А сейчас ученые вообще предложили способ полностью перейти на самогенерируемое обучение. То есть модель сама разрабатывает для себя учебную программу и задачи, решает их, проверяет и учится. Подробнее:
➖ У нас есть LLM, которую мы хотим дообучить. Но теперь она будет играть сразу две роли: Proposer и Solver. Proposer генерирует новые задачи, а Solver их решает.
➖ Так как роли две, обучается модель тоже "с двух сторон", то есть мы даем ревард как за решения, так и за сами задачи. r_solve – обычная бинарная награда за правильный ответ (решил - 1, не решил - 0). А вот r_propose – обучаемая награда, то есть она динамически зависит от того, насколько у солвера хорошо или плохо получается решать сгенерированные задачи. Цель тут – генерировать задачи средней сложности, не сильно простые, и не слишком хардовые.
➖ Обучается все с помощью Task-Relative REINFORCE++. Это авторская модификация PPO для учёта разных «задача + роль» конфигураций. Схемы обучения обеих ролей остаются полностью симметричными, но зато можно отдельно контролировать лернинг рейты или бейзлайны.
В статье подход реализовывали только на задачах по программированию, чтобы ответы можно было проверять просто в интерпретаторе, без человеческой разметки. За основу брали Qwen2.5, и полученный AZR-Coder-7B показывает относительно базовой модели и других подходов очень неплохие приросты.
От ванильного RL почти не отстает, а участие человека сведено к минимуму. При этом и другие приятные плюшки RL сохраняются. Например, видны кросс-доменные приросты метрик по математике (хотя, повторимся, обучали все только на кодинге).
Почитать полностью советуем здесь
Сейчас в рисерче наблюдается яркий тренд на максимальное сокращение количества данных для дообучения. Совсем недавно хайповала работа, в которой проводили RL для ризонинга всего на одном примере.
А сейчас ученые вообще предложили способ полностью перейти на самогенерируемое обучение. То есть модель сама разрабатывает для себя учебную программу и задачи, решает их, проверяет и учится. Подробнее:
В статье подход реализовывали только на задачах по программированию, чтобы ответы можно было проверять просто в интерпретаторе, без человеческой разметки. За основу брали Qwen2.5, и полученный AZR-Coder-7B показывает относительно базовой модели и других подходов очень неплохие приросты.
От ванильного RL почти не отстает, а участие человека сведено к минимуму. При этом и другие приятные плюшки RL сохраняются. Например, видны кросс-доменные приросты метрик по математике (хотя, повторимся, обучали все только на кодинге).
Почитать полностью советуем здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤89🔥39🤯28👍20👾1
This media is not supported in your browser
VIEW IN TELEGRAM
В Deep Research в ChatGPT добавили возможность интеграции GitHub
То есть теперь можно присоединить к боту определенный репозиторий и задать по нему любой вопрос. Модель уйдет на несколько минут искать ответ, а после вернется с большим отчетом.
Репорт, который будет отдавать модель, выглядит примерно так, то есть развернутое объяснение со ссылками на конкретные места в коде. Здорово, кстати, что ссылки – это значит именно переадрессация на определенные строки кода на гитхабе, а не просто скопированный в чат кусок файла. Так намного удобнее ориентироваться.
Фичу раскатят на всех платных пользователей в ближайшие дни 🍯
То есть теперь можно присоединить к боту определенный репозиторий и задать по нему любой вопрос. Модель уйдет на несколько минут искать ответ, а после вернется с большим отчетом.
Репорт, который будет отдавать модель, выглядит примерно так, то есть развернутое объяснение со ссылками на конкретные места в коде. Здорово, кстати, что ссылки – это значит именно переадрессация на определенные строки кода на гитхабе, а не просто скопированный в чат кусок файла. Так намного удобнее ориентироваться.
Фичу раскатят на всех платных пользователей в ближайшие дни 🍯
👍116🔥41❤22🫡9
Media is too big
VIEW IN TELEGRAM
«Сложно сказать, насколько мы еще опережаем Китай. Я думаю, ненамного»
В сенате США вчера проводили слушание по вопросу укрепления позиций Америки в ИИ-гонке. В качестве свидетелей приглашали несколько представителей индустрии, в том числе Альтмана. Собрали интересные цитаты:
Если вдруг захотите посмотреть все 3 часа слушания, вот запись😶
В сенате США вчера проводили слушание по вопросу укрепления позиций Америки в ИИ-гонке. В качестве свидетелей приглашали несколько представителей индустрии, в том числе Альтмана. Собрали интересные цитаты:
➖ Мы убеждены, что OpenAI обладает лучшими моделями в мире. Тем не менее, очень сложно сказать, насколько мы опережаем Китай, но я бы сказал… ненамного.➖ DeepSeek добился двух впечатляющих результатов: сильная опенсорс модель и приложение, которое в какой-то момент стало более скачиваемым, чем ChatGPT. Пока что DeepSeek не обогнал ChatGPT в качестве потребительского ИИ по умолчанию, но если бы это случилось, это было бы… плохо.➖ В конечном итоге стоимость ИИ сравняется со стоимостью энергии. Роботы могут создавать чипы, оптимизировать сети, но электрон есть электрон. В конечном итоге интеллект будет масштабироваться настолько, насколько это позволит сеть.➖ Скоро в истории человечества произойдут большие перемены. Эти системы способны на вещи, которые мы даже не можем себе представить. (Да, куда же без высказываний в стиле «да не маркетинг это» )
Если вдруг захотите посмотреть все 3 часа слушания, вот запись
Please open Telegram to view this post
VIEW IN TELEGRAM
😁111👍70❤10🤯5🕊4