Итак, выпустили полноценную o3 и o4-mini
o3 выбивает даже лучшие метрики, чем были, когда ее анонсили. На AIME 2025 это рекордные 98.4%. При этом o4-mini еще круче: ее результат 99.5. А на Humanity Last Exam результаты сопоставимы с Deep Research. Кодинг тоже не отстает.
Обе модели мультимодальные, и не просто мультимодальные, а с ризонингом поверх изображений. Плюс модели специально натаскивали на использование инструментов (поиск, интерпретатор и все такое), так что агентные способности на высоте.
При этом o3 даже немного дешевле o1. Цены: инпут $10.00 / 1M и аутпут $40.00 / 1M (для o1 это 15 и 60). o4-mini: $1.1 / 1M и $4.4 / 1M.
Еще приятно, что масштабирование на ризонинге теперь дешевле. То есть с ростом метрик за счет увеличения ризонинга цена теперь растет медленнее, чем это было с o1.
Обе модели будут доступны Plus, Pro и Team, их уже раскатывают. Позже o4-mini будет также доступна фри юзерам.
https://openai.com/index/introducing-o3-and-o4-mini/
o3 выбивает даже лучшие метрики, чем были, когда ее анонсили. На AIME 2025 это рекордные 98.4%. При этом o4-mini еще круче: ее результат 99.5. А на Humanity Last Exam результаты сопоставимы с Deep Research. Кодинг тоже не отстает.
Обе модели мультимодальные, и не просто мультимодальные, а с ризонингом поверх изображений. Плюс модели специально натаскивали на использование инструментов (поиск, интерпретатор и все такое), так что агентные способности на высоте.
При этом o3 даже немного дешевле o1. Цены: инпут $10.00 / 1M и аутпут $40.00 / 1M (для o1 это 15 и 60). o4-mini: $1.1 / 1M и $4.4 / 1M.
Еще приятно, что масштабирование на ризонинге теперь дешевле. То есть с ростом метрик за счет увеличения ризонинга цена теперь растет медленнее, чем это было с o1.
Обе модели будут доступны Plus, Pro и Team, их уже раскатывают. Позже o4-mini будет также доступна фри юзерам.
https://openai.com/index/introducing-o3-and-o4-mini/
👍91❤26🔥15🆒7❤🔥4🤓2
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI выпустили в опенсорс (да-да) агента Codex для командной строки
Лицензия Apache 2.0. Легко запускается локально и превращает командную строку в среду программирования на естественном языке.
По умолчанию нужно будет окать действия агента, но есть полностью автономный мод. Мультимодальность тоже имеется.
Установить:
Репозиторий
Лицензия Apache 2.0. Легко запускается локально и превращает командную строку в среду программирования на естественном языке.
По умолчанию нужно будет окать действия агента, но есть полностью автономный мод. Мультимодальность тоже имеется.
Установить:
npm install -g @openai/codex
Репозиторий
👍85👀36🔥21🤯6❤5❤🔥1🗿1
В лаборатории AIRI придумали способ легко масштабировать трансформеры на контекст 2 миллиона токенов
Вчера на конференции Data Fusion прошла церемония награждения Data Fusion Awards (запись). Премию за научный прорыв выиграл Айдар Булатов: он стал одним из авторов работы, в которой предложили способ расширения контекстного окна трансформеров при линейном росте вычислительных затрат.
Нас работа очень заинтересовала, и позже мы познакомились с Айдаром на постерной сессии лично, чтобы немного расспросить его о статье. Главная идея: соединить трансформеры и рекуррентный механизм памяти.
Мы разделяем текст на кусочки и обрабатываем их последовательно. При этом в начало каждого сегмента добавляются векторы памяти, которая обновляется на каждой следующей итерации. Таким образом, self‑attention считается только внутри сегмента, но при этом мы все равно с каждым разом храним все больше и больше информации о тексте.
Масштабируется это действительно хорошо: ребята обучали модель только на последовательностях длины до 3.5к токенов, но на тестах она спокойно выдерживает контекст до 2 миллионов (а позже и до 50 миллионов на модификациях)! Вот гитхаб и статья.
Кстати, на основе этой работы Айдар в команде с Юрием Куратовым и другими авторами также создали бенчмарк BABILong для оценки моделей на длинном контексте. Сейчас на этом бенчмарке тестируют свои модели многие ведущие лабы: Google, Meta, OpenAI. Мы, кстати, даже несколько раз о нем писали, но то, что он был сделан в AIRI, узнали только вчера. Эта работа тоже была в числе победителей премии.
Поздравляем🥳
Вчера на конференции Data Fusion прошла церемония награждения Data Fusion Awards (запись). Премию за научный прорыв выиграл Айдар Булатов: он стал одним из авторов работы, в которой предложили способ расширения контекстного окна трансформеров при линейном росте вычислительных затрат.
Нас работа очень заинтересовала, и позже мы познакомились с Айдаром на постерной сессии лично, чтобы немного расспросить его о статье. Главная идея: соединить трансформеры и рекуррентный механизм памяти.
Мы разделяем текст на кусочки и обрабатываем их последовательно. При этом в начало каждого сегмента добавляются векторы памяти, которая обновляется на каждой следующей итерации. Таким образом, self‑attention считается только внутри сегмента, но при этом мы все равно с каждым разом храним все больше и больше информации о тексте.
Масштабируется это действительно хорошо: ребята обучали модель только на последовательностях длины до 3.5к токенов, но на тестах она спокойно выдерживает контекст до 2 миллионов (а позже и до 50 миллионов на модификациях)! Вот гитхаб и статья.
Кстати, на основе этой работы Айдар в команде с Юрием Куратовым и другими авторами также создали бенчмарк BABILong для оценки моделей на длинном контексте. Сейчас на этом бенчмарке тестируют свои модели многие ведущие лабы: Google, Meta, OpenAI. Мы, кстати, даже несколько раз о нем писали, но то, что он был сделан в AIRI, узнали только вчера. Эта работа тоже была в числе победителей премии.
Поздравляем
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍188🔥77❤40🤯2🕊1
TIME опубликовали свой ежегодный топ-100 самых влиятельных людей мира
В списке как никогда много тех.лидеров и ученых. Вот кто в него попал:
➖ Дарио Амодеи, CEO Anthropic
➖ Лян Вэньфэн, CEO DeepSeek
➖ Илон Маск
➖ Марк Цукерберг
➖ Лиза Су, CEO AMD и родственница Дженсена Хуанга
➖ Демис Хассабис, нобелевский лауреат этого года и CEO Google DeepMind
Кто не попал:
Сэм Альтман😭
Дженсен Хуанг😭
time.com/collections/100-most-influential-people-2025/
В списке как никогда много тех.лидеров и ученых. Вот кто в него попал:
Кто не попал:
Сэм Альтман
Дженсен Хуанг
time.com/collections/100-most-influential-people-2025/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍64😁56🤨13🔥12❤7🤯6🤓5⚡1
Как работают рекомендательные системы в Lamoda, Wildberries, Сбере и МТС?
Только что побывали на большой кейс-сессии по рексисам на Data Fusion. Было четыре ярких доклада от лидеров ведущих команд из индустрии. В карточках – некоторые интересные подкапотные детали о том, как работают рекомендации в привычных нам сервисах.
Полностью доклады можно посмотреть здесь
Только что побывали на большой кейс-сессии по рексисам на Data Fusion. Было четыре ярких доклада от лидеров ведущих команд из индустрии. В карточках – некоторые интересные подкапотные детали о том, как работают рекомендации в привычных нам сервисах.
Полностью доклады можно посмотреть здесь
👍44🔥15❤13🤯2🆒1
Новость дня: OpenAI покупают Windsurf – вайб-кодинг стартап
В прошлом инструмент был известен как Codeium. Это один из главных конкурентов Cursor. Говорят, сделка обойдется OpenAI в три миллиарда (интересно, это дешевле, чем нанять команду и реализовать собственного агента с нуля?)
Кстати, мало кто об этом пишет, но до этого OpenAI дважды пытались купить Cursor. Однако переговоры с Anysphere почему-то не задались.
В прошлом инструмент был известен как Codeium. Это один из главных конкурентов Cursor. Говорят, сделка обойдется OpenAI в три миллиарда (интересно, это дешевле, чем нанять команду и реализовать собственного агента с нуля?)
Кстати, мало кто об этом пишет, но до этого OpenAI дважды пытались купить Cursor. Однако переговоры с Anysphere почему-то не задались.
😁87🤯40👌12❤7👍4🤨4🔥3👀3☃1
В эти два дня у ВТБ получилось уместить уйму полезного контента. Технические доклады, кейс-сессии по всем направлениям ML, планарные сессии с CEO из бигтеха и лидами ведущих рисерч команд, Q&A. Мы физически не смогли посетить даже половину из того, что хотелось (хорошо, что есть записи).
Продуманно, масштабно, интересно. Выражаем организаторам большую благодарность за приглашение и уже ждем следующего года
Please open Telegram to view this post
VIEW IN TELEGRAM
❤52👍32🔥16🤔6🗿2😁1🤯1🤓1
Вышла Gemini 2.5 Flash. Что нужно знать:
– Это гибридная модель с ризонингом, продолжительность рассуждений она контролирует сама, но в API можно настраивать бюджет ризонинга вручную
– Почти на всех бенчмарках модель лучше Sonnet 3.7 и R1.
– o4-mini и Grok-3 выглядят чуть получше, но по соотношению цена-качество проигрывают однозначно
– Модель очень дешевая. 0.15$/М инпут и 0.6$/М аутпут (с ризонингом 3.5$).
– Попробовать можно здесь
– Это гибридная модель с ризонингом, продолжительность рассуждений она контролирует сама, но в API можно настраивать бюджет ризонинга вручную
– Почти на всех бенчмарках модель лучше Sonnet 3.7 и R1.
– o4-mini и Grok-3 выглядят чуть получше, но по соотношению цена-качество проигрывают однозначно
– Модель очень дешевая. 0.15$/М инпут и 0.6$/М аутпут (с ризонингом 3.5$).
– Попробовать можно здесь
🔥94👍26❤8🤯3🤨1
OpenAI выкатили 32-страничный практический гайд по разработке агентов
Его создавали сами инженеры из продуктовых команд стартапа.
Внутри теоретические основы, шаблоны проектирования, лучшие тактики для безопасного развертывания и мониторинга, а главное много-много примеров.
Забираем мастрид на выходные: cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf
Его создавали сами инженеры из продуктовых команд стартапа.
Внутри теоретические основы, шаблоны проектирования, лучшие тактики для безопасного развертывания и мониторинга, а главное много-много примеров.
Забираем мастрид на выходные: cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf
🤯76❤34🔥26👍15🤔1
Платформа Midjourney становится похожа на ИИ-фигму
Они только что выкатили обновление для своего редактора изображений. Поменялся интерфейс, добавился инструмент для выбора и редактирования определенных частей изображения.
Также улучшили модерацию и даже стали показывать слои картинки: все, как в любимом фотошопе.
Пробуем тут
Они только что выкатили обновление для своего редактора изображений. Поменялся интерфейс, добавился инструмент для выбора и редактирования определенных частей изображения.
Также улучшили модерацию и даже стали показывать слои картинки: все, как в любимом фотошопе.
Пробуем тут
🔥63👍25❤10