Итак, кроме громких слов, что мы имеем:
– Модель действительно гибридная. В тех.репорте даже написано, что это не модель вовсе, а система (то есть видимо несколько моделей с роутером)
– Говорят, что это лучшая модель для кодинга на рынке
– Первые бенчмарки (потом соберем их все в отдельный пост) наверху. Обратите внимание на 100% на AIME 25. Ну и да, шкалы на графиках те еще, так что смотрите на чиселки, а не на столбики.
– Самая НЕгаллюцинирующая модель в мире, разрабы прямо очень сильно хвастаются фактологией
– Большой апдейт в креативности, модель теперь пишет действительно неплохие нешаблонные тексты
– Обучена на знаниях до октября 2024, то есть одна из самых современных моделей, которая уже многое знает про прогресс последних лет
– На LMArena моделька первая во всех категориях с устойчивым отрывом
– Еще запускают рисерч превью фичи Personalities. Можно будет менять характер модели: делать не более дружественной и эмпатичной, или более профессиональной и строгой ну и тд
– Отдельную часть презентации посвятили безопасности: говорят, что долго занимались элайментом и теперь модель будет реже обманывать и вести себя более ✨осознанно✨
– Вообще переосмыслили подход к безопасности: раньше промпт попадал к модели, и она решала, стоит ли ей отвечать. Теперь это работает иначе: модель может не отказаться, а просто обрезать ответ до безопасного минимума. А если все-таки откажется – объяснит почему
– Сегодня раскатят на ВСЕХ юзеров. Да, даже на бесплатных. Ризонинг с ограничениями, но лимиты – норм. Если достигли лимита GPT-5, вас перекинут на GPT-5 mini.
– Цены в API зависят от бюджета ризонинга. Базово чуть дороже o3, но дешевле Opus и Sonnet 4
Системная карта
– Модель действительно гибридная. В тех.репорте даже написано, что это не модель вовсе, а система (то есть видимо несколько моделей с роутером)
– Говорят, что это лучшая модель для кодинга на рынке
– Первые бенчмарки (потом соберем их все в отдельный пост) наверху. Обратите внимание на 100% на AIME 25. Ну и да, шкалы на графиках те еще, так что смотрите на чиселки, а не на столбики.
– Самая НЕгаллюцинирующая модель в мире, разрабы прямо очень сильно хвастаются фактологией
– Большой апдейт в креативности, модель теперь пишет действительно неплохие нешаблонные тексты
– Обучена на знаниях до октября 2024, то есть одна из самых современных моделей, которая уже многое знает про прогресс последних лет
– На LMArena моделька первая во всех категориях с устойчивым отрывом
– Еще запускают рисерч превью фичи Personalities. Можно будет менять характер модели: делать не более дружественной и эмпатичной, или более профессиональной и строгой ну и тд
– Отдельную часть презентации посвятили безопасности: говорят, что долго занимались элайментом и теперь модель будет реже обманывать и вести себя более ✨осознанно✨
– Вообще переосмыслили подход к безопасности: раньше промпт попадал к модели, и она решала, стоит ли ей отвечать. Теперь это работает иначе: модель может не отказаться, а просто обрезать ответ до безопасного минимума. А если все-таки откажется – объяснит почему
– Сегодня раскатят на ВСЕХ юзеров. Да, даже на бесплатных. Ризонинг с ограничениями, но лимиты – норм. Если достигли лимита GPT-5, вас перекинут на GPT-5 mini.
– Цены в API зависят от бюджета ризонинга. Базово чуть дороже o3, но дешевле Opus и Sonnet 4
Системная карта
6🔥181❤41😁14👍13🤯6✍3🗿1
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁349 63🤯14👍7❤3☃2
Все важные бенчмарки в одном посте
Пупупу, Grok-4 на ARC-AGI-2 (последний график) обогнать не удалось
Пупупу, Grok-4 на ARC-AGI-2 (последний график) обогнать не удалось
1❤99👍33🔥24😁17🤨8 8 7🕊1
На Твиче запустили прямую трансляцию, как GPT-5 играет в Pokémon Red
Модель почти точно сможет пройти игру полностью (несколько месяцев назад это уже сделала Gemini 2.5 Pro), но главный вопрос – сколько времени ей понадобится. У Gemini ушло несколько сотен часов: она часто путалась.
У GPT-5 пока все идет гладко. Если провалиться внутрь сайта, можно даже почитать цепочки ризонинга и отследить вызов инструментов.
www.twitch.tv/gpt_plays_pokemon
Кстати, мы забыли вам сообщить, что GPT-5 уже со вчера бесплатно доступна в Cursor. Если вы никогда не вайб-кодили до этого, то теперь точно никуда не денетесь🙂
Модель почти точно сможет пройти игру полностью (несколько месяцев назад это уже сделала Gemini 2.5 Pro), но главный вопрос – сколько времени ей понадобится. У Gemini ушло несколько сотен часов: она часто путалась.
У GPT-5 пока все идет гладко. Если провалиться внутрь сайта, можно даже почитать цепочки ризонинга и отследить вызов инструментов.
www.twitch.tv/gpt_plays_pokemon
Кстати, мы забыли вам сообщить, что GPT-5 уже со вчера бесплатно доступна в Cursor. Если вы никогда не вайб-кодили до этого, то теперь точно никуда не денетесь
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤93😁29🔥21👍5❤🔥1👌1
Data Secrets
Что мы имели в виду, когда писали, что «шкалы на графиках те еще» Просто присмотритесь 😁
Найден еще один легендарный график с презентации OpenAI. Этот просто 10/10
Либо это какая-то мощная постирония, чтобы превратиться в мем (как известно, плохой рекламы не бывает), либо графики рисовала GPT-5, либо и то и другое
Либо это какая-то мощная постирония, чтобы превратиться в мем (как известно, плохой рекламы не бывает), либо графики рисовала GPT-5, либо и то и другое
1😁395🔥49 37❤22💯6👍5
Ладно, давайте отвлечемся от GPT-5 и обсудим то, что Google представили новый метод разметки данных для файнтюнинга
Главное: он позволяет уменьшить количество необходимых для обучения примеров буквально в тысячи и десятки тысяч раз, без потери качества.
Сейчас объясним, как это работает на примере задачи модерации рекламы. Вместо того, чтобы сразу передавать данные на аннотацию разметчикам, происходит вот такой цикл:
1. Исходная языковая модель получает задачу и сама размечает данные как «кликбейт» или «обычная реклама».
2. Далее эти две группы отдельно кластеризуются на основе обычных эмбеддингов.
3. В ходе кластеризации появляются перекрывающиеся кластеры разных групп. И вот именно эти «спорные» пары передаются на ручную разметку.
Просто и изящно. В итоге точность моделей после файнтюнинга такая же, а данных нужно размечать в тысячи раз меньше. Представьте, какая экономия.
Вот так. Берите на заметку, имплементировать в своих проектах такое очень легко
research.google/blog/achieving-10000x-training-data-reduction-with-high-fidelity-labels/
Главное: он позволяет уменьшить количество необходимых для обучения примеров буквально в тысячи и десятки тысяч раз, без потери качества.
Сейчас объясним, как это работает на примере задачи модерации рекламы. Вместо того, чтобы сразу передавать данные на аннотацию разметчикам, происходит вот такой цикл:
1. Исходная языковая модель получает задачу и сама размечает данные как «кликбейт» или «обычная реклама».
2. Далее эти две группы отдельно кластеризуются на основе обычных эмбеддингов.
3. В ходе кластеризации появляются перекрывающиеся кластеры разных групп. И вот именно эти «спорные» пары передаются на ручную разметку.
Просто и изящно. В итоге точность моделей после файнтюнинга такая же, а данных нужно размечать в тысячи раз меньше. Представьте, какая экономия.
Вот так. Берите на заметку, имплементировать в своих проектах такое очень легко
research.google/blog/achieving-10000x-training-data-reduction-with-high-fidelity-labels/
10❤188👍64🔥33 12😁5🤯5 1
Российские школьники победили на Международной олимпиаде по ИИ
Она проходила в Китае 2-8 августа. Российские школьники завоевали 8 медалей, в том числе 6 золотых, 1 серебряную и 1 бронзовую. Это абсолютный рекорд среди 61 страны. В общекомандном зачете, кстати, сборная тоже вошла в топ.
Кажется, растет новое поколение крутых исследователей.
Изо всех сил радуемся и поздравляем ребят!🎉
Она проходила в Китае 2-8 августа. Российские школьники завоевали 8 медалей, в том числе 6 золотых, 1 серебряную и 1 бронзовую. Это абсолютный рекорд среди 61 страны. В общекомандном зачете, кстати, сборная тоже вошла в топ.
Кажется, растет новое поколение крутых исследователей.
Изо всех сил радуемся и поздравляем ребят!
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥565❤121 64👍35😁15🤨7 7🤓6❤🔥5🤯2👾1
Итак, самый важный релиз недели по вашему мнению:
Anonymous Poll
22%
gpt-oss
10%
Claude Opus 4.1
55%
GPT-5
13%
Genie 3 (ну вдруг)
1 80😁27⚡11🍾8 7 5👍2❤1🗿1
Так, Сэм Альтман собрал фидбэк о GPT-5 от пользователей в AMA на Reddit и вот несколько хороших новостей:
1. Вчера система (не забываем, что это именно система, а не одна модель) казалась глупее, потому что сломался роутинг между моделями. Теперь все починили, по идее должно стать поприятнее.
2. Информация о том, какая модель работает над запросом, станет прозрачнее: видимо, будет отображаться где-то перед аутпутом. Плюс разработчики до сих пор калибруют границу принятия решения о переключении моделей. Также можно будет вручную переключаться в режим ризонинга.
3. После того, как GPT-5 наконец докатят на всех, лимиты для Plus пользователей удвоятся.
Также OpenAI рассматривают возможность разрешить Plus юзерам продолжать использовать GPT-4o. Об этом попросило прямо ооочень много людей.
1. Вчера система (не забываем, что это именно система, а не одна модель) казалась глупее, потому что сломался роутинг между моделями. Теперь все починили, по идее должно стать поприятнее.
2. Информация о том, какая модель работает над запросом, станет прозрачнее: видимо, будет отображаться где-то перед аутпутом. Плюс разработчики до сих пор калибруют границу принятия решения о переключении моделей. Также можно будет вручную переключаться в режим ризонинга.
3. После того, как GPT-5 наконец докатят на всех, лимиты для Plus пользователей удвоятся.
Также OpenAI рассматривают возможность разрешить Plus юзерам продолжать использовать GPT-4o. Об этом попросило прямо ооочень много людей.
2👍154❤45🔥23😁13🤓7
Нашли тут для вас готовый ноутбук для файнтюна gpt-oss
Внутри все end-to-end, от скачивания модели и подготовки данных до обучения и инференса.
Еще и мощно оптимизировано, кстати. Моделька на 20В вмещается в 14GB видеопамяти. То есть теоретически запустится даже на бесплатных ресурсах колаба.
Ноутбук для 20В (его же можно использовать для 120В)
А вот тут лежат все текстовые пояснения к коду и «теория»:про то, как работает формат Harmony и почему он необходим, например. В общем все, чтобы запускать код не в слепую (хотя так тоже можно), а с достаточно глубоким пониманием.
Занятие на выходные что надо
Внутри все end-to-end, от скачивания модели и подготовки данных до обучения и инференса.
Еще и мощно оптимизировано, кстати. Моделька на 20В вмещается в 14GB видеопамяти. То есть теоретически запустится даже на бесплатных ресурсах колаба.
Ноутбук для 20В (его же можно использовать для 120В)
А вот тут лежат все текстовые пояснения к коду и «теория»:про то, как работает формат Harmony и почему он необходим, например. В общем все, чтобы запускать код не в слепую (хотя так тоже можно), а с достаточно глубоким пониманием.
Занятие на выходные что надо
6🔥171👍45❤30 10😁2 2