Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Итак, кроме громких слов, что мы имеем:

– Модель действительно гибридная. В тех.репорте даже написано, что это не модель вовсе, а система (то есть видимо несколько моделей с роутером)

– Говорят, что это лучшая модель для кодинга на рынке

– Первые бенчмарки (потом соберем их все в отдельный пост) наверху. Обратите внимание на 100% на AIME 25. Ну и да, шкалы на графиках те еще, так что смотрите на чиселки, а не на столбики.

– Самая НЕгаллюцинирующая модель в мире, разрабы прямо очень сильно хвастаются фактологией

– Большой апдейт в креативности, модель теперь пишет действительно неплохие нешаблонные тексты

– Обучена на знаниях до октября 2024, то есть одна из самых современных моделей, которая уже многое знает про прогресс последних лет

– На LMArena моделька первая во всех категориях с устойчивым отрывом

– Еще запускают рисерч превью фичи Personalities. Можно будет менять характер модели: делать не более дружественной и эмпатичной, или более профессиональной и строгой ну и тд

– Отдельную часть презентации посвятили безопасности: говорят, что долго занимались элайментом и теперь модель будет реже обманывать и вести себя более осознанно

– Вообще переосмыслили подход к безопасности: раньше промпт попадал к модели, и она решала, стоит ли ей отвечать. Теперь это работает иначе: модель может не отказаться, а просто обрезать ответ до безопасного минимума. А если все-таки откажется – объяснит почему

Сегодня раскатят на ВСЕХ юзеров. Да, даже на бесплатных. Ризонинг с ограничениями, но лимиты – норм. Если достигли лимита GPT-5, вас перекинут на GPT-5 mini.

– Цены в API зависят от бюджета ризонинга. Базово чуть дороже o3, но дешевле Opus и Sonnet 4

Системная карта
6🔥18141😁14👍13🤯63🗿1
Что мы имели в виду, когда писали, что «шкалы на графиках те еще»

Просто присмотритесь 😁
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁34963🤯14👍732
Все важные бенчмарки в одном посте

Пупупу, Grok-4 на ARC-AGI-2 (последний график) обогнать не удалось
199👍33🔥24😁17🤨887🕊1
На Твиче запустили прямую трансляцию, как GPT-5 играет в Pokémon Red

Модель почти точно сможет пройти игру полностью (несколько месяцев назад это уже сделала Gemini 2.5 Pro), но главный вопрос – сколько времени ей понадобится. У Gemini ушло несколько сотен часов: она часто путалась.

У GPT-5 пока все идет гладко. Если провалиться внутрь сайта, можно даже почитать цепочки ризонинга и отследить вызов инструментов.

www.twitch.tv/gpt_plays_pokemon

Кстати, мы забыли вам сообщить, что GPT-5 уже со вчера бесплатно доступна в Cursor. Если вы никогда не вайб-кодили до этого, то теперь точно никуда не денетесь 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
293😁29🔥21👍5❤‍🔥1👌1
Data Secrets
Что мы имели в виду, когда писали, что «шкалы на графиках те еще» Просто присмотритесь 😁
Найден еще один легендарный график с презентации OpenAI. Этот просто 10/10

Либо это какая-то мощная постирония, чтобы превратиться в мем (как известно, плохой рекламы не бывает), либо графики рисовала GPT-5, либо и то и другое
1😁395🔥493722💯6👍5
Ладно, давайте отвлечемся от GPT-5 и обсудим то, что Google представили новый метод разметки данных для файнтюнинга

Главное: он позволяет уменьшить количество необходимых для обучения примеров буквально в тысячи и десятки тысяч раз, без потери качества.

Сейчас объясним, как это работает на примере задачи модерации рекламы. Вместо того, чтобы сразу передавать данные на аннотацию разметчикам, происходит вот такой цикл:

1. Исходная языковая модель получает задачу и сама размечает данные как «кликбейт» или «обычная реклама».

2. Далее эти две группы отдельно кластеризуются на основе обычных эмбеддингов.

3. В ходе кластеризации появляются перекрывающиеся кластеры разных групп. И вот именно эти «спорные» пары передаются на ручную разметку.

Просто и изящно. В итоге точность моделей после файнтюнинга такая же, а данных нужно размечать в тысячи раз меньше. Представьте, какая экономия.

Вот так. Берите на заметку, имплементировать в своих проектах такое очень легко

research.google/blog/achieving-10000x-training-data-reduction-with-high-fidelity-labels/
10188👍64🔥3312😁5🤯51
Российские школьники победили на Международной олимпиаде по ИИ

Она проходила в Китае 2-8 августа. Российские школьники завоевали 8 медалей, в том числе 6 золотых, 1 серебряную и 1 бронзовую. Это абсолютный рекорд среди 61 страны. В общекомандном зачете, кстати, сборная тоже вошла в топ.

Кажется, растет новое поколение крутых исследователей.

Изо всех сил радуемся и поздравляем ребят! 🎉
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥56512164👍35😁15🤨77🤓6❤‍🔥5🤯2👾1
Итак, самый важный релиз недели по вашему мнению:
Anonymous Poll
22%
gpt-oss
10%
Claude Opus 4.1
55%
GPT-5
13%
Genie 3 (ну вдруг)
180😁2711🍾875👍21🗿1
Так, Сэм Альтман собрал фидбэк о GPT-5 от пользователей в AMA на Reddit и вот несколько хороших новостей:

1. Вчера система (не забываем, что это именно система, а не одна модель) казалась глупее, потому что сломался роутинг между моделями. Теперь все починили, по идее должно стать поприятнее.

2. Информация о том, какая модель работает над запросом, станет прозрачнее: видимо, будет отображаться где-то перед аутпутом. Плюс разработчики до сих пор калибруют границу принятия решения о переключении моделей. Также можно будет вручную переключаться в режим ризонинга.

3. После того, как GPT-5 наконец докатят на всех, лимиты для Plus пользователей удвоятся.

Также OpenAI рассматривают возможность разрешить Plus юзерам продолжать использовать GPT-4o. Об этом попросило прямо ооочень много людей.
2👍15445🔥23😁13🤓7
Нашли тут для вас готовый ноутбук для файнтюна gpt-oss

Внутри все end-to-end, от скачивания модели и подготовки данных до обучения и инференса.

Еще и мощно оптимизировано, кстати. Моделька на 20В вмещается в 14GB видеопамяти. То есть теоретически запустится даже на бесплатных ресурсах колаба.

Ноутбук для 20В (его же можно использовать для 120В)

А вот тут лежат все текстовые пояснения к коду и «теория»:про то, как работает формат Harmony и почему он необходим, например. В общем все, чтобы запускать код не в слепую (хотя так тоже можно), а с достаточно глубоким пониманием.

Занятие на выходные что надо
6🔥171👍453010😁22
Вы тоже заметили, что мы забыли про старое доброе CV?

Везде все только про LLM, элаймент, агентов и все такое. А иногда так хочется почитать или послушать про новинки из других областей.

Поэтому вот вам глоток свежего воздуха, если вы так же сильно как мы любите компьютерное зрение. МТС, Яндекс, AIRI, VisionLabs и Wildberries & Russ проведут целую серию офлайн митапов по CV.

Мы заглянули в программу, там CV во всей широте: мелькают и discriminative, и generative, и multimodal подходы.

Среди тем: мультимодальные агенты, bias в компьютерном зрении, видеосегментация процессов на складе, контроль генераций диффузионных моделей. Практично, интересно и, главное, свежо.

Будет хардово (как мы любим), но доступно и емко. Исследователям и инженерам – особенно рекомендуем. Смотреть онлайн, кстати, тоже можно.

Провожаем лето правильно и продуктивно. Регистрируйтесь на первый митап сразу -> тут
3👍4718🗿13😁5👾2🤯1
О, прикольно: ИИ отправят на Марс в качестве… врача

Этим совместно занимаются NASA и Google. Вместе они разрабатывают систему Crew Medical Officer Digital Assistant (CMO-DA), которая будет помогать космонавтам следить за своим здоровьем на борту.

Инструмент тестируют уже сейчас: это мультимодальная система, которая может распознавать речь, текст и изображение. Пока средняя точность диагностики – 80%.
1125🔥70👍23🤯7🤨53😁2❤‍🔥11