Все важные бенчмарки в одном посте
Пупупу, Grok-4 на ARC-AGI-2 (последний график) обогнать не удалось
Пупупу, Grok-4 на ARC-AGI-2 (последний график) обогнать не удалось
1❤99👍33🔥24😁17🤨8 8 7🕊1
На Твиче запустили прямую трансляцию, как GPT-5 играет в Pokémon Red
Модель почти точно сможет пройти игру полностью (несколько месяцев назад это уже сделала Gemini 2.5 Pro), но главный вопрос – сколько времени ей понадобится. У Gemini ушло несколько сотен часов: она часто путалась.
У GPT-5 пока все идет гладко. Если провалиться внутрь сайта, можно даже почитать цепочки ризонинга и отследить вызов инструментов.
www.twitch.tv/gpt_plays_pokemon
Кстати, мы забыли вам сообщить, что GPT-5 уже со вчера бесплатно доступна в Cursor. Если вы никогда не вайб-кодили до этого, то теперь точно никуда не денетесь🙂
Модель почти точно сможет пройти игру полностью (несколько месяцев назад это уже сделала Gemini 2.5 Pro), но главный вопрос – сколько времени ей понадобится. У Gemini ушло несколько сотен часов: она часто путалась.
У GPT-5 пока все идет гладко. Если провалиться внутрь сайта, можно даже почитать цепочки ризонинга и отследить вызов инструментов.
www.twitch.tv/gpt_plays_pokemon
Кстати, мы забыли вам сообщить, что GPT-5 уже со вчера бесплатно доступна в Cursor. Если вы никогда не вайб-кодили до этого, то теперь точно никуда не денетесь
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤93😁29🔥21👍5❤🔥1👌1
Data Secrets
Что мы имели в виду, когда писали, что «шкалы на графиках те еще» Просто присмотритесь 😁
Найден еще один легендарный график с презентации OpenAI. Этот просто 10/10
Либо это какая-то мощная постирония, чтобы превратиться в мем (как известно, плохой рекламы не бывает), либо графики рисовала GPT-5, либо и то и другое
Либо это какая-то мощная постирония, чтобы превратиться в мем (как известно, плохой рекламы не бывает), либо графики рисовала GPT-5, либо и то и другое
1😁395🔥49 37❤22💯6👍5
Ладно, давайте отвлечемся от GPT-5 и обсудим то, что Google представили новый метод разметки данных для файнтюнинга
Главное: он позволяет уменьшить количество необходимых для обучения примеров буквально в тысячи и десятки тысяч раз, без потери качества.
Сейчас объясним, как это работает на примере задачи модерации рекламы. Вместо того, чтобы сразу передавать данные на аннотацию разметчикам, происходит вот такой цикл:
1. Исходная языковая модель получает задачу и сама размечает данные как «кликбейт» или «обычная реклама».
2. Далее эти две группы отдельно кластеризуются на основе обычных эмбеддингов.
3. В ходе кластеризации появляются перекрывающиеся кластеры разных групп. И вот именно эти «спорные» пары передаются на ручную разметку.
Просто и изящно. В итоге точность моделей после файнтюнинга такая же, а данных нужно размечать в тысячи раз меньше. Представьте, какая экономия.
Вот так. Берите на заметку, имплементировать в своих проектах такое очень легко
research.google/blog/achieving-10000x-training-data-reduction-with-high-fidelity-labels/
Главное: он позволяет уменьшить количество необходимых для обучения примеров буквально в тысячи и десятки тысяч раз, без потери качества.
Сейчас объясним, как это работает на примере задачи модерации рекламы. Вместо того, чтобы сразу передавать данные на аннотацию разметчикам, происходит вот такой цикл:
1. Исходная языковая модель получает задачу и сама размечает данные как «кликбейт» или «обычная реклама».
2. Далее эти две группы отдельно кластеризуются на основе обычных эмбеддингов.
3. В ходе кластеризации появляются перекрывающиеся кластеры разных групп. И вот именно эти «спорные» пары передаются на ручную разметку.
Просто и изящно. В итоге точность моделей после файнтюнинга такая же, а данных нужно размечать в тысячи раз меньше. Представьте, какая экономия.
Вот так. Берите на заметку, имплементировать в своих проектах такое очень легко
research.google/blog/achieving-10000x-training-data-reduction-with-high-fidelity-labels/
10❤188👍64🔥33 12😁5🤯5 1
Российские школьники победили на Международной олимпиаде по ИИ
Она проходила в Китае 2-8 августа. Российские школьники завоевали 8 медалей, в том числе 6 золотых, 1 серебряную и 1 бронзовую. Это абсолютный рекорд среди 61 страны. В общекомандном зачете, кстати, сборная тоже вошла в топ.
Кажется, растет новое поколение крутых исследователей.
Изо всех сил радуемся и поздравляем ребят!🎉
Она проходила в Китае 2-8 августа. Российские школьники завоевали 8 медалей, в том числе 6 золотых, 1 серебряную и 1 бронзовую. Это абсолютный рекорд среди 61 страны. В общекомандном зачете, кстати, сборная тоже вошла в топ.
Кажется, растет новое поколение крутых исследователей.
Изо всех сил радуемся и поздравляем ребят!
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥565❤121 64👍35😁15🤨7 7🤓6❤🔥5🤯2👾1
Итак, самый важный релиз недели по вашему мнению:
Anonymous Poll
22%
gpt-oss
10%
Claude Opus 4.1
55%
GPT-5
13%
Genie 3 (ну вдруг)
1 80😁27⚡11🍾8 7 5👍2❤1🗿1
Так, Сэм Альтман собрал фидбэк о GPT-5 от пользователей в AMA на Reddit и вот несколько хороших новостей:
1. Вчера система (не забываем, что это именно система, а не одна модель) казалась глупее, потому что сломался роутинг между моделями. Теперь все починили, по идее должно стать поприятнее.
2. Информация о том, какая модель работает над запросом, станет прозрачнее: видимо, будет отображаться где-то перед аутпутом. Плюс разработчики до сих пор калибруют границу принятия решения о переключении моделей. Также можно будет вручную переключаться в режим ризонинга.
3. После того, как GPT-5 наконец докатят на всех, лимиты для Plus пользователей удвоятся.
Также OpenAI рассматривают возможность разрешить Plus юзерам продолжать использовать GPT-4o. Об этом попросило прямо ооочень много людей.
1. Вчера система (не забываем, что это именно система, а не одна модель) казалась глупее, потому что сломался роутинг между моделями. Теперь все починили, по идее должно стать поприятнее.
2. Информация о том, какая модель работает над запросом, станет прозрачнее: видимо, будет отображаться где-то перед аутпутом. Плюс разработчики до сих пор калибруют границу принятия решения о переключении моделей. Также можно будет вручную переключаться в режим ризонинга.
3. После того, как GPT-5 наконец докатят на всех, лимиты для Plus пользователей удвоятся.
Также OpenAI рассматривают возможность разрешить Plus юзерам продолжать использовать GPT-4o. Об этом попросило прямо ооочень много людей.
2👍154❤45🔥23😁13🤓7
Нашли тут для вас готовый ноутбук для файнтюна gpt-oss
Внутри все end-to-end, от скачивания модели и подготовки данных до обучения и инференса.
Еще и мощно оптимизировано, кстати. Моделька на 20В вмещается в 14GB видеопамяти. То есть теоретически запустится даже на бесплатных ресурсах колаба.
Ноутбук для 20В (его же можно использовать для 120В)
А вот тут лежат все текстовые пояснения к коду и «теория»:про то, как работает формат Harmony и почему он необходим, например. В общем все, чтобы запускать код не в слепую (хотя так тоже можно), а с достаточно глубоким пониманием.
Занятие на выходные что надо
Внутри все end-to-end, от скачивания модели и подготовки данных до обучения и инференса.
Еще и мощно оптимизировано, кстати. Моделька на 20В вмещается в 14GB видеопамяти. То есть теоретически запустится даже на бесплатных ресурсах колаба.
Ноутбук для 20В (его же можно использовать для 120В)
А вот тут лежат все текстовые пояснения к коду и «теория»:про то, как работает формат Harmony и почему он необходим, например. В общем все, чтобы запускать код не в слепую (хотя так тоже можно), а с достаточно глубоким пониманием.
Занятие на выходные что надо
6🔥171👍45❤30 10😁2 2
Вы тоже заметили, что мы забыли про старое доброе CV?
Везде все только про LLM, элаймент, агентов и все такое. А иногда так хочется почитать или послушать про новинки из других областей.
Поэтому вот вам глоток свежего воздуха, если вы так же сильно как мы любите компьютерное зрение. МТС, Яндекс, AIRI, VisionLabs и Wildberries & Russ проведут целую серию офлайн митапов по CV.
Мы заглянули в программу, там CV во всей широте: мелькают и discriminative, и generative, и multimodal подходы.
Среди тем: мультимодальные агенты, bias в компьютерном зрении, видеосегментация процессов на складе, контроль генераций диффузионных моделей. Практично, интересно и, главное, свежо.
Будет хардово (как мы любим), но доступно и емко. Исследователям и инженерам – особенно рекомендуем. Смотреть онлайн, кстати, тоже можно.
Провожаем лето правильно и продуктивно. Регистрируйтесь на первый митап сразу -> тут
Везде все только про LLM, элаймент, агентов и все такое. А иногда так хочется почитать или послушать про новинки из других областей.
Поэтому вот вам глоток свежего воздуха, если вы так же сильно как мы любите компьютерное зрение. МТС, Яндекс, AIRI, VisionLabs и Wildberries & Russ проведут целую серию офлайн митапов по CV.
Мы заглянули в программу, там CV во всей широте: мелькают и discriminative, и generative, и multimodal подходы.
Среди тем: мультимодальные агенты, bias в компьютерном зрении, видеосегментация процессов на складе, контроль генераций диффузионных моделей. Практично, интересно и, главное, свежо.
Будет хардово (как мы любим), но доступно и емко. Исследователям и инженерам – особенно рекомендуем. Смотреть онлайн, кстати, тоже можно.
Провожаем лето правильно и продуктивно. Регистрируйтесь на первый митап сразу -> тут
3👍47❤18🗿13😁5👾2🤯1
О, прикольно: ИИ отправят на Марс в качестве… врача
Этим совместно занимаются NASA и Google. Вместе они разрабатывают систему Crew Medical Officer Digital Assistant (CMO-DA), которая будет помогать космонавтам следить за своим здоровьем на борту.
Инструмент тестируют уже сейчас: это мультимодальная система, которая может распознавать речь, текст и изображение. Пока средняя точность диагностики – 80%.
Этим совместно занимаются NASA и Google. Вместе они разрабатывают систему Crew Medical Officer Digital Assistant (CMO-DA), которая будет помогать космонавтам следить за своим здоровьем на борту.
Инструмент тестируют уже сейчас: это мультимодальная система, которая может распознавать речь, текст и изображение. Пока средняя точность диагностики – 80%.
1❤125🔥70👍23🤯7🤨5☃3😁2❤🔥1 1
Формат harmony для gpt-oss и с чем его едят
Мы тут на выходных продолжаем копаться в gpt-oss и решили рассказать вам о том, что такое harmony.
Во-первых, самое важное: без формата harmony gpt-oss работать не будет. Точнее будет, но выдаст белиберду, потому что обучен был только на harmony.
Во-вторых, harmony – это не совсем токенизация, как много где упоминается. Это именно формат сообщений, то есть структура с ролями, тегами и каналами.
Наверху пример того, как это выглядит.
⚪️ Есть роли (system, developer, user, assistant и tool). Например, system – это системный промпт. Tool – это результат вызова инструмента. Если возникает конфликт инструкций, то system > developer > user > assistant > tool.
⚪️ Есть каналы: final (основной ответ), analysis (цепочки мыслей), commentary (преамбулы к tool call’ам).
⚪️ Ну и теги (aka специальные токены) типа start, end, call, channel и др. Каждое сообщение структурируется примерно так:
Что касается токенизации: да, она должна быть совместима с harmony, но harmony – это не алгоритм токенизации. А в качестве алгоритма используется tiktoken. Для того, чтобы все работало правильно, OpenAI сделали для него специальный режим o200k_harmony. Разница только в лексемном словаре, но не в подходе.
На практике все очень просто. Проговорим кратко:
А теперь главное: зачем OpenAI harmony?
Тут все довольно очевидно. Это стратегический ход.
Если все в опенсорс сообществе перейдут на Harmony, он станет единым стандартом для диалогов и агентов, как когда‑то API OpenAI стало общим форматом работы с моделями.
А кто определяет формат — тот и заказывает музыку: все агенты пишутся под Harmony, OpenAI укрепляется на рынке даже за пределами своих моделей, а разработчиков легко переводить с open‑source на коммерческие продукты компании, потому что переписывать ничего не нужно.
Вот так как-то
Документация тут, если что
Мы тут на выходных продолжаем копаться в gpt-oss и решили рассказать вам о том, что такое harmony.
Во-первых, самое важное: без формата harmony gpt-oss работать не будет. Точнее будет, но выдаст белиберду, потому что обучен был только на harmony.
Во-вторых, harmony – это не совсем токенизация, как много где упоминается. Это именно формат сообщений, то есть структура с ролями, тегами и каналами.
Наверху пример того, как это выглядит.
<|start|>{роль}<|channel|>{канал}<|message|>{контент}<|end|>
Что касается токенизации: да, она должна быть совместима с harmony, но harmony – это не алгоритм токенизации. А в качестве алгоритма используется tiktoken. Для того, чтобы все работало правильно, OpenAI сделали для него специальный режим o200k_harmony. Разница только в лексемном словаре, но не в подходе.
На практике все очень просто. Проговорим кратко:
– Если запускаете модель через готовых интеграторов (HuggingFace, Ollama и тд), все форматирование будет выполнено автоматически
– Если запускаете через свои скрипты или торч, форматировать надо вручную. Для удобства OpenAI выпустили специальную либу openai-harmony
– С дообучением то же самое: датасет должен быть в формате harmony, здесь также используем openai-harmony
А теперь главное: зачем OpenAI harmony?
Тут все довольно очевидно. Это стратегический ход.
Если все в опенсорс сообществе перейдут на Harmony, он станет единым стандартом для диалогов и агентов, как когда‑то API OpenAI стало общим форматом работы с моделями.
А кто определяет формат — тот и заказывает музыку: все агенты пишутся под Harmony, OpenAI укрепляется на рынке даже за пределами своих моделей, а разработчиков легко переводить с open‑source на коммерческие продукты компании, потому что переписывать ничего не нужно.
Вот так как-то
Документация тут, если что
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤108👍60🔥12🤔8😁5🤝3
Осознали тут, что новый учебный год начинается уже через три недели 😎
Интересно, много среди нас тех, кто поступил в этом году в ШАД, AI Masters и ML магистратуры? Делитесь ожиданиями.
Если есть те, кто пока только собирается пробоваться – удачи! Сейчас самое время настроиться на следующий набор и спланировать подготовку на год вперед.
А как это правильно сделать – расскажет на бесплатном вебинаре лучшая школа по подготовку к ШАДу Shad Helper.
Они готовят студентов уже 6 лет, а ведут у них преподаватели из МГУ, МФТИ и ВШЭ. Главная ценность их курсов – в комплексной последовательной подготовке. И да, у них учиться тоже сложно. Зато вступительные куда угодно потом пройдете запросто.
Так вот, 13 числа они проведут вебинар и детально обсудят, что надо знать, как спланировать подготовку и обойти подводные камни. И, конечно, подробнее расскажут про свой новый курс по подготовке к ШАДу и другим программам.
Вишенка: нашим подписчикам на этот курс доступна скидка 30% на первоначальный взнос. Забирайте промокод:
➖ Регистрация на вебинар
➖ Больше информации про курс по подготовке к ШАД
Для студентов и начинающих ML/DS спецов (если планируете долгую успешную карьеру) – мастхэв.
Интересно, много среди нас тех, кто поступил в этом году в ШАД, AI Masters и ML магистратуры? Делитесь ожиданиями.
Если есть те, кто пока только собирается пробоваться – удачи! Сейчас самое время настроиться на следующий набор и спланировать подготовку на год вперед.
А как это правильно сделать – расскажет на бесплатном вебинаре лучшая школа по подготовку к ШАДу Shad Helper.
Они готовят студентов уже 6 лет, а ведут у них преподаватели из МГУ, МФТИ и ВШЭ. Главная ценность их курсов – в комплексной последовательной подготовке. И да, у них учиться тоже сложно. Зато вступительные куда угодно потом пройдете запросто.
Так вот, 13 числа они проведут вебинар и детально обсудят, что надо знать, как спланировать подготовку и обойти подводные камни. И, конечно, подробнее расскажут про свой новый курс по подготовке к ШАДу и другим программам.
Вишенка: нашим подписчикам на этот курс доступна скидка 30% на первоначальный взнос. Забирайте промокод:
DS30
.Для студентов и начинающих ML/DS спецов (если планируете долгую успешную карьеру) – мастхэв.
Please open Telegram to view this post
VIEW IN TELEGRAM
2😁37🗿28 11❤5🔥5👍3🤔3🤯1
Forwarded from Data Secrets | Карьера
Пока Цукерберг забирает талантов из OpenAi, Илон Маск забирает таланты у Meta
С января этого года Илон Маск переманил к себе в xAi по крайней мере 14 исследователей и инженеров из Meta.
Среди бывших работников Meta Маск забрал к себе: Синьлэй Чен, который был научным сотрудником в FAIR и фокусировался на мультимодальных системах. Шэн Сен, который помог масштабировать модели Llama — также присоединился к xAI в апреле, согласно его профилю в LinkedIn.
Санта-Барбара какая-то🔵
С января этого года Илон Маск переманил к себе в xAi по крайней мере 14 исследователей и инженеров из Meta.
Среди бывших работников Meta Маск забрал к себе: Синьлэй Чен, который был научным сотрудником в FAIR и фокусировался на мультимодальных системах. Шэн Сен, который помог масштабировать модели Llama — также присоединился к xAI в апреле, согласно его профилю в LinkedIn.
Санта-Барбара какая-то
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁276❤40 27 14 7🤔6👍4🔥3🗿2☃1🤯1
Начинаем понедельник с двух хороших новостей
1. Plus юзерам ChatGPT еще раз повысили лимиты. Теперь им доступно 3000 запросов на gpt-5-thinking в неделю. Это значит, что лимиты по разным классам моделей выросли почти в дважды по сравнению с тем, что было до gpt-5. Страшно представить, что там происходит с видеокартами.
2. Grok-4 теперь доступен бесплатным пользователям. Дают буквально несколько запросов в день, но уже что-то.
Теперь ждем повышение лимитов от Google и Anthropic, а то неловко получается🙃
1. Plus юзерам ChatGPT еще раз повысили лимиты. Теперь им доступно 3000 запросов на gpt-5-thinking в неделю. Это значит, что лимиты по разным классам моделей выросли почти в дважды по сравнению с тем, что было до gpt-5. Страшно представить, что там происходит с видеокартами.
2. Grok-4 теперь доступен бесплатным пользователям. Дают буквально несколько запросов в день, но уже что-то.
Теперь ждем повышение лимитов от Google и Anthropic, а то неловко получается
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥164😁55❤23👍11☃1
Кстати, занятная статистика от Альтмана: всего 7% пользователей тарифа Plus пользовались ризонинг моделями до появления GPT-5
Сейчас это число выросло до 24% (естественно, потому что новая система сама роутит на ризонеры).
У бесплатных пользователей ситуация еще хуже: раньше <1% юзеров пробовали ризонеры. Теперь 7%.
Интересно, все правда так любили gpt-4o или просто не умеют пользоваться выпадающими списками?
Сейчас это число выросло до 24% (естественно, потому что новая система сама роутит на ризонеры).
У бесплатных пользователей ситуация еще хуже: раньше <1% юзеров пробовали ризонеры. Теперь 7%.
Интересно, все правда так любили gpt-4o или просто не умеют пользоваться выпадающими списками?
1😁213👍34❤19 6🤯5🔥3🤨2❤🔥1
Исследователи из Пекина предложили алгоритм поиска кратчайших путей, который обходит Дейкстру
Почти 70 лет ученые пытались сломать барьер сортировки для этой задачи. В данной работе это получилось впервые. Разбираемся⬇️
Классический Дейкстра устроен так: мы храним вершины в приоритетной очереди и итеративно выбираем ближайшую, проверяя рёбра и обновляя расстояния, если путь через текущее ребро короче. Узкое место тут как раз в необходимости постоянно поддерживать упорядоченность большой очереди вершин.
Из-за этой упорядоченности и возник так называемый «барьер сортировки». Считалось, что перебить его невозможно.
Но вот, что сделали авторы тут:
Итого, сложность Дейкстры – O(m + n log n), а BMSSP – O(m log^(2/3) n). Во втором случае логарифм растет заметно медленнее.
Что это все значит для ML? Может показаться, что ничего. Но на самом деле алгоритм Дейкстры вездесущий. Например:
– В графовых нейросетях на основе расстояний между вершинами часто вычисляются самые важные фичи.
– Для всяких ML-алгоритмов для логистики просто незаменимо.
– И даже в RL есть применение. Например, при обучении роботов среда может быть представлена как граф состояний, в котором оптимальная политика – это кратчайший путь.
Вот так как-то. Исторический день, получается.
Статья полностью тут, почитайте обязательно
Почти 70 лет ученые пытались сломать барьер сортировки для этой задачи. В данной работе это получилось впервые. Разбираемся
Классический Дейкстра устроен так: мы храним вершины в приоритетной очереди и итеративно выбираем ближайшую, проверяя рёбра и обновляя расстояния, если путь через текущее ребро короче. Узкое место тут как раз в необходимости постоянно поддерживать упорядоченность большой очереди вершин.
Из-за этой упорядоченности и возник так называемый «барьер сортировки». Считалось, что перебить его невозможно.
Но вот, что сделали авторы тут:
1. Делим задачу на подзадачи с ограничением по максимальному расстоянию, до которого считаем пути.
2. Сжимаем «фронтир»: из вершин на границе уже найденных путей оставляем только небольшое число ключевых (пивотов).
3. Рекурсивно обрабатываем только пивоты и их ближайшие вершины, избегая полной сортировки.
4. Для остальных вершин добиваем расстояния несколькими шагами по всем рёбрам (метод в духе Беллмана–Форда).
5. Повторяем процесс, постепенно уточняя расстояния до всех вершин.
Итого, сложность Дейкстры – O(m + n log n), а BMSSP – O(m log^(2/3) n). Во втором случае логарифм растет заметно медленнее.
Что это все значит для ML? Может показаться, что ничего. Но на самом деле алгоритм Дейкстры вездесущий. Например:
– В графовых нейросетях на основе расстояний между вершинами часто вычисляются самые важные фичи.
– Для всяких ML-алгоритмов для логистики просто незаменимо.
– И даже в RL есть применение. Например, при обучении роботов среда может быть представлена как граф состояний, в котором оптимальная политика – это кратчайший путь.
Вот так как-то. Исторический день, получается.
Статья полностью тут, почитайте обязательно
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥418🤯72 54❤30👍15👏6❤🔥2😁2🤔2🕊1🗿1
Data Secrets
Начинаем понедельник с двух хороших новостей 1. Plus юзерам ChatGPT еще раз повысили лимиты. Теперь им доступно 3000 запросов на gpt-5-thinking в неделю. Это значит, что лимиты по разным классам моделей выросли почти в дважды по сравнению с тем, что было…
Вашему вниманию: лучший мем за последнее время и одновременно лучший стеб OpenAI, который вы когда-либо видели
3😁268🔥45👍23🤨14🗿7❤4💯4🤯2