Data Secrets
77.3K subscribers
6.03K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
⚡️ Вышла GPT-5-Codex

Это версия GPT-5, оптимизированная специально для программирования и агентных сценариев. Пишут, что она способна автономно работать часами.

Что показалось прикольным:

– Модель подстраивается под coding-стиль проекта. То есть если видит, например, функциональное программирование, выдавать будет тоже функционалку.

– Можно прикреплять не только текст, но и скриншоты, архитектурные заметки, дизайн-схемы. Может и до интеграции с Figma когда-нибудь доживем.

– В зависимости от задачи модель может работать от нескольких секунд до нескольких часов. OpenAI говорят, что однажды модель работала над их задачей 7 часов. Что-то тестировала, итерационно исправляла и дописывала.

По тестам, в нижних 10% запросов (по количеству токенов) модель использует на 93.7% меньше токенов по сравнению с обычной GPT-5, а для самых сложных задач раздумывает и тестирует вдвое дольше.

Метрики: SWE-bench Verified – 74.5% ; качество рефакторинга улучшено с 34% до 51.3. Пока чисел мало, так что ждем.

Из остального: интеграция с GitHub, улучшенный Code review и оценки безопасности, облачный hand-off (то есть поддерживает работу в локальном режиме, но затем может перехватываться облаком).

Уже доступно в VSCode, JetBrains и через терминал. Попробовать могут любые подписчики тарифов OpenAI, так что обязательно тестим

openai.com/index/introducing-upgrades-to-codex/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍82🔥362016❤‍🔥3😁3
Мультиагентные системы – это однозначно новый двигатель прогресса в плане автоматизации. Но на практике внедрение агентов далеко не самый простой процесс.

Во-первых, не у всех есть ресурсы на разработку такой системы как таковой. Во-вторых, интеграции затягиваются на месяцы, и разные ИИ-решения в итоге никак не структурированы. А хочется, чтобы они лежали в каком-то одном удобном контуре.

Вот как раз такой контур предлагают Just AI. Их Agent Platform – это единая платформа enterprise-уровня (chat-, voice-, workflow-) для создания, управления и масштабирования решений на базе автономных AI-агентов и запуска мультиагентных систем.

Ключевое преимуществообъединение автоматизации фронт- и бэк-процессов в одной среде. Это означает реальную мультиагентность: один агент общается в чате, другой выполняет задачу на бекэнде, третий оформляет отчетность – и все это происходит в одном контуре.

Уже доступны готовые коннекторы к более чем 30 сервисам: от RAG и баз данных до CRM, Telegram и Slack. Также можно подключить одну из популярных LLM: OpenAI, Anthropic, Gemini или другие модели. А чтобы все было прозрачно, ребята предусмотрительно добавили встроенные FinOps-инструменты для анализа эффективности агентов и расходов на них.

Платформа работает в формате no/low-code, но для профессиональных разработчиков есть Pro-code режим с глубоким контролем и возможностью встроить агентов во внутренние корпоративные системы. Развернуть можно и в облаке, и локально.

В условиях дефицита подобных решений для компаний такая продуманная система может стать настоящим катализатором роста.

Почитать подробнее можно здесь.
👍4122🤔10🔥8😁7🗿6🤯2👌1🐳1
Data Secrets
Из xAI за одну ночь уволили 500 человек Все они работали разметчиками данных. 500 специалистов – это, если что, примерно треть всего подразделения аннотаций данных. А подразделение аннотаций, в свою очередь, является самым большим в xAI. Увольнения прошли…
А вот и подробности о том, кого нанимают в xAI для разметки данных

Вашему вниманию: необходимо быть либо медалистом IMO (или аналогичной олимпиады), либо иметь степень магистра или PhD в области, связанной с наукой о данных...

... И все это за *скромные* 45$-100$ в час.

А пока весь твиттер (X) обсуждает много это или мало, делимся с вами мемами, рождёнными на волне возмущения
😁172221498🤯655🔥2🆒2🗿1
This media is not supported in your browser
VIEW IN TELEGRAM
О, смотрите какую прикольную интерактивную визуализацию выкатили Anthropic

Это график использования Claude по штатам Америки. Можно потыкать и посмотреть, где ИИ используют для каких целей. Например: в Колорадо чаще используют клода для планирования путешествий, а в Вашингтоне для редактирования документов и карьерных консультаций.

То есть структура экономики штата напрямую связана с тем, как люди используют ИИ, это забавно. И кстати, штаты, где больше всего айтишников – не самые активные по уровню использования.

Плюс опубликовали немножко свежей статистики. Смотрим:

– Оказывается, использование Claude в разных странах тесно коррелирует с доходом. В странах с низким доходом ИИ используют намного чаще именно для автоматизации (делегировать и забыть), в богатых странах – больше в сотрудничестве и обучении. Ну и по уровню проникновения тоже: 1% роста ВВП = +0,7% использования Claude на работающего жителя.

– Уже 40% работников в США используют ИИ в работе. Два года назад было 20%. Это в разы быстрее, чем распространялся, например, Интернет или ПК.

– Доля прямой автоматизации (когда Claude выполняет задачи полностью, без итераций) выросла с 27% в конце 2024 до 39% летом 2025.

Про сам статистический индекс, то есть про то, как анропики все это на самом деле считают, мы писали тут.

Репорт | Блогпост
58❤‍🔥19🫡13👍5🔥5🤯5🗿1
POV: ты только что решил, что DevOps’а в команду нанимать не обязательно, потому что есть Claude Code
2😁338🔥3617🫡10😎7🤔2🤯2🤨1🗿1
Вышло большое исследование о том, как люди на самом деле выбирают модели под свои заадчи

Внезапно, но факт: менее 50% ориентируются на бенчмарки, а 26.7% принципиально ими не пользуются.

Но давайте начнем с начала. Исследование совсем свежее, его проводили в середине этого лета аналитики из LLMARENA (@llm_arena). Это платформа для сравнения моделей, а ее фаундер, кстати, – наш сосед по каналу, Роман Куцев @Roma_Data.

Они опрашивали ML-инженеров, дата сайентистов, ML-ops'ов и лидеров команд AI. В общем, тех, кто обычно непосредственно принимает участие в выборе модели. Смотрите, что получилось:

Бенчмарки и рейтинги LLM теряют доверие, команды всё чаще (в 82.2% случаев) полагаются на собственные тесты.

Более четверти респондентов (26.7%) вообще не используют бенчмарки из принципа. Смотрят на них только 48.9%, и то – в основном как на косвенный сигнал. 37.8% больше доверяют тг-каналам и обзорам юзеров. Ну и только 18% вообще заглядывают в рейтинги типа llm-stats.

Среди причин такого недоверия к бенчмаркам: проблемы с методологией (мы разбирали всякие статистические ошибки рейтингов здесь, например); нерелевантность покрытия задач; лабораторные условия (на проде все иначе, как известно); накрученность рейтингов и хайп; переобучение под конкретные тесты.

Как видите, практика, как всегда, оторвана от теории и искусственных тестов. Это означает две вещи: (1) бенчмарки в классическом своем виде изжили себя и пока менять подход; (2) индустрии вообще плевать на изменение метрик на доли процента, и выбор моделей сильно упрощен: главное – скорость внедрения и цена.

Полное исследование тут, советуем посмотреть на графики
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
154👍26🔥9😁2🤨2
Media is too big
VIEW IN TELEGRAM
Figure AI привлек 1 миллиард долларов при оценке в 39 миллиардов. Это делает его одним из самых дорогих стартапов в мире и самым дорогим робо-стартапом в истории

В Figure вложились NVIDIA, Intel Capital, LG Technology Ventures, Salesforce, T-Mobile Ventures и Qualcomm Ventures (гигант на гиганте). Возглавила раунд Parkway Venture Capital.

Деньги пойдут на масштабирование производства гуманоидов, железо для обучения и симуляций (там как раз Nvidia сделали новые видеокарты для роботов), а также на развитие инфры для сбора данных.

Честно, кто-кто, а Figure AI реально заслужили. Только за последний год они:

– Первыми сделали робота с ризонингом и обучили фундаментальную VLA модель Helix, которая даже по сей день удивляет своей универсальностью
Интегрировали своих роботов на завод BMW, на котором те выполняют реальные задачи
– Первыми умудрились сделать переход sim-to-real (перенос навыков из обучения в симуляции а реальный мир) в zero-shot без дообучения, а это настоящий инженерный прорыв
Анонсировали собственный завод по производству роботов

Так что от них можно ожидать прорывов. Короче, большой день для любителей роботов
❤‍🔥107🔥6619👍14👏2😁2
Агенты теперь смогут безопасно платить: Google выпустили Agent Payments Protocol (АP2)

Его можно будет использовать как расширение MCP или A2A. Протокол задуман как единый фреймворк, который позволит агентам и продавцам проводить любые виды транзакций.

На практике это будет работать благодаря цифровым мандатам:

– Когда вы говорите агенту «Найди мне новые белые кроссовки Nike» формируется Intent Mandate, то есть ваше предварительное намерение уже фиксируется документально.

– Когда агент предложит вам варианты, а вы тыкните «Хочу вот эти, покупай», сформируется Cart Mandate. Этот документ фиксирует: человек выбрал, одобрил, знает цену и ответственен за эту покупку.

– В случае отложенных задач (типа «Купи билеты, как только они появятся в продаже») Cart Mandate может формироваться автоматически без человека, но тогда вы должны четко зафиксировать диапазон одобренных вами цен, тайминг и прочие условия.

То есть, по сути, протокол фиксирует, что агент – исполнитель с доверенностью, а транзакция происходит на деле между вами и продавцом. Юридически это очень нужная штука.

В проекте уже участвуют более 60 партнеров, включая Mastercard, PayPal, Intuit и Salesforce.

Интересно, взлетит или нет

GitHub | Блогпост
3👍179🔥64😁1514👾51
OpenAI продолжает бесшумно формировать свое отделение робототехники

И если раньше они нанимали просто робототехников, то теперь среди вакансий:

– Рисерчеры в области управления и обучения гуманоидов
– Инженеры для разработки симуляторов и прототипирования сенсорных систем
– Механики "с опытом проектирования систем, предназначенных для производства большими тиражами (от 1 млн)"

Получается достаточно серьезная команда. Во всех вакансиях, что интересно, подчеркивается ориентация на “универсальную робототехнику” как путь к AGI.

Напоминаем, что до этого отделение робототехники в стартапе стояло на паузе с 2021 года. Восстанавливать команду они начали только в декабре.

Прикиньте: 2028 год, GPT-10 моет вам посуду
🔥5439😁207👍7🤔2👀1
Media is too big
VIEW IN TELEGRAM
А вот так выглядела робототехника в OpenAI в 2019 году. Это было 6 лет назад, еще задолго до ChatGPT

Проект был посвящен решению кубика Рубика с помощью антропоморфной робо-руки с пятью пальцами. Конечно, до гуманоидов, как у Figure, на тот момент было еще далеко, но эта модель стала одной из первых, которую обучали только в симуляции. На тот момент, считай, прорыв (статью можно почитать тут).

Для переноса навыков использовался метод автоматизированной доменной рандомизации (ADR). В симуляцию время от времени добавляли какие-то "случайные" физические условия, и тем самым во время обучения в симуляции сеть готовилась к неожиданным и разнообразным условиям реального мира.

В итоге рука собирала кубик за 2-4 минуты и даже работала с помехами: например, с прерыванием работы камер или механическим вмешательством человека. Крутой проект, в общем, был.
66👍35🔥17😁2
Илон Маск написал, что верит в то, что Grok 5 станет AGI

Больше обещаний богу обещаний 😛

P.S. Ладно, если серьезно, потенциал xAI нельзя недооценивать. У них куча железа и куча данных: помимо основного потока даты, у них еще X + беспилотные такси. И не забываем про их новое огромное подразделение разметчиков.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁214👍342113🐳8🤔6🗿4🤝22🤓1
У Meta Superintelligence Labs вышла первая статья. Давайте же посмотрим, чем там занимаются ученые за миллионы долларов 🤔

Работа называется "REFRAG: Rethinking RAG based Decoding" и речь в ней про то, как радикально ускорить RAG без потери качества.

Краткий экскурс в RAG. Сначала запрос поступает на вход ретриверу, который как-то ищет в базе (чаще всего векторной) самые релевантные к этому запросу куски текста – пассажи или чанки. Затем они склеиваются в один контекст и скармливаются вместе с исходным промптом декодеру (aka LLMке), который уже лепит из этого итоговый ответ.

Так вот проблема в том, что на практике декодер использует из всех найденных чанков только небольшую часть. А платить приходится за весь входной контекст + страдает latency. Это уже не говоря про взрыв KV-кэша и другие аппаратные сложности.

В REFRAG же предлагается заменить токены из контекста на компактные чанк-эмбеддинги и подавать их в декодер напрямую вместо токенов. Благодаря этому:

1. Вход в декодер сильно короче.

2. Можно не пересчитывать эмбеддинги, а переиспользовать заранее посчитанные из ретривера. Надо только спроецировать их в правильную размерность и все.

3. Сложность аттеншена становится квадратичной по числу чанков, а не токенов. Если проводить аналогию, то в классическом RAG контекст похож на блочно-диагональную матрицу. То есть кусочки слабо связаны, и для итогового ответа полезны только некоторые блоки, НО внимание все равно обсчитывается полностью N×N, а это куча операций.
Здесь же вместо векторов для токенов – векторы для целых чанков (о них можно думать как о супер-токенах, фактически k векторов токенов заменяются на один "общий"). И внимание, получается, строится уже между чанками, а не токенами.

Вы скажете: "Ну тогда мы теряем много деталей". Да. И поэтому параллельно работает лёгкая policy network, которая оценивает важность каждого чанка по текущим активациям модели и уже после аттеншена может позволить развернуть какие-то отдельные кусочки в токены, чтобы сеть освоила их подробнее. Это называется selective expansion.

Ну и самое главное: насколько ускоряет? Ответ: REFRAG быстрее классической LLaMA в 33 раза по Time To First Token без потери качества. Это чуть меньше, чем теоретический прирост (как раз из-за selective expansion), но все равно неплохо. Throughput при этом растет в 6–7 раз, и KV-кэш уменьшается пропорционально размеру чанка. И главное: окно контекста можно расширять в разы.

Единственный минус: такое довольно сложно обучать. Ну и для маленьких контекстов, скорее всего, такая система себя не оправдает. Тем не менее, статья занятная.

https://arxiv.org/pdf/2509.01092
Please open Telegram to view this post
VIEW IN TELEGRAM
98🔥37🤯15👍12😁5🕊2
Ризонинг система от OpenAI заняла абсолютное первое место на финале чемпионата мира по программированию ICPC

Она получила высший балл, решив 12 задач из 12.

Все правила были соблюдены: 5 часов, ровно такой же формат задач и ответов, никакого вмешательства человека. С 11 из 12 задач система справилась с первой попытки, на 12 потребовалось 9 сабмитов.

Мы говорим «система», потому что OpenAI отдельно подчеркнули, что это именно ансамбль моделей. Но при этом ни одну из них специально не обучали для ICPC. Тот же ансамбль участвовал в IMO и IOI.

На втором (первом среди людей!) месте, кстати, команда студентов из СпБГУ. Они решили 11 задач из 12. Последнюю послали за 2 минуты до конца. Поздравляем ребят!

Еще участвовала модель от Google. Но она решила всего 10/12. Хотя это тоже золотая медаль, так что прилично.
2🔥2616429👍19😁7
Meta* официально представила свои ИИ-очки Meta Ray-Ban Display AI glasses, но есть нюанс

Девайс поступит в продажу в конце сентября и будет стоить 799 долларов. Внутри – очки Тони Старка (нууу почти):

– Разрешение 600х600 пикселей
– Микрофоны, камеры, динамики, дисплей
– ЭМГ-браслет, которым можно контролировать очки

Ты есть вы можете давать очкам задачи голосом или жестами, а они будут отображать на дисплее или проговаривать необходимую информацию. Дисплей находится сбоку, не мешает обзору, и не виден окружающим.

И выглядит это все действительно прикольно, но… демо не работает. У Цукерберга и его помощников очки залагали прямо на сцене во время публичной демонстрации ⬆️

Возможно, это случайность, и что-то действительно произошло с Интернетом или техникой. Но фейл серьезный.

Ну так что, покупаем? 😐
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
😁16126❤‍🔥12👍8🗿87🤔55🤯3