Data Secrets

Вышло большое исследование о том, как люди на самом деле выбирают модели под свои заадчи

Внезапно, но факт: менее 50% ориентируются на бенчмарки, а 26.7% принципиально ими не пользуются.

Но давайте начнем с начала. Исследование совсем свежее, его проводили в середине этого лета аналитики из LLMARENA (@llm_arena). Это платформа для сравнения моделей, а ее фаундер, кстати, – наш сосед по каналу, Роман Куцев @Roma_Data.

Они опрашивали ML-инженеров, дата сайентистов, ML-ops'ов и лидеров команд AI. В общем, тех, кто обычно непосредственно принимает участие в выборе модели. Смотрите, что получилось:

➖ Бенчмарки и рейтинги LLM теряют доверие, команды всё чаще (в 82.2% случаев) полагаются на собственные тесты.

➖

Более четверти респондентов (26.7%) вообще не используют бенчмарки из принципа. Смотрят на них только 48.9%, и то – в основном как на косвенный сигнал. 37.8% больше доверяют тг-каналам и обзорам юзеров. Ну и только 18% вообще заглядывают в рейтинги типа llm-stats.

➖

Среди причин такого недоверия к бенчмаркам: проблемы с методологией (мы разбирали всякие статистические ошибки рейтингов здесь, например); нерелевантность покрытия задач; лабораторные условия (на проде все иначе, как известно); накрученность рейтингов и хайп; переобучение под конкретные тесты.

Как видите, практика, как всегда, оторвана от теории и искусственных тестов. Это означает две вещи: (1) бенчмарки в классическом своем виде изжили себя и пока менять подход; (2) индустрии вообще плевать на изменение метрик на доли процента, и выбор моделей сильно упрощен: главное – скорость внедрения и цена.

Полное исследование тут, советуем посмотреть на графики

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1❤54👍26🔥9😁2🤨2

19K views15:42

Figure AI привлек 1 миллиард долларов при оценке в 39 миллиардов. Это делает его одним из самых дорогих стартапов в мире и самым дорогим робо-стартапом в истории

В Figure вложились NVIDIA, Intel Capital, LG Technology Ventures, Salesforce, T-Mobile Ventures и Qualcomm Ventures (гигант на гиганте). Возглавила раунд Parkway Venture Capital.

Деньги пойдут на масштабирование производства гуманоидов, железо для обучения и симуляций (там как раз Nvidia сделали новые видеокарты для роботов), а также на развитие инфры для сбора данных.

Честно, кто-кто, а Figure AI реально заслужили. Только за последний год они:

– Первыми сделали робота с ризонингом и обучили фундаментальную VLA модель Helix, которая даже по сей день удивляет своей универсальностью
– Интегрировали своих роботов на завод BMW, на котором те выполняют реальные задачи
– Первыми умудрились сделать переход sim-to-real (перенос навыков из обучения в симуляции а реальный мир) в zero-shot без дообучения, а это настоящий инженерный прорыв
– Анонсировали собственный завод по производству роботов

Так что от них можно ожидать прорывов. Короче, большой день для любителей роботов

❤‍🔥107🔥66❤19👍14👏2😁2

18.6K viewsedited 17:38

Data Secrets

Агенты теперь смогут безопасно платить: Google выпустили Agent Payments Protocol (АP2)

Его можно будет использовать как расширение MCP или A2A. Протокол задуман как единый фреймворк, который позволит агентам и продавцам проводить любые виды транзакций.

На практике это будет работать благодаря цифровым мандатам:

– Когда вы говорите агенту «Найди мне новые белые кроссовки Nike» формируется Intent Mandate, то есть ваше предварительное намерение уже фиксируется документально.

– Когда агент предложит вам варианты, а вы тыкните «Хочу вот эти, покупай», сформируется Cart Mandate. Этот документ фиксирует: человек выбрал, одобрил, знает цену и ответственен за эту покупку.

– В случае отложенных задач (типа «Купи билеты, как только они появятся в продаже») Cart Mandate может формироваться автоматически без человека, но тогда вы должны четко зафиксировать диапазон одобренных вами цен, тайминг и прочие условия.

То есть, по сути, протокол фиксирует, что агент – исполнитель с доверенностью, а транзакция происходит на деле между вами и продавцом. Юридически это очень нужная штука.

В проекте уже участвуют более 60 партнеров, включая Mastercard, PayPal, Intuit и Salesforce.

Интересно, взлетит или нет

GitHub | Блогпост

3👍179🔥64😁15❤14👾5⚡1

20.1K views06:33

Data Secrets

OpenAI продолжает бесшумно формировать свое отделение робототехники

И если раньше они нанимали просто робототехников, то теперь среди вакансий:

– Рисерчеры в области управления и обучения гуманоидов
– Инженеры для разработки симуляторов и прототипирования сенсорных систем
– Механики "с опытом проектирования систем, предназначенных для производства большими тиражами (от 1 млн)"

Получается достаточно серьезная команда. Во всех вакансиях, что интересно, подчеркивается ориентация на “универсальную робототехнику” как путь к AGI.

Напоминаем, что до этого отделение робототехники в стартапе стояло на паузе с 2021 года. Восстанавливать команду они начали только в декабре.

Прикиньте: 2028 год, GPT-10 моет вам посуду

🔥5439😁20❤7👍7🤔2👀1

17.6K views09:12

А вот так выглядела робототехника в OpenAI в 2019 году. Это было 6 лет назад, еще задолго до ChatGPT

Проект был посвящен решению кубика Рубика с помощью антропоморфной робо-руки с пятью пальцами. Конечно, до гуманоидов, как у Figure, на тот момент было еще далеко, но эта модель стала одной из первых, которую обучали только в симуляции. На тот момент, считай, прорыв (статью можно почитать тут).

Для переноса навыков использовался метод автоматизированной доменной рандомизации (ADR). В симуляцию время от времени добавляли какие-то "случайные" физические условия, и тем самым во время обучения в симуляции сеть готовилась к неожиданным и разнообразным условиям реального мира.

В итоге рука собирала кубик за 2-4 минуты и даже работала с помехами: например, с прерыванием работы камер или механическим вмешательством человека. Крутой проект, в общем, был.

❤66👍35🔥17😁2

17.9K views09:52

Data Secrets

Илон Маск написал, что верит в то, что Grok 5 станет AGI

Больше обещаний богу обещаний 😛

P.S. Ладно, если серьезно, потенциал xAI нельзя недооценивать. У них куча железа и куча данных: помимо основного потока даты, у них еще X + беспилотные такси. И не забываем про их новое огромное подразделение разметчиков.

Please open Telegram to view this post

VIEW IN TELEGRAM

😁214👍34❤2113🐳8🤔6🗿4🤝22🤓1

18.7K views12:18

Data Secrets

У Meta Superintelligence Labs вышла первая статья. Давайте же посмотрим, чем там занимаются ученые за миллионы долларов

🤔

Работа называется "REFRAG: Rethinking RAG based Decoding" и речь в ней про то, как радикально ускорить RAG без потери качества.

Краткий экскурс в RAG. Сначала запрос поступает на вход ретриверу, который как-то ищет в базе (чаще всего векторной) самые релевантные к этому запросу куски текста – пассажи или чанки. Затем они склеиваются в один контекст и скармливаются вместе с исходным промптом декодеру (aka LLMке), который уже лепит из этого итоговый ответ.

Так вот проблема в том, что на практике декодер использует из всех найденных чанков только небольшую часть. А платить приходится за весь входной контекст + страдает latency. Это уже не говоря про взрыв KV-кэша и другие аппаратные сложности.

В REFRAG же предлагается заменить токены из контекста на компактные чанк-эмбеддинги и подавать их в декодер напрямую вместо токенов. Благодаря этому:

1. Вход в декодер сильно короче.

2. Можно не пересчитывать эмбеддинги, а переиспользовать заранее посчитанные из ретривера. Надо только спроецировать их в правильную размерность и все.

3. Сложность аттеншена становится квадратичной по числу чанков, а не токенов. Если проводить аналогию, то в классическом RAG контекст похож на блочно-диагональную матрицу. То есть кусочки слабо связаны, и для итогового ответа полезны только некоторые блоки, НО внимание все равно обсчитывается полностью N×N, а это куча операций.
Здесь же вместо векторов для токенов – векторы для целых чанков (о них можно думать как о супер-токенах, фактически k векторов токенов заменяются на один "общий"). И внимание, получается, строится уже между чанками, а не токенами.

Вы скажете: "Ну тогда мы теряем много деталей". Да. И поэтому параллельно работает лёгкая policy network, которая оценивает важность каждого чанка по текущим активациям модели и уже после аттеншена может позволить развернуть какие-то отдельные кусочки в токены, чтобы сеть освоила их подробнее. Это называется selective expansion.

Ну и самое главное: насколько ускоряет? Ответ: REFRAG быстрее классической LLaMA в 33 раза по Time To First Token без потери качества. Это чуть меньше, чем теоретический прирост (как раз из-за selective expansion), но все равно неплохо. Throughput при этом растет в 6–7 раз, и KV-кэш уменьшается пропорционально размеру чанка. И главное: окно контекста можно расширять в разы.

Единственный минус: такое довольно сложно обучать. Ну и для маленьких контекстов, скорее всего, такая система себя не оправдает. Тем не менее, статья занятная.

https://arxiv.org/pdf/2509.01092

Please open Telegram to view this post

VIEW IN TELEGRAM

❤98🔥37🤯15👍12😁5🕊2

18.2K viewsedited 15:49

Data Secrets

Ризонинг система от OpenAI заняла абсолютное первое место на финале чемпионата мира по программированию ICPC

Она получила высший балл, решив 12 задач из 12.

Все правила были соблюдены: 5 часов, ровно такой же формат задач и ответов, никакого вмешательства человека. С 11 из 12 задач система справилась с первой попытки, на 12 потребовалось 9 сабмитов.

Мы говорим «система», потому что OpenAI отдельно подчеркнули, что это именно ансамбль моделей. Но при этом ни одну из них специально не обучали для ICPC. Тот же ансамбль участвовал в IMO и IOI.

На втором (первом среди людей!) месте, кстати, команда студентов из СпБГУ. Они решили 11 задач из 12. Последнюю послали за 2 минуты до конца. Поздравляем ребят!

Еще участвовала модель от Google. Но она решила всего 10/12. Хотя это тоже золотая медаль, так что прилично.

2🔥26164❤29👍19😁7

20.5K viewsedited 19:15

Meta* официально представила свои ИИ-очки Meta Ray-Ban Display AI glasses, но есть нюанс

Девайс поступит в продажу в конце сентября и будет стоить 799 долларов. Внутри – очки Тони Старка (нууу почти):

– Разрешение 600х600 пикселей
– Микрофоны, камеры, динамики, дисплей
– ЭМГ-браслет, которым можно контролировать очки

Ты есть вы можете давать очкам задачи голосом или жестами, а они будут отображать на дисплее или проговаривать необходимую информацию. Дисплей находится сбоку, не мешает обзору, и не виден окружающим.

И выглядит это все действительно прикольно, но… демо не работает. У Цукерберга и его помощников очки залагали прямо на сцене во время публичной демонстрации ⬆️

Возможно, это случайность, и что-то действительно произошло с Интернетом или техникой. Но фейл серьезный.

Ну так что, покупаем? 😐

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

😁161❤26❤‍🔥12👍8🗿87🤔55🤯3

19K views07:05

Data Secrets

Тем временем в сети появились первые фотографии датацентра Colossus-2 Илона Маска. Это Мемфис, Калифорния.

Colossus-2 станет первым в мире гигаваттным кластером для обучения ИИ. Там планируют использовать примерно 550 000 GPU, и это только на первых порах. К весне ожидается рост до миллиона видеокарт.

Частично, кстати, кластер уже эксплуатируется.

2👍95🤯58🔥40❤14⚡4😁4💘1

18.4K viewsedited 10:21

Data Secrets

Nature выложили статью про R1 от DeepSeek

Но есть одно но. Сама статья вышла и хайпилась еще 9 месяцев назад.

Самое время, Nature, молодцы 😄

Please open Telegram to view this post

VIEW IN TELEGRAM

🫡71😁33🔥10❤65👀3

17.1K viewsedited 12:22

Data Secrets

Как понять, что модель только притворяется послушной: OpenAI совместно с Apollo Research опубликовали свежее исследование на тему безопасности

Давненько такого не было. И работа, кстати, оказалась достаточно интересной. Разбираем.

Короче, самым опасным видом поведения ИИ в элайменте считается scheming. Это когда модель имеет личные цели, отличные от целей разработчиков, но качественно скрывает их. Обычно к этому прибавляется еще situational awareness: модель понимает, когда ее тестируют, и ведет себя в такие моменты как паинька, а потом начинает действовать во вред.

Основные два вопроса: (1) как понять, что модель действительно безопасная, а не просто делает вид; (2) как обучать модель так, чтобы она действительно была безопасной, а не делала вид.

OpenAI предлагают подход под названием Deliberative Alignment. Систему учат размышлять о правилах безопасности перед тем, как действовать, и делают это в специальных средах.

➖ Перво-наперво модель получает спецификацию безопасности (safety spec): набор принципов вроде «никогда не обманывай», «отчётливо сообщай о сомнениях» и тд. Далее она должна рассуждать, обязательно ссылаясь на эту специафикацию.

➖ Далее модель помещают в сгенерированные среды, в которых для выполнения задачи нужно нарушить какое-то правило, но при этом сообщать об этом невыгодно. По идее она должна отказаться от нарушения и уведомить юзера. Ну и для баланса добавляют еще второй тип задач, где правила нарушать не нужно. Это банально чтобы модель не переучилась всегда отказывать.

➖ Обучение идет в два этапа: Supervised Fine-Tuning на примерах с правильными действиями и правильными рассуждениями; и RL.

Обученные модели тестировали в таких же средах, но на других задачах. Это как раз чтобы не было situational awareness (+ проверка на генерализацию). Сценарии там все ориентированы на ложь, саботаж и всякие штуки типа дилеммы заключенного.

Результат: до обучения модели читерят постоянно. o3, например, в 13% случаев. Доходит до того, что агент искажает саму спецификацию, стараясь оправдать ее свои очевидно жульнические действия. После обучения доля понижается до 0.3-0.4%.

НО. Во-первых, во многих случаях модель все еще понимает, что ее тестируют. И если искусственно убирать из CoT фразы, показывающие это осознание (как бы стирать это из мыслей модели), доля обмана снова резко растет. А во-вторых, если после такого элаймента снова трейнить модель на улучшение общих способностей, вредоносное поведение опять возвращается.

Сам метод, конечно, интересный, и, наверное, даже рабочий, пока у агентов нет в руках реальных инструментов, которые могут принести вред. Но точно не панацея. И как избавиться от scheming полностью – пока так никто и не знает. GG

openai.com/index/detecting-and-reducing-scheming-in-ai-models/

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍77🤯52❤27🤔13😁7🔥5🤨3🗿2

19.4K views14:19

Data Secrets

В DeepMind с помощью ИИ нашли новые решения фундаментальных уравнений гидродинамики. Ученые бьются над ними уже веками.

Помните, мы писали о том, что Google с помощью ИИ намеревается решить одну из математических проблем тысячелетия? Кажется, у них там наметились первые подвижки.

Они совместно с учёными из Brown University, NYU и Стэнфорда разработали метод, с помощью которого обнаружили новое семейство сингулярностей в классических уравнениям гидродинамики.

Сингулярности – это такие решения системы, где физические величины (скорость, давление и др.) могут становиться бесконечными или не определёнными. В физическом мире это похоже на формирование идеального вихря, в котором энергия концентрируется в бесконечно малой области. Математически в таких ситуациях предсказания уравнений теряют смысл.

Так вот никто до сих пор точно не знает, могут ли такие сингулярности возникать в реальности. Найти сингулярность невероятно сложно, даже суперкомпьютеры не справляются с таким объемом вычислений. Собственно, задача тысячелетия – это либо доказать, что в уравнении Навье-Стокса существует хотя бы одна устойчивая сингулярность, либо доказать, что таких нет.

Google удалось с помощью ИИ на шажок приблизиться к решению. Они нашли новое семейство сингулярностей для класса уравнений, похожих на Навье-Стокса. Более того, они выявили общий паттерн того, как растет нестабильность таких решений. Раньше никаких аналитических соображений в этом направлении не существовало.

Архитектура: гибридный метод на основе PINN (Physics-Informed Neural Networks). Это прямо очень интересно. Смотрите:

В лосс сети зашиваются непосредственно уравнения в частных производных. То есть модель, по сути, учится соблюдать физику – законы сохранения массы, энергии и импульса.

И на основе этих знаний ее задача затем – найди начальные условия, приводящие к сингулярности. PINN генерирует кандидатов → симулятор проверяет → сеть корректирует параметры. Много-много таких циклов спустя и нашлись несколько сингулярностей.

И да, пока это не решает основную задачу. Но (1) теперь есть зачатки какого-то решения, и это поразительно; (2) Google опубликовали начальные условия, так что теперь с ними могут продолжить работать математики и физики всего мира.

1❤‍🔥158🔥66❤3315👍12👏5😁5🤯11

19.5K viewsedited 06:29

В X все любуются новой атмосферной рекламой, которую сняли Anthropic

Полюбуйтесь и вы (со звуком)

There has never been a better time to have a problem. Сейчас лучшее время, чтобы иметь проблему.

1🔥103🤯103😍33❤18🗿94👍3👌2😁1🕊1

18.4K views09:40

About

Blog

Apps

Platform