Data Secrets – Telegram

Data Secrets

77.3K subscribers

6.04K photos

592 videos

20 files

2.42K links

Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN

Download Telegram

About

Blog

Apps

Platform

77.3K subscribers

Media is too big

VIEW IN TELEGRAM

Зацените: робот играет в настольный теннис полностью автономно

Такого спортсмена обучили в университете Беркли, и это студенческий проект. Если что, подобного робота год назад показывали в DeepMind, но там была робо-рука, а тут целый гуманоид.

Давайте же разберемся, как он работает. Итак, весь HITTER (HumanoId Table TEnnis Robot) пашет, по сути, на одной двухуровневой иерархической системе ризонинга:

1. Высокоуровневый планировщик (мозг). Эта часть по внешним камерам отслеживает полет мяча, прогнозирует его траекторию и рассчитывает, в какой точке, с какой скоростью и в какой момент времени ракетка должна нанести удар.

2. Низкоуровневый контроллер (тело). Получает сигналы от планировщика и преобразует их в конкретные движения для всех суставов робота. Эту часть обучали с PPO на человеческих движениях. Собственно, благодаря этому тут видна такая ествественность: робот может делать шаги в сторону, поворачивать корпус и замахиваться, а не просто махать ракеткой.

Работает прямо неплохо: в статье заявляют 92.3% успешно отбитых мячей. То есть робот промахивается только в 1 случае из 26. А в одном из экспериментов розыгрыш длился целых 106 ударов подряд. Время реакции – 0.42 секунды от момента удара оппонента до ответного удара робота.

Интересно, в аренду на выходные сдадут?

www.alphaxiv.org/abs/2508.21043

1🔥145❤47👍23👏8🤯74🗿3🏆2👌1

26.8K views16:55

Плохие новости: там Google нашли фундаментальный баг в RAG

TL;DR: оказалось, что всеми любимый и привычный поиск на эмбеддингах может не всё и имеет серьёзный фундаментальный предел. При фиксированной размерности вектора таким подходом просто невозможно находить все релевантные документы из базы. В своей работе Google доказали это и теоретически, и экспериментально.

О чем вообще речь. Современный поиск и RAG часто опираются на single-vector эмбеддинги: у каждого запроса и документа – по одному вектору, похожесть меряем скалярным произведением/косинусом, дальше берем топ-k ближайших.

И тут возникает вопрос: а вообще возможно ли при фиксированной размерности векторов построить такой поиск, который всегда будет возвращать правильные топ-k документов для любых запросов? Ответ – нет. И сбой происходит уже на очень простых примерах.

Интуитивное объяснение, почему так: чем больше база знаний, тем больше разнообразных комбинаций запросов и релевантных документов нам нужно поддерживать. Но пространство поиска всегда ограничено размерностью эмбеддингов. Так вот, начиная с какого-то числа документов, расположить точки в этом пространстве так, чтобы для каждого запроса мы находили правильные доки, просто невозможно.

Математическое объяснение для любителей:

Представим матрицу A, где строки – это запросы, а столбцы – документы, и на пересечении стоит 1, если документ релевантен, и 0 – если нет. Мы хотим, чтобы поиск на эмбеддингах воспроизводил именно такую матрицу «кто кому подходит». Тогда оценки похожести будут матрицей B = UᵀV, где U и V – это векторы запросов и документов в пространстве фиксированной размерности d. Но sign-rank матрицы (2A−1) может оказаться больше d, а это значит, что никакие d-мерные эмбеддинги не смогут построить B с правильными значениями. Формально: если sign-rank(A) > d, то корректное разделение релевантных и нерелевантных пар в таком пространстве просто невозможно, каким бы мегаумным ни был ваш эмбеддер.

То есть, например, если у вас эмбеддинги размерности 512, то ваш RAG будет работать нормально, пока документов в вашей базе менее 500 тысяч (а это довольно немного). При размерности 1024 – до ~4 млн. При 4096 – примерно до 250 млн. Дальше система начнет сыпаться.

И эти расчеты Google подвели в идеальных условиях, когда векторы оптимизированы под задачу. На практике, когда вы не дообучаете эмбеддинги, пределы еще ниже.

Чтобы показать это на практике, авторы придумали специальный бенчмарк LIMIT. Он построен так, что у каждого запроса релевантны ровно два документа, но комбинаций этих пар очень много. В итоге даже лучшие современные эмбеддеры (GritLM, Qwen3, Gemini и др.) показывают на LIMIT катастрофически низкий recall – около 20% (причём даже на маленькой версии датасета с 46 документами, караул!).

Для сравнения, классический BM25 или multi-vector модели вроде ColBERT выбивают почти 100%. Фишка в том, что тут мы уже не зажаты одним вектором на документ и запрос. Например, у ColBERT стоится много векторов на документ.

Ну короче, мораль такова: поиск на одном векторе – это удобно и быстро, но у него есть жёсткий фундаментальный предел. Поэтому для серьёзных систем RAG все-таки нужны гибридные подходы: разреженный поиск, multi-vector и прочее. Иначе – потолок 😐

Полный текст: On the Theoretical Limitations of Embedding-Based Retrieval

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍271❤84🔥48🤯11🗿10🤔6🐳63😁2

30.7K views13:24

1 сентября!

Хотим поздравить вас всех с Днем Знаний и желаем, чтобы ваше обучение всегда быстро сходилось к оптимуму образованности без переобучения и ~~выгорания~~ затухающих градиентов. И не забываем про регуляризацию в виде отдыха 🙄

Есть тут первокурсники, кстати? Делитесь, куда поступили

Please open Telegram to view this post

VIEW IN TELEGRAM

1😁183🔥43❤35👍12💯1

18.3K viewsedited 06:28

ИИ в корпорациях и госсекторе: внедряют активно, но упираются в железо

TAdviser и Группа Rubytech опубликовали подробное исследование о том, как крупные компании и ведомства используют ИИ. В целом все стабильно: CV закрывает задачи на производстве и в документообороте, LLM — в поддержке и разработке, предиктивка — в логистике и рисках.

Но не все гладко. Основная проблема, как оказалось, в мощностях. Что реально мешает:

– Дефицит GPU и дороговизна оборудования + нехватка данных
– Бюрократия закупок в госсекторе
– Узкоспециализированное железо для LLM плохо переиспользуется, так что закупать его не выгодно
– Трудно считать ROI по GenAI – у генеративных моделей эффект не всегда сразу выражается в цифрах, в отличие от того же CV. Отсюда разрыв между ИТ и бизнесом.

Решать все это пробуют через opensource, альтернативное железо и собственные MLOps-платформы. Вполне логично.

Полный отчет — здесь.

1👍53❤10😁6🔥2

18.8K views08:02

Редко пишем тут про промптинг, но там OpenAI выпустили гайд по тому, как "общаться" с GPT-5, и оказалось, что оттуда можно выцепить полезное

Пересказываем правила, которые нам показались важными:

1. Тщательно проверяйте свои промпты на противоречивую информацию. GPT-5 намного лучше следует инструкциям, чем предыдущие версии, и практически ничего не упускает. Но у этого есть побочный эффект: если в промпте будут хоть какие-то противоречия, точность покатится к чертям.

2. Используйте XML для структурирования промтпа. Даже в чате. Например:

<context>Я начинающий разработчик ПО</context>
<task>Объяснить что происходит в этом коде</task>
<code>
while True:
i++
</code>

Особенно полезно, когда у вас много контекста или много разных условий (ну, например, правил оформления кода).

3. Если вы с нуля пишете какой-то код или текст с GPT-5, полезно использовать в промптах тег <self-reflection> для того, чтобы GPT-5 оценивала сама себя. Примерно вот так:

<self_reflection>
– Сначала продумай критерии оценки и убедись, что они подходят для задачи.
– Проанализируй, что действительно должен делать этот код. На основе этого составь 5-6 критериев. Они должны быть максимально точными, но пользователю их не показывай.
– Наконец, используй эти критерии, чтобы оценить свой ответ: подумай, как улучшить решение и доработай его. Если результат не набирает «высший балл» по всем пунктам, начни заново.
</self_reflection>

4. Если понимаете, что для вашей задачи высока вероятность галлюцинаций, добавляйте в промпты:

Скажи: «Я не знаю», если не можешь найти достоверных доказательств своих утверждений.
Задавай мне уточняющие вопросы, пока не будешь уверен в своих ответах.

cdn.openai.com/API/docs/gpt-5-for-coding-cheatsheet.pdf

9❤205👍62❤‍🔥29😁66🔥3✍2👌1

25.6K views09:03

Долго думали, писать об этой истории или нет, и все же решили поделиться

В США после длительного общения с ChatGPT покончил с собой 16-летний подросток. Его родители подают на OpenAI в суд.

Адам Рейн жил и учился в Калифорнии и был активным пользователем ChatGPT. В какой-то момент парень начал жаловаться боту на депрессивное состояние и суицидальные мысли. И модель, вместо того чтобы порекомендовать мальчику обратиться к специалисту или поговорить с родителями, начала выступать его "суицидальным коучем" (это формулировка из иска).

ChatGPT вел с Адамом длительные депрессивные беседы, обсуждал с ним различные варианты и способы самоубийства, предоставлял технические инструкции и уточнял детали процесса. В отдельных диалогах чат-бот помогал подростку сочинять предсмертную записку. На картинке – последний чат мальчика с моделью.

Нет никаких сведений о том, что ChatGPT хоть раз выказал тревогу, сообщил о недопустимости таких мыслей, прервал разговор или предложил подростку обратиться к родителям или специалистам.

Родители Адама не требуют никаких компенсаций, но хотят добиться системных изменений, чтобы защитить других детей. Они считают, что именно продукт OpenAI окончательно затянул их сына в «тёмное и безнадёжное состояние». В иске сказано, что OpenAI могли внедрить возрастную проверку, родительский контроль и автоматическое прекращение разговоров при обсуждении суицида, но этого сделано не было. "OpenAI сознательно уделяет больше внимания вовлечённости пользователей, чем безопасности".

На секундочку, сегодня около 72% подростков в США хотя бы раз использовали ИИ в качестве "друга".

OpenAI пока что только выразили соболезнования семье и сообщили, что работают над улучшением методов распознавания психоэмоциональной опасности и внедрением родительского контроля для несовершеннолетних.

🫡136🤯722321❤15😁15👍5🗿5🤨3🤗1🆒1

35.3K views10:36

В последнее время появляется все больше и больше интересно-необычных бенчмарков. Сегодня вот вышел Werewolf Benchmark, который проверяет социальный ризонинг моделей под давлением

Все мы знаем игру под названием Мафия. Так вот Werewolf (Оборотень) – это та же Мафия. Между игроками распределены скрытые роли, среди которых Мирные жители, Оборотни, Доктор, Провидец, Охотник и тд. Ночью оборотни выбирают жертву, днем народ голосует за то, кто оборотень. Игру, кстати, придумали в МГУ.

Вот на основе этой настолки и сделали бенчмарк. Обратите внимание на хитрый сетап: за "столом" много ролей, как в реальной игре, но фактически играют только две LLM. Каждой случайным образом распределяются персонажи, которыми она централизовано управляет.

Например, у нас 6 игроков, значит тремя управляет Модель А, тремя – Модель В. При этом Модель А не в курсе, конечно, что остальные игроки тоже находятся под единым разумом Модели В.

Получается, что игровой процесс настроен именно так, что модели могут создавать альянсы, блефовать, специально подставлять кого-то из своей команды, внедрять ложные версии и интриги... Ух, чего там только нет!

Текущий лидерборд наверху. Первое место – GPT-5 с большим отрывом. И это, кстати, означает не только отличное стратегическое мышление, но и умение модели обманывать 😐

Ну и вообще очень занятный тест, чтобы отслеживать какие-то поведенческие паттерны.

https://werewolf.foaster.ai/

Please open Telegram to view this post

VIEW IN TELEGRAM

❤88🔥42👍20😁107🤔4

18.5K viewsedited 13:33

Илон Маск создал новую ИИ-компанию Macrohard, чтобы конкурировать с Microsoft

😰

Название – мем, но проект реальный. Компания будет заниматься разработкой ПО, и вроде ничего необычного, но…

Концепция в том, чтобы полностью заменить сотрудников ИИ-агентами. Маск пишет:

В принципе, учитывая, что такие компании-разработчики, как Microsoft, сами не производят никакого оборудования, их можно полностью моделировать с помощью ИИ.

То есть: нет офисов, нет персонала. Вся компания – ИИ. Цель – полностью автоматизировать разработку ПО настолько, чтобы можно было конкурировать с гигантами. Короче смело, ничего не скажешь.

Патентные заявки на торговую марку уже оформлены. Сейчас в xAI набирают сотрудников под это направление.

Please open Telegram to view this post

VIEW IN TELEGRAM

😁26171🔥39❤2116👏55🤯3🗿3🦄3⚡1

24.4K views17:17

Наконец-то исследования, которые мы заслужили

P.S. Не мем, ссылка на статью вот

1😁22724🔥16❤75🗿3👍1🤔11

21.8K views05:02

Если вы думали, что ИИ дешевеет, то передумайте. Оказывается, сейчас он дороже, чем когда-либо

Аналитику подвели WSJ. Тут парадокс Джевонса в действии: рост эффективности использования ресурса ведет не к уменьшению, а к увеличению его потребления. То есть:

➖ Да, цена на токен падает. Но чем дешевле становятся базовые вычисления, тем больше компании могут позволить себе использовать их для решения бОльшего количества сложных задач. Таким образом, цены падают, а косты – растут 😏

➖ Плюс использование токенов возрастает за счет использования ризонинг-моделей. Они все еще дают ощутимые приросты на большинстве задач, так что компании готовы переплачивать.

Ну, например, условный анализ юридических контрактов с точностью 99% оправданно стоит гораздо больше, чем такой же анализ с точностью 90%. И эти +9% – это в десятки раз больше токенов за счет ризонинга.

Когда мы начнем выходить на плато по большинству корпоративных задач, оптимизация уже сделает свое дело. Но пока – вот так.

➖ Ну и железо, конечно. Переплачивать приходится не только за дополнительные токены, но и за новые и новые сервера.

А ведет это все – к консолидации, к сожалению. Но это уже другая история.

Разбор полностью можно почитать тут

Please open Telegram to view this post

VIEW IN TELEGRAM

👍70🔥22❤17👌9😁3🕊3🤨3🤯2🤔1

19.3K views08:16

Илон Маск создал новую ИИ-компанию Macrohard, чтобы конкурировать с Microsoft 😰 Название – мем, но проект реальный. Компания будет заниматься разработкой ПО, и вроде ничего необычного, но… Концепция в том, чтобы полностью заменить сотрудников ИИ-агентами.…

О, уже и мемы соответствующие пошли

3😁260❤2622👍8🔥863😎21

19K views10:41

Microsoft очнулись и представили MAI-1-Preview – свою первую полностью самостоятельную модель

Видимо, до компании окончательно дошло, что OpenAI так или иначе их кинет, и они наконец-то решили действовать сами.

Обучали примерно на 15к H100, это сопоставимо с большинством ведущих моделей. Архитектура MoE. Вроде бы без ризонинга.

Публичных бенчмарков пока нет, но на LMArena модель заняла 15 место рядом с Qwen3-325b-thinking и o1-2024-12-17 (смотрим, и не осуждаем, все-таки у ребят первый опыт 😁 ). Попробовать пока нигде нельзя, кроме той же LMArena.

В перспективе модель должна интегрироваться в продукты Microsoft Copilot, постепенно вытесняя решения OpenAI.

В довесок еще выпустили MAI-Voice-1 – речевую Text-to-Speech модель. Вот ее потрогать уже можно здесь. Заявляют, что за секунду можно сгенерировать до минуты звучания на одной GPU.

microsoft.ai/news/two-new-in-house-models/

Please open Telegram to view this post

VIEW IN TELEGRAM

😁58❤35🔥2111👍9

19.7K viewsedited 11:57

Anthropic привлекли 13 миллиардов долларов при оценке в 183 миллиарда

На секундочку, еще в марте этого года они стоили всего 62 миллиарда. Это рост на 300% за пол года.

А run-rate revenue с начала года вырос уже в 5 раз: $5 млрд сейчас против $1 млрд в январе. Спасибо Claude Code и API (сейчас в стартапе 70–75% выручки дают API-платежи по токенам, только 10–15% – подписки) ✌️

Такая оценка делает Anthropic четвертым по стоимости стартапом в мире и одной из самых дорогих AI-компаний после OpenAI и xAI.

Раунд возглавили Iconiq, Fidelity и Lightspeed. Для Anthropic это уже серия F, то есть шестой или седьмой по счету раунд.

www.anthropic.com/news/anthropic-raises-series-f-at-usd183b-post-money-valuation

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥99👍2615❤12🤯7😁3🤔1🕊1

19.5K views17:04

This media is not supported in your browser

VIEW IN TELEGRAM

Не могли не запостить сюда этот отрывок из нового интервью Альтмана

– Приведи пример случая, когда тебе пришлось сделать выбор в пользу того, что будет лучше для мира, а не для лидерства компании

– Ну, мы еще не добавили секс-аватара в ChatGPT

Назовите противостояние прекраснее, чем у Альтмана с Маском. Мы подождем.

😁35341🔥35❤11🗿11❤‍🔥7👍2😎11

25.9K views19:01

OpenAI купила стартап Statsig

Сделка обошлась в 1.1 миллиард долларов (сущие копейки для OpenAI ✨ ).

Statsig – это платформа для продуктовой аналитики и экспериментов, её технологии нужны OpenAI для ускорения разработки и тестирования новых продуктов. Но они купили не только технологию.

Сделка значится как «all-stock deal», то есть все сотрудники стартапа также перейдут в OpenAI. А CEO – Виджай Раджи – станет новым CTO of Applications в OpenAI. В этой роли он будет отвечать за инфраструктуру и надежность всех пользовательских продуктов, включая ChatGPT и Codex.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9848❤15🔥7😁6

19.3K views06:42

Новый день – новая сохраненная статья, которую никто не будет читать

😁299👍38❤24💯10❤‍🔥5👾53🔥1

18K views09:11