Data Secrets
77.3K subscribers
6.03K photos
591 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Сэм Альтман заявил, что люди все чаще разговаривают как боты

Да, именно люди, как боты, а на наоборот. Это, говорит Сэм, буквально теория мертвого Интернета, только на практике она отличается от того, как мы себе ее представляли.

Дело даже не столько в том, что соцсети постепенно заполоняют ИИ-аккаунты (хотя это факт), сколько в том, что люди начинают непроизвольно копировать так называемый LLM-speak.

В результате многие публикации действительно начинают звучать искусственно. Почему так происходит, ясно: (1) люди настолько часто пользуются чат-ботами, что действительно начинают перенимать их стиль; (2) многие посты, даже если и не написаны ИИ полностью, написаны автором совместно с ИИ.

Итоговая картина достаточно грустная: реальные пользователи адаптируют свою речь под ИИ, и одновременно боты плодят лингвистический мусор. Грань смывается и… чем вам не мертвый Интернет, даже если в нем все еще большинство людей?
😁196742919🤔14👾9🤯5💯5🔥3🤨32
Google создали систему, специально заточенную под создание научного ПО: ее решения обходят человеческие

Есть в науке такая проблема: рисерчеры не умеют писать код тратят просто уйму времени на написание кода. Хочется проверить больше гипотез и быстро прототипировать решения, но ПО здесь – узкое место. Многие перспективные идеи просто не проверяются, потому что слишком сложно, долго и дорого.

Google попробовали с этим поработать и предложили «аналог» AlphaZero для написания кода, но именно в сфере науки. Они берут только подкласс scorable task. Это задачи, у которых есть одна явная метрика качества. Например: точность прогноза, ошибка интегрирования, ну или MSE в конце концов.

То есть для широкого спектра индустриального кода такая система не подойдет. А для ученых – в самый раз. ПО для таких измеримых задач называется, кстати, Empirical software.

Как работает:

1️⃣ На вход система получает задачу, метрику и какой-то контекст, если он есть (ну, например, базу знаний). Под капотом крутится LLM + Tree Search.

2️⃣ LLM выступает в роли исполнителя и, собственно, пишет код. А Tree Search тут как своеобразный ПМ, отслеживает успех и решает что делать дальше. Каждое изменение кода – это ветвь дерева, а каждая вершина – конкретная версия программы.

3️⃣ LLM генерирует несколько вариантов изменения текущего узла, код запускается в песочнице и оценивается по метрике, а затем добавляется в дерево. На следующем шаге алгоритм решает, в какую вершину дерева стоит идти дальше.

4️⃣ При этом идем не просто в вершину с лучшей метрикой: чтобы никакие хорошие идеи не пропустить, должен соблюдаться баланс между exploration (исследовать новые идеи) и exploitation (углубляться в лучшие решения).

5️⃣ При этом LLM перед написанием кода еще и изучает прикрепленный контекст и серфит Интернет в поисках полезных статей, подходов и практик. Так что изменения в коде не только осознанные, но и иногда подкрепляются источниками.

В целом, схема-то не новая, и тут даже не было никакого супер-RL’я. Но вот результаты таких сетапов всегда удивляют. Например:

На задаче анализа single-cell RNA-seq модель создала 40 новых алгоритмов, которые серьезно превзошли все существующие решения на основном бенчмарке (+14% к лидеру).

Придумала новый алгоритм для вычисления сложных интегралов. Им решились 17 из 19 тестовых задач с ошибкой <3%. Для сравнения, scipy.integrate.quad() решает 0 задач из 19.

Ее модель прогнозирования заболеваемости ковидом превзошла официальный американский CDC Ensemble.

На гитхабе лежит код некоторых решений. Сама система пока не в доступе, и вряд ли ее опубликуют. Но, может, каким-то лабам дадут попользоваться в частном порядке.

arxiv.org/abs/2509.06503
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤‍🔥122👍5230🔥286😁2👌1
⚡️ Вышла GPT-5-Codex

Это версия GPT-5, оптимизированная специально для программирования и агентных сценариев. Пишут, что она способна автономно работать часами.

Что показалось прикольным:

– Модель подстраивается под coding-стиль проекта. То есть если видит, например, функциональное программирование, выдавать будет тоже функционалку.

– Можно прикреплять не только текст, но и скриншоты, архитектурные заметки, дизайн-схемы. Может и до интеграции с Figma когда-нибудь доживем.

– В зависимости от задачи модель может работать от нескольких секунд до нескольких часов. OpenAI говорят, что однажды модель работала над их задачей 7 часов. Что-то тестировала, итерационно исправляла и дописывала.

По тестам, в нижних 10% запросов (по количеству токенов) модель использует на 93.7% меньше токенов по сравнению с обычной GPT-5, а для самых сложных задач раздумывает и тестирует вдвое дольше.

Метрики: SWE-bench Verified – 74.5% ; качество рефакторинга улучшено с 34% до 51.3. Пока чисел мало, так что ждем.

Из остального: интеграция с GitHub, улучшенный Code review и оценки безопасности, облачный hand-off (то есть поддерживает работу в локальном режиме, но затем может перехватываться облаком).

Уже доступно в VSCode, JetBrains и через терминал. Попробовать могут любые подписчики тарифов OpenAI, так что обязательно тестим

openai.com/index/introducing-upgrades-to-codex/
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍82🔥362016❤‍🔥3😁3
Мультиагентные системы – это однозначно новый двигатель прогресса в плане автоматизации. Но на практике внедрение агентов далеко не самый простой процесс.

Во-первых, не у всех есть ресурсы на разработку такой системы как таковой. Во-вторых, интеграции затягиваются на месяцы, и разные ИИ-решения в итоге никак не структурированы. А хочется, чтобы они лежали в каком-то одном удобном контуре.

Вот как раз такой контур предлагают Just AI. Их Agent Platform – это единая платформа enterprise-уровня (chat-, voice-, workflow-) для создания, управления и масштабирования решений на базе автономных AI-агентов и запуска мультиагентных систем.

Ключевое преимуществообъединение автоматизации фронт- и бэк-процессов в одной среде. Это означает реальную мультиагентность: один агент общается в чате, другой выполняет задачу на бекэнде, третий оформляет отчетность – и все это происходит в одном контуре.

Уже доступны готовые коннекторы к более чем 30 сервисам: от RAG и баз данных до CRM, Telegram и Slack. Также можно подключить одну из популярных LLM: OpenAI, Anthropic, Gemini или другие модели. А чтобы все было прозрачно, ребята предусмотрительно добавили встроенные FinOps-инструменты для анализа эффективности агентов и расходов на них.

Платформа работает в формате no/low-code, но для профессиональных разработчиков есть Pro-code режим с глубоким контролем и возможностью встроить агентов во внутренние корпоративные системы. Развернуть можно и в облаке, и локально.

В условиях дефицита подобных решений для компаний такая продуманная система может стать настоящим катализатором роста.

Почитать подробнее можно здесь.
👍4122🤔10🔥8😁7🗿6🤯2👌1🐳1
Data Secrets
Из xAI за одну ночь уволили 500 человек Все они работали разметчиками данных. 500 специалистов – это, если что, примерно треть всего подразделения аннотаций данных. А подразделение аннотаций, в свою очередь, является самым большим в xAI. Увольнения прошли…
А вот и подробности о том, кого нанимают в xAI для разметки данных

Вашему вниманию: необходимо быть либо медалистом IMO (или аналогичной олимпиады), либо иметь степень магистра или PhD в области, связанной с наукой о данных...

... И все это за *скромные* 45$-100$ в час.

А пока весь твиттер (X) обсуждает много это или мало, делимся с вами мемами, рождёнными на волне возмущения
😁172221498🤯655🔥2🆒2🗿1
This media is not supported in your browser
VIEW IN TELEGRAM
О, смотрите какую прикольную интерактивную визуализацию выкатили Anthropic

Это график использования Claude по штатам Америки. Можно потыкать и посмотреть, где ИИ используют для каких целей. Например: в Колорадо чаще используют клода для планирования путешествий, а в Вашингтоне для редактирования документов и карьерных консультаций.

То есть структура экономики штата напрямую связана с тем, как люди используют ИИ, это забавно. И кстати, штаты, где больше всего айтишников – не самые активные по уровню использования.

Плюс опубликовали немножко свежей статистики. Смотрим:

– Оказывается, использование Claude в разных странах тесно коррелирует с доходом. В странах с низким доходом ИИ используют намного чаще именно для автоматизации (делегировать и забыть), в богатых странах – больше в сотрудничестве и обучении. Ну и по уровню проникновения тоже: 1% роста ВВП = +0,7% использования Claude на работающего жителя.

– Уже 40% работников в США используют ИИ в работе. Два года назад было 20%. Это в разы быстрее, чем распространялся, например, Интернет или ПК.

– Доля прямой автоматизации (когда Claude выполняет задачи полностью, без итераций) выросла с 27% в конце 2024 до 39% летом 2025.

Про сам статистический индекс, то есть про то, как анропики все это на самом деле считают, мы писали тут.

Репорт | Блогпост
58❤‍🔥19🫡13👍5🔥5🤯5🗿1
POV: ты только что решил, что DevOps’а в команду нанимать не обязательно, потому что есть Claude Code
2😁338🔥3617🫡10😎7🤔2🤯2🤨1🗿1
Вышло большое исследование о том, как люди на самом деле выбирают модели под свои заадчи

Внезапно, но факт: менее 50% ориентируются на бенчмарки, а 26.7% принципиально ими не пользуются.

Но давайте начнем с начала. Исследование совсем свежее, его проводили в середине этого лета аналитики из LLMARENA (@llm_arena). Это платформа для сравнения моделей, а ее фаундер, кстати, – наш сосед по каналу, Роман Куцев @Roma_Data.

Они опрашивали ML-инженеров, дата сайентистов, ML-ops'ов и лидеров команд AI. В общем, тех, кто обычно непосредственно принимает участие в выборе модели. Смотрите, что получилось:

Бенчмарки и рейтинги LLM теряют доверие, команды всё чаще (в 82.2% случаев) полагаются на собственные тесты.

Более четверти респондентов (26.7%) вообще не используют бенчмарки из принципа. Смотрят на них только 48.9%, и то – в основном как на косвенный сигнал. 37.8% больше доверяют тг-каналам и обзорам юзеров. Ну и только 18% вообще заглядывают в рейтинги типа llm-stats.

Среди причин такого недоверия к бенчмаркам: проблемы с методологией (мы разбирали всякие статистические ошибки рейтингов здесь, например); нерелевантность покрытия задач; лабораторные условия (на проде все иначе, как известно); накрученность рейтингов и хайп; переобучение под конкретные тесты.

Как видите, практика, как всегда, оторвана от теории и искусственных тестов. Это означает две вещи: (1) бенчмарки в классическом своем виде изжили себя и пока менять подход; (2) индустрии вообще плевать на изменение метрик на доли процента, и выбор моделей сильно упрощен: главное – скорость внедрения и цена.

Полное исследование тут, советуем посмотреть на графики
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
154👍26🔥9😁2🤨2
Media is too big
VIEW IN TELEGRAM
Figure AI привлек 1 миллиард долларов при оценке в 39 миллиардов. Это делает его одним из самых дорогих стартапов в мире и самым дорогим робо-стартапом в истории

В Figure вложились NVIDIA, Intel Capital, LG Technology Ventures, Salesforce, T-Mobile Ventures и Qualcomm Ventures (гигант на гиганте). Возглавила раунд Parkway Venture Capital.

Деньги пойдут на масштабирование производства гуманоидов, железо для обучения и симуляций (там как раз Nvidia сделали новые видеокарты для роботов), а также на развитие инфры для сбора данных.

Честно, кто-кто, а Figure AI реально заслужили. Только за последний год они:

– Первыми сделали робота с ризонингом и обучили фундаментальную VLA модель Helix, которая даже по сей день удивляет своей универсальностью
Интегрировали своих роботов на завод BMW, на котором те выполняют реальные задачи
– Первыми умудрились сделать переход sim-to-real (перенос навыков из обучения в симуляции а реальный мир) в zero-shot без дообучения, а это настоящий инженерный прорыв
Анонсировали собственный завод по производству роботов

Так что от них можно ожидать прорывов. Короче, большой день для любителей роботов
❤‍🔥107🔥6619👍14👏2😁2
Агенты теперь смогут безопасно платить: Google выпустили Agent Payments Protocol (АP2)

Его можно будет использовать как расширение MCP или A2A. Протокол задуман как единый фреймворк, который позволит агентам и продавцам проводить любые виды транзакций.

На практике это будет работать благодаря цифровым мандатам:

– Когда вы говорите агенту «Найди мне новые белые кроссовки Nike» формируется Intent Mandate, то есть ваше предварительное намерение уже фиксируется документально.

– Когда агент предложит вам варианты, а вы тыкните «Хочу вот эти, покупай», сформируется Cart Mandate. Этот документ фиксирует: человек выбрал, одобрил, знает цену и ответственен за эту покупку.

– В случае отложенных задач (типа «Купи билеты, как только они появятся в продаже») Cart Mandate может формироваться автоматически без человека, но тогда вы должны четко зафиксировать диапазон одобренных вами цен, тайминг и прочие условия.

То есть, по сути, протокол фиксирует, что агент – исполнитель с доверенностью, а транзакция происходит на деле между вами и продавцом. Юридически это очень нужная штука.

В проекте уже участвуют более 60 партнеров, включая Mastercard, PayPal, Intuit и Salesforce.

Интересно, взлетит или нет

GitHub | Блогпост
3👍179🔥64😁1514👾51
OpenAI продолжает бесшумно формировать свое отделение робототехники

И если раньше они нанимали просто робототехников, то теперь среди вакансий:

– Рисерчеры в области управления и обучения гуманоидов
– Инженеры для разработки симуляторов и прототипирования сенсорных систем
– Механики "с опытом проектирования систем, предназначенных для производства большими тиражами (от 1 млн)"

Получается достаточно серьезная команда. Во всех вакансиях, что интересно, подчеркивается ориентация на “универсальную робототехнику” как путь к AGI.

Напоминаем, что до этого отделение робототехники в стартапе стояло на паузе с 2021 года. Восстанавливать команду они начали только в декабре.

Прикиньте: 2028 год, GPT-10 моет вам посуду
🔥5439😁207👍7🤔2👀1
Media is too big
VIEW IN TELEGRAM
А вот так выглядела робототехника в OpenAI в 2019 году. Это было 6 лет назад, еще задолго до ChatGPT

Проект был посвящен решению кубика Рубика с помощью антропоморфной робо-руки с пятью пальцами. Конечно, до гуманоидов, как у Figure, на тот момент было еще далеко, но эта модель стала одной из первых, которую обучали только в симуляции. На тот момент, считай, прорыв (статью можно почитать тут).

Для переноса навыков использовался метод автоматизированной доменной рандомизации (ADR). В симуляцию время от времени добавляли какие-то "случайные" физические условия, и тем самым во время обучения в симуляции сеть готовилась к неожиданным и разнообразным условиям реального мира.

В итоге рука собирала кубик за 2-4 минуты и даже работала с помехами: например, с прерыванием работы камер или механическим вмешательством человека. Крутой проект, в общем, был.
66👍35🔥17😁2
Илон Маск написал, что верит в то, что Grok 5 станет AGI

Больше обещаний богу обещаний 😛

P.S. Ладно, если серьезно, потенциал xAI нельзя недооценивать. У них куча железа и куча данных: помимо основного потока даты, у них еще X + беспилотные такси. И не забываем про их новое огромное подразделение разметчиков.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁214👍342113🐳8🤔6🗿4🤝22🤓1