Data Secrets

О, Kaggle проведет бесплатный 5-дневный интенсив, посвященный агентам

Обещают много практики, онлайн лекции и даже домашки + итоговый проект. Таким надо пользоваться, коллеги.

Программа кратко:

День 1 – основные концепции, ключевые отличия от обычных LLM, архитектуры
День 2 – Tool Use, MCP, использование API
День 3 – память, способы расширения контекста
День 4 – метрики, мониторинг, легирование, эвал и прозрачность пайплайнов
День 5 – деплой и масштабирование агентов и мультиагентных систем, протокол Agent2Agent

Вроде выглядит годно. Прошлые их интенсивы вызывали огромный ажиотаж (в Generative AI Course участвовали почти 5к человек), так что этот, вероятно, тоже получится хорошим. И еще раз: это бесплатно и никакого отбора проходить не нужно, только регистрация. 10-14 ноября.

rsvp.withgoogle.com/events/google-ai-agents-intensive_2025

🔥116👍27❤18😁1👌1

22.1K viewsedited 12:34

Data Secrets

Только что наткнулись на вот такую картинку в Твиттере. Попадание 10 из 10, согласитесь?

P.S. Пост для миллениалов, остальным соболезнуем

6😁303🔥4626❤16🗿13🤨9😎76🤔5🐳5🦄5

18.5K views14:06

Data Secrets

Секретное оружие аналитика: ИИ, встроенный в дашборды, стал доступен всем

Раскрываем еще один data-секрет! С 24 сентября открывается массовый доступ к ии-агенту внутри BI-системы DataLens.

Нейроаналитик — это ваш напарник прямо в интерфейсе DataLens. Вы показываете ему график, а он помогает его понять: находит инсайты, аномалии и формулирует выводы

Что он делает?

• Смотрит на дашборд и пишет, что там происходит.
• Отвечает на ваши вопросы по данным в чате.
• Помогает создавать кастомные графики, генерируя необходимый код.

Выгода очевидна: меньше рутины, больше инсайтов и ускорение проверки гипотез на 30%.

1❤40🗿21👍13🤯5🔥4🦄2

17.5K views15:02

Data Secrets

Teaching LLM to Plan: разбираем свежую громкую статью от MIT про новый подход к обучению моделей мыслить

Как мы уже много раз писали, сейчас ризонинг (хотя он и работает замечательно) – это на самом деле никакой не ризонинг. Рассуждения в LLM называются так чисто условно: на деле мы остаемся в абсолютно той же парадигме, просто модель теперь генерирует для ответа больше токенов.

А вот как научить LLM действительно рассуждать "по-человечески" – это вопрос. MIT предложили один из вариантов. Идея вот в чем:

– Настоящее планирование, если подумать, требует не просто генерации текста, а умения переходить из состояния в состояние. Например, строго: из состояния А следует Б или В, Г не может следовать из А, цепочка A->Б не приведет к цели, значит переходим в состояние В. На деле очень многие задачи на "мышление" раскладываются именно в такие цепочки: головоломки, логические задачки, да даже математика.

– Такие рассуждения называются символьными. И MIT утверждают, что вместо того, чтобы учить модель генерировать просто "какой-то правдоподобный" CoT в виде обычных токенов, мы можем учить ее генерировать такие вот символьные цепочки, и это повысит надежность ризонинга.

– При этом нам даже не нужна разметка, потому что эти цепочки можно проверять верификатором (как делали DeepSeek, когда обучали DeepSeek-Prover-V2). Сначала модели просто показывают много цепочек, учат отделять правильные от неправильных и объяснять, что не так. Затем что-то похожее на RL: модель генерирует CoT, его проверяет верификатор, получаем фидбэк и на нем делаем шаг обучения.

Результат: на задачах из тестов такой ризонинг дает +30–60 п.п. к обычному ризонингу и кратные улучшения относительно бейзлайна. Правда, домен в статье довольно узкий (и модельки брали старые + для GPT-4 вообще prompt-based tuning). Интересно, получится ли подобное применить на более высоком уровне.

https://arxiv.org/pdf/2509.13351

❤6335👍15🔥10🤔43🤯2😁1

18.3K views16:52

Data Secrets

Что-то новенькое: Meta* выпустили собственную модель для кодинга Code World Model

По названию уже ясно, что она не совсем обычная. И действительно: идея компании была в том, чтобы сделать кодинг-модель, не просто генерирующую следующие токены, а понимающую, как код выполняется и как он изменяет состояние системы.

То есть модель как бы становится виртуальным интерпретатором и может рассуждать о том, что конкретно произойдет при изменении, например, той или иной строчки. Обучали так, в три фазы:

1. Pre-training (8T токенов). Классическое предобучение на большом корпусе, 30% данных – код.

2. Mid-training (5T токенов). Главная изюминка. Обучение на данных, которые симулируют динамику вычислений (то есть буквально на world modeling сценариях). Тут было два основных типа данных.

Первый – Python Execution Traces. На них модельку учат точно последовательно предсказывать, что произойдёт при запуске программы с теми или иными начальными данными, как будут менятся состояния переменных от шага к шагу, какой будет стек вызовов и прочее. И все, как на ЕГЭ, без реального запуска кода.

Второй тип данных – ForagerAgent, агентные сценарии в Docker. Модель учится вести себя как разработчик, который работает с реальным проектом, редачит файлы, исправляет баги, запускает тесты и тд. Проекты брали с GitHub, некоторый оставляли как есть с их ошибками, в некоторые подмешивали искусственные баги. SWE-bench задачи исключили для честной оценки (это важно!).

3. Post-training (272B токенов). На самом деле это даже два этапа в одном: SFT файнтюнинг и RL. Но тут уже, в целом, все как у всех.

Метрики – на графике. До GPT-5 и Sonnet 4 не дотягивает, но GPT-oss и последний R1 бьет более менее уверенно. Модель, кстати, небольшая, всего 32B.

В общем, достаточно занятный релиз случился, будем пробовать. Веса CWM можно найти здесь (лицензия исследовательская, некоммер).

И вот еще GitHub и техотчет

1🔥88👍30❤16⚡3🤯3

18.1K viewsedited 06:22

Data Secrets

Если вы думали, что новости про хантинг Цукерберга закончились, то передумайте: сегодня стало известно, что он переманил еще одного крайне значимого исследователя из OpenAI

На этот раз к Meta* присоединился один из изобретателей концепции диффузионных моделей – Yang Song. Именно он с соавторами в 2020 году впервые предложил идею Score-Based Generative Modeling, на которой до сих пор и строится большинство современных генераторов картинок и видео.

Yang долгое время возглавлял команду Strategic Explorations в OpenAI. Теперь он назначен ведущим научным сотрудником в MSL, и будет заниматься поиском новых архитектур и методов для обучения моделей.

Сэма уже даже немного жалко

👍7350😁19❤119👏2🗿2

16.6K viewsedited 09:30

Data Secrets

GPT-5 прошла (почти) тест Гёделя

Вышла статья двух независимых авторов, в которой показано, что GPT-5 действительно способна открывать новую математику, но пока что – только очень простую.

Название теста тут отсылает к теореме Геделя о неполноте: в любой достаточно сложной системе есть утверждения, которые нельзя доказать в рамках самой системы. Собственно, целью авторов было проверить, может ли сегодняшний ИИ выходить за рамки обучающей выборки для доказательства еще никем не рассматриваемых проблем.

Исследователи взяли область комбинаторной оптимизации, в которой у них самих был опыт, и придумали 5 новых задач, которые еще никогда не рассматривались и не решались в литературе. Направление очень узкое и специфичное + достаточно новое, так что белых пятен там много. Но не суть. Главное – что этих задач гарантировано не было в трейне.

Задачки не очень сложные, средний аспирант, как пишут авторы, решил бы каждую примерно за день. Моделька на вход получала только короткое описание + несколько вводных статей. Без гипотез, без черновиков, без любых других подсказок.

Итог: GPT-5 решила 3 задачи из 5. В одной из них она даже смогла опровергнуть исходную гипотезу авторов и предложить другое доказательство, которое оказалось правильным.

С двумя наиболее сложными задачками, модель, тем не менее, не справилась. Там нужно было синтезировать и объединить несколько идей, и вот это уже оказалось для модельки слишком сложно.

Вывод: да, GPT-5 действительно более зрелая математически, чем предыдущие модели. Да, она может доказывать неизученные теоремы. Нет, сложная математика, с которой не справляются люди, ей пока не под силу. До задач тысячелетия точно еще далеко.

Но прогресс быстрый. Может, через 2-3 года доберемся до уровня «аспиранта-отличника» :)

arxiv.org/abs/2509.18383

3❤140🔥5625👍19😁72👨‍💻1

18.8K views10:54

Data Secrets

Feel the AGI

2😁342👍34❤18😎7🔥6🤯3

19.5K views13:06

Так, друзья, видео не для слабонервных

Это так негуманно стартап Skild AI тестируют свою универсальную модель для управления роботами Skild Brain.

Фишка в том, что Skild Brain заточена не под какого-то одного робота или структуру, а может справиться с любым железом, которое ходит или катится.

Например, модель может управлять робо-псом, который двигается на четырех ногах. Но если в какой-то момент отключить собаке передние ноги, то системе понадобится всего несколько минут, чтобы адаптироваться к новому телу и перейти на «человеческую» походку.

На самом деле никакой магии: просто куча часов обучения в симуляции на 100 000 разных тел + расширенное контекстное окно (чтобы модель могла гладко перестраиваться).

Но выглядит впечатляюще. И применение широкое. Как минимум, так можно научить почти любых индустриальных роботов справляться с поломками (марсоходы, например!).

Блогпост

1❤135🤯81🔥30😁15🗿85👍3🫡2

20.8K views15:04

ChatGPT Pulse – первый из обещанных Альтманов «ресурсоемких» продуктов OpenAI

По сути, личный проактивный ассистент, который не просто помогает с чем-то по просьбе, а каждый день напоминает вам о важных событиях и сам готовит сводку актуальной информации.

Например:

– Если вы упоминали, что куда-то едете, агент предложит список мест, куда можно сходить, или ресторанов.

– Если спрашивали что-то про спорт, поищет для вас актуальные исследования на тему ЗОЖ.

– Если подсоединить Google календарь и Gmail, будет формировать агенду к предстоящим встречам, напоминать о чьем-то ДР (и предлагать подарки) и прочее прочее прочее.

И это все агент будет делать сам, основываясь просто на ваших чатах и том, что (по его мнению) вам актуально именно в этот день. Но, конечно, влиять на подборку можно и вручную.

Пока доступно только для Pro, и только в мобильном приложении. После обкатки обещают раскатить и на плюсов.

1😁89❤61🔥37🤔7👾5👍43💯2👀1

19.7K viewsedited 18:16

Data Secrets

Скандалы, интриги, расследования: xAI подает в суд на своего бывшего инженера за то, что он пытался шпионить для OpenAI Беднягу зовут Xuechen Li, а само дело было так: – В начале лета он, работая в xAI, получил оффер от OpenAI и принял его. Сразу после…

Илон Маск снова подает в суд на OpenAI. На этот раз – за шпионаж

🧐

Помните, некоторое время назад уже всплывала история о том, что некий инженер из xAI якобы пытался украсть какие-то секретные материалы для OpenAI?

Ну так вот, тогда стартап судился только непосредственно с бедолагой-недошпионом. Теперь же они подают в суд на целый OpenAI, и обвиняют их уже в нескольких попытках шпионажа.

Согласно иску: OpenAI систематически переманивает бывших сотрудников xAI и подталкивает их распространять коммерческие секреты xAI (типа исходного кода, бизнес-планов и информации о датацентах).

Как написал Илон Маск, иск стал для xAI крайней точкой:

Мы отправили им множество писем с предупреждениями, но они не остановились. Судебный иск был единственным выходом после того, как мы исчерпали все остальные.

Из смешного, в материалах дела даже приводится ссылка на июльское письмо юриста xAI одному из бывших лидов стартапа, в котором он обвинил того в нарушении NDA. В ответ от сотрудника пришло только простое лаконичное «suck my dick».

Please open Telegram to view this post

VIEW IN TELEGRAM

😁15748❤19👍5🤔3

17.6K views07:11

Data Secrets

Новый датасет T-ECD для екома

Т выкатили не просто датасет, а крупнейший кросс-доменный набор для развития рексистем

– Основной T-ECD: более 135 млрд взаимодействий, на основе синтезированных данных 44 млн пользователей, 30 млн товаров и 1,2 млн брендов. Сборка данных глубиной от 1 до 3,5 лет — доступны краткосрочные и долгосрочные пользовательские истории

– Домены: Marketplace, Retail, Payments, Offers и Reviews.

– Рекомендательные задачи: подходит для next-item, next-basket, session-based, топ-N и других

– Версии: полный датасет и T-ECD Small на 5 млрд событий, а также облегчённый набор на 1 млрд взаимодействий для быстрых экспериментов.

Почти все доступные датасеты для исследований моно-доменные и маленькие, а Т-ECD первый по-настоящему кросс-доменный датасет такого масштаба. Он универсален — можно использовать как целиком, так и по доменам, а еще подходит для разных подходов: от базовой коллаборативной фильтрации до графовых рекомендаций.

Всё это уже доступно на Hugging Face.

UPD: Марина Ананьева руководитель направления рекомендательных систем в Т-Банке рассказала, как готовятся такие датасеты:

Для каждого синтетического идентификатора пользователя и синтетических ID атеймов генерируется цепочка взаимодействий (покупка, просмотр, клик и тд), похожая на паттерны поведения групп пользователей. В базовом варианте это делается через сэмплирование, подмешивающее шум разных типов - несуществующие взаимодействия, прореживание существующих подпоследовательностей, перестановка местами и др.
При этом задаются несуществующие временные метки, которые могут нарушать и последовательность действий. Названия и категории реальных каталогов товаров и сервисов тоже не используем. Условно, генерим цепочку - что пользователь купил шоколадку, потапал по печенькам, и на какую-то из них активировал кэшбэк в какие-то моменты времени. Т.е. это синтетические цепочки событий, но ценность в сохранении паттернов поведения групп пользователей и их предпочтений

1❤7825🔥23👍88🤯3😁2🤔1

18.1K viewsedited 09:24

Data Secrets

Sakana AI сделали опенсорсный аналог AlphaEvolve – ShinkaEvolve

Это фреймворк для оптимизации и разработки сложных алгоритмов и архитектур. И, так как Sakana везде пытаются применять идеи эволюции (см этот пост со списком их статей), здесь без этого тоже не обошлось. «Shinka» (進化) с японского и есть "эволюция".

Работает это как нечто среднее между обычным генетическим алгоритмом и LLM-ным поиском по дереву:

1. Система получает на вход Seed-программу и верификатор, который считает метрики качества (фитнес). На каждом шаге свежие полученные скрипты добавляются в единый архив (это наш "банк" родителей).

2. LLM тут выступает мутационным оператором: на каждом шаге из банка берутся один или два родителя, и модель предлагает какие-то изменения в их коде в одном из определенных режимов: diff-патч поверх родителя, полная перезапись, кроссовер (смешивание идей из двух программ). Кстати, LLM выбирается не всегда одна и та же: есть специальный многорукий бандит, который смотрит, кто чаще приносит улучшения на данном типе задач при приемлемой цене, и подстраивает приоритеты.

3. Полученных кандидатов прогоняют через верификатор, но сначала они проходят дополнительный фильтр novelty-rejection. Считаются эмбеддинги программы, проверяется похожесть на архив. Слишком похожие идеи отбраковываются ещё до рассчета метрик, это резко экономит время и деньги.

Оставшихся прогоняем через оценщика и лучших добавляем в архив. А дальше – все с начала. Кстати, в архиве есть «острова» (несколько независимых популяций). Если система совсем встает в тупик и разнообразие решений начинает падать – можно осуществить между ними миграцию. Интересный инженерный ход.

Тестировали в четырех разничных областях. Результаты занятные:

1. На задаче математической оптимизации всего за 150 сэмплов система вывела новое решение для задачи Circle Packing, превосходящее аналогичные подходы.

2. При проектировании ИИ-агента за ~75 поколений фреймворк "изобрел" трехчастную архитектуру, которая побила бейзлайн на AIME.

3. На задачках из спортивного программирования система добавила много полезных оптимизаций, и в итоге дотянула до уровня серебрянного медалиста.

4. И еще проверяли, насколько хорошо ShinkaEvolve сможет обучить другую LLM. Это самое интересное: примерно 30 поколений система билась с лоссом для MoE, и внезапно вывела функцию потерь, которая по эффективности превзошла многие популярные решения.

И главное: в отличие от AlphaEvolve воспользоваться фреймворком можно прямо сейчас и бесплатно. Код вот тут. Просто переписываете evaluate.py под вашу задачу, кладете initial.py и запускаете shinka_launch variant=experiment_name. Подробная инструкция тут.

🔥92❤289👍8🤩7🤯3😁1🗿1

18.4K views11:04

Data Secrets

0:41

This media is not supported in your browser

VIEW IN TELEGRAM

Meta* выпустили приложение Vibes: это буквально ИИ-ТикТок

Та же персонализированная лента коротких роликов, те же интерфейсы для наложения музыки, эффектов и прочего. Только видео пользователи не снимают, а генерируют.

Моделька под капотом должна быть в перспективе их домашняя – Movie Gen. Но сейчас пишут, что на ранних стадиях платформа будет работать в сотрудничестве с Midjourney и Black Forest Labs, пока «компания дорабатывает свои модели».

Сейчас ролики до 16 секунд, и больше смахивают просто на анимацию картинок, чем на полноценную генерацию видео. Зато звуковую дорожку тоже можно генерировать. Даже предусмотрительно добавили поддержку кросс-постинга в Instagram.

Все уже доступно в приложении Meta AI.

Продукт вроде интересный, но есть ощущение, что еще некоторое время такое не полетит. Что думаете?

😁78🗿5215👍9🤨76❤4🤔2🍾2

17.5K views13:20

Data Secrets

Альянс ИИ выпустил свежий бенчмарк SWE-MERA для оценки моделей для ĸодинга

Его разработали совместно MWS AI, Сбер и ИТМО. Как и классический SWE-bench, SWE-MERA основан на issues и pull requests с GitHub. НО ключевое отличие в том, что SWE-MERA сделали динамическим. Данные в бенчмарке обновляются ежемесячно: каждый раз примерно +250 новых задач из активных репозиториев.

Это означает, что:

1. Бенчмарк не устаревает и тестировать на нем модели (даже одни и те же) можно постоянно.

2. Можно быть более-менее уверенным, что какие-то задачи из бенчмарка модели точно не видели на трейне. В лидерборд даже встроили автоматическую защиту от ĸонтаминации данных: можно выбирать задачи из разных временных периодов, чтобы точно видеть, чьи результаты подкрашены попаданием тестовых данных в обучение (см.скрин).

В условиях дикой ИИ-гонки статические бенчмарки уже изживают себя, и как раз динамика тут – новый стандарт. Так что релиз своевременный.

Сейчас в SWE-MERA уже около 700 задач. Подробнее о том, как их собирают и отбирают, можно почитать в статье, там довольно нетривиальный пайплайн (и его, кстати, выложили в опенсорс). Если хотите протестить собственные модели – инструкция тут.

Страница проекта

2🔥69❤19👍16🗿4😁32

17K views15:02

Data Secrets

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

Google выпустили Gemini Robotics 1.5

Это их новая усовершенствованная агентная система для управления роботами. Теперь она может лучше рассуждать и планировать, взаимодействовать с человеком и даже использовать в ходе работы инструменты типа веб-поиска.

Внутри, на самом деле, зашиты одновременно две модели: Gemini Robotics-ER 1.5 и одноименная Gemini Robotics 1.5.

Первая выполняет функции высокоуровневого мозга: анализирует окружающую среду и действия/команды людей, а затем на основе этого составляет подробный план выполнения задачи и при необходимости вызывает инструменты. А Gemini Robotics 1.5 – это исполнитель, который уже преобразует инструкции в точные двигательные команды для робота.

Например, когда вы просите: "Рассортируй мусор правильно исходя из моего местоположения". В системе происходит следующее:

1. Gemini Robotics-ER 1.5 анализирует ваш запрос -> идет в Интернет, чтобы понять, какие в вашей стране правила сортировки мусора -> смотрит, какой именно мусор предстоит сортироать -> отдает команды вроде "бутылку в левую кучку, салфетку в правую, ...". При этом модель выдает некоторый трейс своего ризонинга, а значит система в целом становится немного более интерпретируемой.

2. Gemini Robotics 1.5 принимает на вход команды от ER и преобразует их в точные траектории движения. Если в процессе в окружающей среде что-то меняется (добавляется новый мусор, например), ER это замечает и поправляет свои инструкции.

Дополнительный плюс в том, что если у вас меняется форма робота, то адаптировать всю систему целиком не нужно. Достаточно потюнить вторую модель, ну или прикрутить свою кастомную.

Gemini Robotics-ER 1.5, кстати, уже даже доступна через API.

deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/

👍56🔥28❤198

17.9K viewsedited 16:46

About

Blog

Apps

Platform