Data Secrets

Новые модели Qwen: уровень GPT-5 и Grok 4 от китайцев

В этот раз лаборатория показала сразу несколько моделей:

➖ Основная: Qwen3-Max, новый флагман лабы. Есть варианты Instruct (без ризонинга) и Thinking. Instruct перебивает на бенчах Claude Opus 4 Non-thinking. А вариант с ризонингом – вообще что-то: уровень GPT-5 и Grok4 Heavy на AIME25 (100%), HMMT25 (100%) и GPQA (85%). Весов пока нет, но в чате можно попробовать бесплатно.

➖ Qwen3-VL – новая vision-language модель, которая опережает Gemini 2.5 Pro. Также есть варианты с ризонингом и без. Например, модель можно использовать как Computer Use агента или как Visual Coding агента (аля напиши сайт с дизайном, как на картинке). И, кстати, модель не супер массивная: MoE на 235В с 22 авктивными. Веса.

➖ Обновленный Qwen3-Coder. Добавили мультимодальность + прокачали метрики. На SWE-Bench теперь выбивает почти 70% (это, опять же, примерно уровень Opus 4 и GPT-5).

Кажется, это R1-moment для Qwen. Все модели уже можно попробовать в чате chat.qwen.ai

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

1🔥192❤34👍2697❤‍🔥4😁3🤔2👌1🦄1😎1

19.7K views06:46

Data Secrets

Луший хардовый курс этой осени для ML-инженеров и разработчиков

Если вы давно хотели изучить LLM на практике от А до Я, то эта новость точно для вас.

GIGASCHOOL, совместно с крупнейшей магистратурой по искусственному интеллекту AI Talent Hab, запустили большой курс "LLM-инженер". На нем вас научат выходить за рамки ipynb и создавать рабочие системы на базе LLM.

Вы научитесь:

➡️дообучать модели (fine-tuning, PEFT, LoRA / QLoRA, RLHF);
➡️работать с LangChain, LangGraph и векторными базами;
➡️собирать рабочие архитектуры под реальные задачи;
➡️строить RAG‑системы, реализовывать инфопоиск и защищать LLM;
➡️собирать пайплайны, деплоить, трекать, версионировать;
➡️проектировать мультиагентные решения и ассистентов.

Как видите, собрано все самое актуальное (программа подробнее здесь). Плюс, каждая тема будет глубоко разбираться на практике, так что с курса вы выйдете уже с опытом и готовыми наработками в виде кода.

Спикеры – эксперты из больших ИИ-команд. В частности, лекции будет читать NLP Lead X5 Tech Потехин Александр, директор по разработке моделей в Газпромбанке Желтова Кристина и CEO HiveTrace Евгений Кокуйкин.

Стартует курс 15 октября и продлится 25 недель (не пугайтесь, в расписании есть каникулы). Всего будет 252 часа теории и практики, а в конце выдадут серьезный диплом о профессиональной подготовке. И кстати, сегодня предпоследний день по самой низкой цене.

Не теряйте время и регистрируйтесь по ссылке

Please open Telegram to view this post

VIEW IN TELEGRAM

🗿52❤14🔥12🤯3👍2🤔1🕊1

17.4K views09:02

Data Secrets

Лайфхак для всех, кому в LinkedIn написывают боты

Парень просто добавил себе в био промпт с оберткой в стиле XML, и теперь ему на почту периодически приходят рецепты пирога.

Кажется, это называется «современные проблемы требуют современных решений»

1😁343🔥39👍21❤11🍓6😎54🎉3⚡11

18.3K views10:40

Data Secrets

О, Kaggle проведет бесплатный 5-дневный интенсив, посвященный агентам

Обещают много практики, онлайн лекции и даже домашки + итоговый проект. Таким надо пользоваться, коллеги.

Программа кратко:

День 1 – основные концепции, ключевые отличия от обычных LLM, архитектуры
День 2 – Tool Use, MCP, использование API
День 3 – память, способы расширения контекста
День 4 – метрики, мониторинг, легирование, эвал и прозрачность пайплайнов
День 5 – деплой и масштабирование агентов и мультиагентных систем, протокол Agent2Agent

Вроде выглядит годно. Прошлые их интенсивы вызывали огромный ажиотаж (в Generative AI Course участвовали почти 5к человек), так что этот, вероятно, тоже получится хорошим. И еще раз: это бесплатно и никакого отбора проходить не нужно, только регистрация. 10-14 ноября.

rsvp.withgoogle.com/events/google-ai-agents-intensive_2025

🔥116👍27❤18😁1👌1

21.9K viewsedited 12:34

Data Secrets

Только что наткнулись на вот такую картинку в Твиттере. Попадание 10 из 10, согласитесь?

P.S. Пост для миллениалов, остальным соболезнуем

6😁303🔥4626❤16🗿12🤨9😎76🤔5🐳5🦄4

18.5K views14:06

Data Secrets

Секретное оружие аналитика: ИИ, встроенный в дашборды, стал доступен всем

Раскрываем еще один data-секрет! С 24 сентября открывается массовый доступ к ии-агенту внутри BI-системы DataLens.

Нейроаналитик — это ваш напарник прямо в интерфейсе DataLens. Вы показываете ему график, а он помогает его понять: находит инсайты, аномалии и формулирует выводы

Что он делает?

• Смотрит на дашборд и пишет, что там происходит.
• Отвечает на ваши вопросы по данным в чате.
• Помогает создавать кастомные графики, генерируя необходимый код.

Выгода очевидна: меньше рутины, больше инсайтов и ускорение проверки гипотез на 30%.

1❤40🗿21👍13🤯5🔥4🦄2

17.5K views15:02

Data Secrets

Teaching LLM to Plan: разбираем свежую громкую статью от MIT про новый подход к обучению моделей мыслить

Как мы уже много раз писали, сейчас ризонинг (хотя он и работает замечательно) – это на самом деле никакой не ризонинг. Рассуждения в LLM называются так чисто условно: на деле мы остаемся в абсолютно той же парадигме, просто модель теперь генерирует для ответа больше токенов.

А вот как научить LLM действительно рассуждать "по-человечески" – это вопрос. MIT предложили один из вариантов. Идея вот в чем:

– Настоящее планирование, если подумать, требует не просто генерации текста, а умения переходить из состояния в состояние. Например, строго: из состояния А следует Б или В, Г не может следовать из А, цепочка A->Б не приведет к цели, значит переходим в состояние В. На деле очень многие задачи на "мышление" раскладываются именно в такие цепочки: головоломки, логические задачки, да даже математика.

– Такие рассуждения называются символьными. И MIT утверждают, что вместо того, чтобы учить модель генерировать просто "какой-то правдоподобный" CoT в виде обычных токенов, мы можем учить ее генерировать такие вот символьные цепочки, и это повысит надежность ризонинга.

– При этом нам даже не нужна разметка, потому что эти цепочки можно проверять верификатором (как делали DeepSeek, когда обучали DeepSeek-Prover-V2). Сначала модели просто показывают много цепочек, учат отделять правильные от неправильных и объяснять, что не так. Затем что-то похожее на RL: модель генерирует CoT, его проверяет верификатор, получаем фидбэк и на нем делаем шаг обучения.

Результат: на задачах из тестов такой ризонинг дает +30–60 п.п. к обычному ризонингу и кратные улучшения относительно бейзлайна. Правда, домен в статье довольно узкий (и модельки брали старые + для GPT-4 вообще prompt-based tuning). Интересно, получится ли подобное применить на более высоком уровне.

https://arxiv.org/pdf/2509.13351

❤6335👍15🔥10🤔43🤯2😁1

18.2K views16:52

Data Secrets

Что-то новенькое: Meta* выпустили собственную модель для кодинга Code World Model

По названию уже ясно, что она не совсем обычная. И действительно: идея компании была в том, чтобы сделать кодинг-модель, не просто генерирующую следующие токены, а понимающую, как код выполняется и как он изменяет состояние системы.

То есть модель как бы становится виртуальным интерпретатором и может рассуждать о том, что конкретно произойдет при изменении, например, той или иной строчки. Обучали так, в три фазы:

1. Pre-training (8T токенов). Классическое предобучение на большом корпусе, 30% данных – код.

2. Mid-training (5T токенов). Главная изюминка. Обучение на данных, которые симулируют динамику вычислений (то есть буквально на world modeling сценариях). Тут было два основных типа данных.

Первый – Python Execution Traces. На них модельку учат точно последовательно предсказывать, что произойдёт при запуске программы с теми или иными начальными данными, как будут менятся состояния переменных от шага к шагу, какой будет стек вызовов и прочее. И все, как на ЕГЭ, без реального запуска кода.

Второй тип данных – ForagerAgent, агентные сценарии в Docker. Модель учится вести себя как разработчик, который работает с реальным проектом, редачит файлы, исправляет баги, запускает тесты и тд. Проекты брали с GitHub, некоторый оставляли как есть с их ошибками, в некоторые подмешивали искусственные баги. SWE-bench задачи исключили для честной оценки (это важно!).

3. Post-training (272B токенов). На самом деле это даже два этапа в одном: SFT файнтюнинг и RL. Но тут уже, в целом, все как у всех.

Метрики – на графике. До GPT-5 и Sonnet 4 не дотягивает, но GPT-oss и последний R1 бьет более менее уверенно. Модель, кстати, небольшая, всего 32B.

В общем, достаточно занятный релиз случился, будем пробовать. Веса CWM можно найти здесь (лицензия исследовательская, некоммер).

И вот еще GitHub и техотчет

1🔥88👍30❤16⚡3🤯3

18K viewsedited 06:22

Data Secrets

Если вы думали, что новости про хантинг Цукерберга закончились, то передумайте: сегодня стало известно, что он переманил еще одного крайне значимого исследователя из OpenAI

На этот раз к Meta* присоединился один из изобретателей концепции диффузионных моделей – Yang Song. Именно он с соавторами в 2020 году впервые предложил идею Score-Based Generative Modeling, на которой до сих пор и строится большинство современных генераторов картинок и видео.

Yang долгое время возглавлял команду Strategic Explorations в OpenAI. Теперь он назначен ведущим научным сотрудником в MSL, и будет заниматься поиском новых архитектур и методов для обучения моделей.

Сэма уже даже немного жалко

👍7350😁19❤109👏2🗿2

16.5K viewsedited 09:30

Data Secrets

GPT-5 прошла (почти) тест Гёделя

Вышла статья двух независимых авторов, в которой показано, что GPT-5 действительно способна открывать новую математику, но пока что – только очень простую.

Название теста тут отсылает к теореме Геделя о неполноте: в любой достаточно сложной системе есть утверждения, которые нельзя доказать в рамках самой системы. Собственно, целью авторов было проверить, может ли сегодняшний ИИ выходить за рамки обучающей выборки для доказательства еще никем не рассматриваемых проблем.

Исследователи взяли область комбинаторной оптимизации, в которой у них самих был опыт, и придумали 5 новых задач, которые еще никогда не рассматривались и не решались в литературе. Направление очень узкое и специфичное + достаточно новое, так что белых пятен там много. Но не суть. Главное – что этих задач гарантировано не было в трейне.

Задачки не очень сложные, средний аспирант, как пишут авторы, решил бы каждую примерно за день. Моделька на вход получала только короткое описание + несколько вводных статей. Без гипотез, без черновиков, без любых других подсказок.

Итог: GPT-5 решила 3 задачи из 5. В одной из них она даже смогла опровергнуть исходную гипотезу авторов и предложить другое доказательство, которое оказалось правильным.

С двумя наиболее сложными задачками, модель, тем не менее, не справилась. Там нужно было синтезировать и объединить несколько идей, и вот это уже оказалось для модельки слишком сложно.

Вывод: да, GPT-5 действительно более зрелая математически, чем предыдущие модели. Да, она может доказывать неизученные теоремы. Нет, сложная математика, с которой не справляются люди, ей пока не под силу. До задач тысячелетия точно еще далеко.

Но прогресс быстрый. Может, через 2-3 года доберемся до уровня «аспиранта-отличника» :)

arxiv.org/abs/2509.18383

3❤140🔥5625👍19😁72👨‍💻1

18.7K views10:54

Data Secrets

Feel the AGI

2😁342👍34❤18😎7🔥6🤯3

19.4K views13:06

Так, друзья, видео не для слабонервных

Это так негуманно стартап Skild AI тестируют свою универсальную модель для управления роботами Skild Brain.

Фишка в том, что Skild Brain заточена не под какого-то одного робота или структуру, а может справиться с любым железом, которое ходит или катится.

Например, модель может управлять робо-псом, который двигается на четырех ногах. Но если в какой-то момент отключить собаке передние ноги, то системе понадобится всего несколько минут, чтобы адаптироваться к новому телу и перейти на «человеческую» походку.

На самом деле никакой магии: просто куча часов обучения в симуляции на 100 000 разных тел + расширенное контекстное окно (чтобы модель могла гладко перестраиваться).

Но выглядит впечатляюще. И применение широкое. Как минимум, так можно научить почти любых индустриальных роботов справляться с поломками (марсоходы, например!).

Блогпост

1❤135🤯81🔥30😁15🗿85👍3🫡2

20.7K views15:04

ChatGPT Pulse – первый из обещанных Альтманов «ресурсоемких» продуктов OpenAI

По сути, личный проактивный ассистент, который не просто помогает с чем-то по просьбе, а каждый день напоминает вам о важных событиях и сам готовит сводку актуальной информации.

Например:

– Если вы упоминали, что куда-то едете, агент предложит список мест, куда можно сходить, или ресторанов.

– Если спрашивали что-то про спорт, поищет для вас актуальные исследования на тему ЗОЖ.

– Если подсоединить Google календарь и Gmail, будет формировать агенду к предстоящим встречам, напоминать о чьем-то ДР (и предлагать подарки) и прочее прочее прочее.

И это все агент будет делать сам, основываясь просто на ваших чатах и том, что (по его мнению) вам актуально именно в этот день. Но, конечно, влиять на подборку можно и вручную.

Пока доступно только для Pro, и только в мобильном приложении. После обкатки обещают раскатить и на плюсов.

1😁89❤61🔥37🤔7👾5👍43💯2👀1

19.6K viewsedited 18:16

Data Secrets

Скандалы, интриги, расследования: xAI подает в суд на своего бывшего инженера за то, что он пытался шпионить для OpenAI Беднягу зовут Xuechen Li, а само дело было так: – В начале лета он, работая в xAI, получил оффер от OpenAI и принял его. Сразу после…

Илон Маск снова подает в суд на OpenAI. На этот раз – за шпионаж

🧐

Помните, некоторое время назад уже всплывала история о том, что некий инженер из xAI якобы пытался украсть какие-то секретные материалы для OpenAI?

Ну так вот, тогда стартап судился только непосредственно с бедолагой-недошпионом. Теперь же они подают в суд на целый OpenAI, и обвиняют их уже в нескольких попытках шпионажа.

Согласно иску: OpenAI систематически переманивает бывших сотрудников xAI и подталкивает их распространять коммерческие секреты xAI (типа исходного кода, бизнес-планов и информации о датацентах).

Как написал Илон Маск, иск стал для xAI крайней точкой:

Мы отправили им множество писем с предупреждениями, но они не остановились. Судебный иск был единственным выходом после того, как мы исчерпали все остальные.

Из смешного, в материалах дела даже приводится ссылка на июльское письмо юриста xAI одному из бывших лидов стартапа, в котором он обвинил того в нарушении NDA. В ответ от сотрудника пришло только простое лаконичное «suck my dick».

Please open Telegram to view this post

VIEW IN TELEGRAM

😁15748❤19👍5🤔3

17.6K views07:11

Data Secrets

Новый датасет T-ECD для екома

Т выкатили не просто датасет, а крупнейший кросс-доменный набор для развития рексистем

– Основной T-ECD: более 135 млрд взаимодействий, на основе синтезированных данных 44 млн пользователей, 30 млн товаров и 1,2 млн брендов. Сборка данных глубиной от 1 до 3,5 лет — доступны краткосрочные и долгосрочные пользовательские истории

– Домены: Marketplace, Retail, Payments, Offers и Reviews.

– Рекомендательные задачи: подходит для next-item, next-basket, session-based, топ-N и других

– Версии: полный датасет и T-ECD Small на 5 млрд событий, а также облегчённый набор на 1 млрд взаимодействий для быстрых экспериментов.

Почти все доступные датасеты для исследований моно-доменные и маленькие, а Т-ECD первый по-настоящему кросс-доменный датасет такого масштаба. Он универсален — можно использовать как целиком, так и по доменам, а еще подходит для разных подходов: от базовой коллаборативной фильтрации до графовых рекомендаций.

Всё это уже доступно на Hugging Face.

UPD: Марина Ананьева руководитель направления рекомендательных систем в Т-Банке рассказала, как готовятся такие датасеты:

Для каждого синтетического идентификатора пользователя и синтетических ID атеймов генерируется цепочка взаимодействий (покупка, просмотр, клик и тд), похожая на паттерны поведения групп пользователей. В базовом варианте это делается через сэмплирование, подмешивающее шум разных типов - несуществующие взаимодействия, прореживание существующих подпоследовательностей, перестановка местами и др.
При этом задаются несуществующие временные метки, которые могут нарушать и последовательность действий. Названия и категории реальных каталогов товаров и сервисов тоже не используем. Условно, генерим цепочку - что пользователь купил шоколадку, потапал по печенькам, и на какую-то из них активировал кэшбэк в какие-то моменты времени. Т.е. это синтетические цепочки событий, но ценность в сохранении паттернов поведения групп пользователей и их предпочтений

1❤7825🔥23👍88🤯3😁2🤔1

18K viewsedited 09:24

About

Blog

Apps

Platform