Data Secrets
77.3K subscribers
6.03K photos
590 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Meta* выпустили приложение Vibes: это буквально ИИ-ТикТок

Та же персонализированная лента коротких роликов, те же интерфейсы для наложения музыки, эффектов и прочего. Только видео пользователи не снимают, а генерируют.

Моделька под капотом должна быть в перспективе их домашняя – Movie Gen. Но сейчас пишут, что на ранних стадиях платформа будет работать в сотрудничестве с Midjourney и Black Forest Labs, пока «компания дорабатывает свои модели».

Сейчас ролики до 16 секунд, и больше смахивают просто на анимацию картинок, чем на полноценную генерацию видео. Зато звуковую дорожку тоже можно генерировать. Даже предусмотрительно добавили поддержку кросс-постинга в Instagram.

Все уже доступно в приложении Meta AI.

Продукт вроде интересный, но есть ощущение, что еще некоторое время такое не полетит. Что думаете?
😁78🗿5215👍9🤨764🤔2🍾2
Альянс ИИ выпустил свежий бенчмарк SWE-MERA для оценки моделей для ĸодинга

Его разработали совместно MWS AI, Сбер и ИТМО. Как и классический SWE-bench, SWE-MERA основан на issues и pull requests с GitHub. НО ключевое отличие в том, что SWE-MERA сделали динамическим. Данные в бенчмарке обновляются ежемесячно: каждый раз примерно +250 новых задач из активных репозиториев.

Это означает, что:

1. Бенчмарк не устаревает и тестировать на нем модели (даже одни и те же) можно постоянно.

2. Можно быть более-менее уверенным, что какие-то задачи из бенчмарка модели точно не видели на трейне. В лидерборд даже встроили автоматическую защиту от ĸонтаминации данных: можно выбирать задачи из разных временных периодов, чтобы точно видеть, чьи результаты подкрашены попаданием тестовых данных в обучение (см.скрин).

В условиях дикой ИИ-гонки статические бенчмарки уже изживают себя, и как раз динамика тут – новый стандарт. Так что релиз своевременный.

Сейчас в SWE-MERA уже около 700 задач. Подробнее о том, как их собирают и отбирают, можно почитать в статье, там довольно нетривиальный пайплайн (и его, кстати, выложили в опенсорс). Если хотите протестить собственные модели – инструкция тут.

Страница проекта
2🔥6919👍16🗿4😁32
This media is not supported in your browser
VIEW IN TELEGRAM
Google выпустили Gemini Robotics 1.5

Это их новая усовершенствованная агентная система для управления роботами. Теперь она может лучше рассуждать и планировать, взаимодействовать с человеком и даже использовать в ходе работы инструменты типа веб-поиска.

Внутри, на самом деле, зашиты одновременно две модели: Gemini Robotics-ER 1.5 и одноименная Gemini Robotics 1.5.

Первая выполняет функции высокоуровневого мозга: анализирует окружающую среду и действия/команды людей, а затем на основе этого составляет подробный план выполнения задачи и при необходимости вызывает инструменты. А Gemini Robotics 1.5 – это исполнитель, который уже преобразует инструкции в точные двигательные команды для робота.

Например, когда вы просите: "Рассортируй мусор правильно исходя из моего местоположения". В системе происходит следующее:

1. Gemini Robotics-ER 1.5 анализирует ваш запрос -> идет в Интернет, чтобы понять, какие в вашей стране правила сортировки мусора -> смотрит, какой именно мусор предстоит сортироать -> отдает команды вроде "бутылку в левую кучку, салфетку в правую, ...". При этом модель выдает некоторый трейс своего ризонинга, а значит система в целом становится немного более интерпретируемой.

2. Gemini Robotics 1.5 принимает на вход команды от ER и преобразует их в точные траектории движения. Если в процессе в окружающей среде что-то меняется (добавляется новый мусор, например), ER это замечает и поправляет свои инструкции.

Дополнительный плюс в том, что если у вас меняется форма робота, то адаптировать всю систему целиком не нужно. Достаточно потюнить вторую модель, ну или прикрутить свою кастомную.

Gemini Robotics-ER 1.5, кстати, уже даже доступна через API.

deepmind.google/discover/blog/gemini-robotics-15-brings-ai-agents-into-the-physical-world/
👍56🔥28198
OpenAI выпустили бенчмарк GDPval, который оценивает способности ИИ в реальных экономических задачах

TL;DR: пытаются ответить на вечный вопрос «Заменит ли нас предсказание следующего токена». Ответ: нет, ну уже сейчас сетки могут ускорить и удешевить работу.

– Берут 9 крупнейших секторов экономики США, которые дают наибольший вклад в ВВП.
– Для каждого сектора взяли 5 профессий, которые создают наибольшую часть зарплат в секторе + выполняют в основном цифровую работу.
– Отобрали из этих профессий экспертов с опытом > 4 лет (большинство оказалось 10+ лет опыта) и посадили их создавать задачи.

Каждая задача – это реальный рабочий кейс. В среднем одна таска из бенчмарка выполняется человеком за 7-9 часов, но на некоторые требуются дни.

Оценивать пытались максимально честно. Эксперт-оценщик видел только задачу и два решения. Одно сделано моделью, другое человеком (или другой моделью). Но эксперт не знает, где какое, и выбирает, исходя только из качества результата. Так измеряется win-rate, то есть доля случаев, когда ИИ не хуже человека.

OpenAI также пытались разработать авто-оценщика. Получилось, что он совпадает с людьми в 66% случаев. Как будто немного, но задача в целом невыполнимая, учитывая что сами эксперты совпадают между собой в 71% случаев 😁

Ну так вот, результаты:

– Лучше всего себя показал Claude Opus 4.1, он выигрывал или был на уровне человека в 47.6% задач.

– GPT-5 чуть отстает, зато сильнее на точности и следовании инструкциям.

– Все модели периодически галлюцинируют (да и задачки в бенче пока довольно односложные). НО даже если считать, что человек сначала пробует использовать модель, а потом при необходимости доделывает работу сам, время выполнения может сократиться в 1.4 раза, а стоимость – почти в 1.6 раза.

На самом деле, хорошая работа, закрывающая большую дырку в бенчмарках. Ждать реальных экономических эффектов, чтобы оценить возможности ИИ – это супер долго (для компьютеров вот потребовались десятилетия). А пытаться оценивать через задачки по математике или теоретические научные вопросы – ну, мягко говоря, провальная затея. Тут – хотя бы какое-то отражение реальной картины.

cdn.openai.com/pdf/d5eb7428-c4e9-4a33-bd86-86dd4bcf12ce/GDPval.pdf
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
64👍36🔥12😁2🤔2
Кажется, Google готовится объединить SQL, Python и Spark в рамках Colab Enterprise

По слухам, поисковый гигант намерен создать единую среду для специалистов по машинному обучению, объединив SQL, Python и Apache Spark в одном месте.

Ясмин Ахмад, управляющий директор Google Cloud по обработке данных, отметил, что главным препятствием для эффективности в ML является необходимость переключаться между средами: получать данные с помощью SQL в базах данных и хранилищах, затем экспортировать их, загружать в блокнот и настраивать отдельный кластер Spark.

Как вы понимаете, это крайне неудобно. Поэтому Google представляет ряд улучшений для своих блокнотов Colab Enterprise в BigQuery и на платформе Vertex AI.

Кроме того, компания анонсировала следующие преимущества для разработчиков в блокнотах Colab Enterprise:
Предварительный просмотр собственных ячеек SQL.
Интеграцию собственного Data Science Agent, призванного помогать в анализе и разработке моделей.
Please open Telegram to view this post
VIEW IN TELEGRAM
116🔥46👍24🦄3🆒2👏1
Кто бы сомневался: исследователи выяснили, что роботы Unitree G1 каждые 5 минут отправляют данные в Китай

Это история о том, как трое ничего не подозревающих кибербезопасников решили сделать техразбор роботов Unitree G1, но внезапно вместо мелких багов наткнулись на большой троян.

В частности, они зафиксировали постоянные MQTT / WebSocket-соединения с двумя удалёнными брокерами производителя, а дальше провели runtime-анализ и собрали телеметрию, уходящую на эти IP-адреса.

В итоге оказалось, что каждые 300 секунд этим хостам отправляются JSON-фреймы примерно по ~4.5 KB. Ну а там внутри полный набор: данные с лидаров, камер, микрофонов + геолокация и все логи. Буквально робот из фильма про шпионов : )

Ну и помимо этого "мелкого" нарекания (ну а что, учить следующих роботов же надо на чем-то) обнаружилось еще несколько занятных фактов.

– Например, конфигурации шифруются с помощью Blowfish-ECB со статическим ключом, одинаковым для всех роботов. Это означает, что взломав одного робота, можно получить доступ ко всей линейке устройств, и будет вам армия 👉

– Все устройства используют один и тот же AES-ключ, поэтому любой, кто находится в радиусе Bluetooth, может получить root-доступ.

Если что, сейчас таких роботов уже продано около полутора тысяч ☕️

arxiv.org/pdf/2509.14139
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁21768👀3020🤯16👍32❤‍🔥1
У стартапа Миры Мурати Thinking Machines вышло уже второе исследование: авторы предлагают новый метод обучения нейросетей

В статье много зубодробительной математики, но мы попробуем разобрать ее более простым языком.

Когда мы обучаем нейросети, одна из главных проблем – это контроль масштабов тензоров (весов, активаций, градиентов). Если что-то становится слишком большим или слишком маленьким, начинаются численные проблемы: всякие взрывы градиентов, исчезающие градиенты и тд.

Обычно это фиксится высокоуровнего с помощью техник типа gradient clipping, weight decay или layer norm. Но здесь предлагается более жёсткий и фундаментальный подход: не просто скейлить веса, а ограничивать саму структуру тензоров, заставляя их жить не в произвольном пространстве, а на определенном многообразии (на английском manifold).

На практике это выглядит примерно так:

➡️ Каждый вид слоев сети живет на своем многообразии. Например, мы хотим, чтобы полносвязыне слои не растягивали веса слишком сильно. Для этого в качестве многообразия можно выбрать пространство матриц, у которых строки/столбцы ортонормированы (просто исходя из свойств такая матрица почти не будет увеличивать норму сигнала). Значит, при любом обновлении весов, после каждого шага обучения, матрица весов на этом слое во что бы то ни стало должна обладать таким свойством.

➡️ На прямом проходе ничего не меняется, да и на бэкпропе градиенты сами по себе считаются как обычно. Но обновить веса по обычной формуле мы теперь не можем: так условия на матрицы перестанут выполнятся. Поэтому, прежде чем вычесть градиент, мы сначала проецируем его в касательное пространство. Интуитивно это значит, что в векторе обрезаются те направления, которые увели бы нашу матрицу из целевого подпространства.

➡️ Все, теперь с подправленным градиентом можно сделать шаг обучения. Теоретически полученные матрицы должны остаться в исходном пространстве. Но из-за численных ошибок они могут немного съехать. Поэтому заключительным этапом еще идет аккуратная ретракция (примерно то же, что и проекция). Для стабильности еще предлагают вводить бюджет шагов. Это чтобы все слои двигались примерно равномерно.


Короче, на игрушечном эксперименте с CIFAR-10 такой оптимизатор действительно показывает метрики гораздо лучше, чем AdamW (+ лучшую стабильность).

И вроде все круто, и с исследовательской точки зрения проект правда интересный. Но до практики пока далеко, потому что остается еще куча вопросов: а как подбирать пространства, а как будет сходиться, а заведется ли на больших сетях, а будет ли работать с float16 и прочее-прочее. Это не говоря уже об огромных вычислительных затратах.

thinkingmachines.ai/blog/modular-manifolds/
Please open Telegram to view this post
VIEW IN TELEGRAM
125🔥39👍30🤯11😁4🤔31
В X вовсю обсуждают блогпост ученого Джулиана Шриттвизера, который напророчил AGI к 2026-2027 году

Это имя может быть вам не знакомо, потому что Джулиан нечасто появляется на публике и в соцсетях. Но на самом деле он – один из самых заметных ученых в области (с огромным Хиршем). Он занимал позицию главного рисерчера в DeepMind и сыграл ключевую роль в создании AlphaGo, AlphaZero, MuZero, AlphaCode, AlphaTensor и AlphaProof. Сейчас работает в Anthropic.

Так вот, он в своем новом блогпосте («Failing to Understand the Exponential, Again») сравнил текущую ситуацию с ИИ с началом пандемии COVID-19. Тогда, несмотря на явные экспоненциальные данные о росте заражений, многие продолжали считать пандемию маловероятной.
С ИИ происходит то же самое: люди видят прогресс, но продолжают думать, что AGI не будет и развитие ИИ уже замедляется.

На самом деле, как говорит Джулиан, рост все еще экспоненциальный:

➡️ На бенчмарке METR (оценивает, как модели справляются с длинными автономными задачами, подробно писали в этом посте) примерно каждые 7 месяцев максимальная длительность автономной работы модели удваивается. Это экспонента по определению, а значит в 2026 году ИИ сможет работать автономно целый рабочий день.

➡️ На новом GDPval от OpenAI (пост про бенчмарк) GPT-5 и Opus 4.1 уже почти достигли среднего человеческого уровня по многим профессиям. Судя по прогрессу относительно прошлых моделей, уже к концу 2026 хотя бы одна модель достигнет уровня лучших экспертов в большинстве отраслей. К 2027 году компании начнут массово заменять специалистов.

В общем, основная мысль такова: экспонента есть, даже если мы ее не замечаем.
Пользователи часто судят по собственному опыту – «я не заметил разницы между GPT-4о и GPT-5, значит прогресс остановился». Но с каждым новым релизом эффекты все равно накапливаются, даже если это не сразу видно в повседневных чатах. Плюс, экспоненту в целом сложно интуитивно осознать: все изменения всегда кажутся медленными, пока не произойдет поворотный момент.

(Хочется еще добавить, что все-таки надо еще делать поправку на закон Гудхарта: метрики можно натаскать, а realworld задачи так и останутся нерешаемыми. Но это уже совсем другая история.)

Вот такой вот вам разбор в понедельник утром ☕️

Еще раз ссылка на блогпост: www.julian.ac/blog/2025/09/27/failing-to-understand-the-exponential-again/
Please open Telegram to view this post
VIEW IN TELEGRAM
👍108🤓574117😁13🔥6🗿6👀21💘1🦄1
А вот, кстати, выдержка из другого свежего блогпоста известного математика и информатика Скотта Ааронсона*

Он утверждает, что GPT-5 помогла ему доказать одну из теорем в его новой работе.

Автору нужно было показать, что при изменении параметра матрицы ее максимальное собственное число не приближается к единице слишком быстро. Ааронсон пробовал разные методы и в конце концов решил обратиться к GPT-5 Thinking, которая в итоге подсказала ему ключевую идею доказательства.

Год назад я пробовал решать похожие задачи с новыми на тот момент GPT-моделями, но тогда результаты были далеко не такими хорошими. Пока что ИИ почти наверняка не может написать научную статью (по крайней мере, если вы хотите, чтобы она была качественной), но он может помочь вам выбраться из тупика, если вы сами понимаете, что делаете. Это можно назвать своего рода «идеальным состоянием» – когда ИИ еще не заменяет исследователя, но уже помогает ему двигаться вперёд. Кто знает, как долго это продлится? Пожалуй, мне стоит быть благодарным за то, что у меня есть пожизненный контракт на должность профессора.


* Кто не знает – это один из первопроходцев теории квантовых вычислений и чуть ли не самый цитируемый ученый в этой области. Доказал теорему о коллизиях (одна из основных в криптографии на данный момент) и концепцию квантового превосходства.
🔥15533🤯18👍9😁5🗿2
Тому самому вайбкодеру из твоей команды посвящается
2😁276🔥31🗿1365🤔3🍾3🤩2👍1👾1
DeepSeek выпустили новую модель DeepSeek-V3.2-Exp

Качество примерно на уровне предыдущей DeepSeek-V3.1 Terminus, а цена стала на 50+% ниже.

Основное нововведение, за счет которого и удалось снизить косты и повысить скорость, – DeepSeek Sparse Attention(DSA). Не отходя от кассы на второй картинке можете посмотреть, насколько метод оптимизирует стоимость на длинных последовательностях.

DSA – это специальная вариация механизма внимания, которая позволяет вычислять аттеншен не на всех парах токенах, а избирательно.

В большинстве вариантов Sparse Attention маска для всех запросов совпадает (грубо говоря, все токены смотрят на одинаковые позиции), но здесь заявляется fine-grained. То есть маска формируется динамически для каждого токена, так что модель не теряет важные зависимости, и качество почти не падает.

Для этого сначала отрабатывает так называемый Lightning Indexer – легкий шустрый модуль, который вычисляет оценки важности между текущим токеном и предыдущими. Затем выбирается top-k наиболее важных токенов, на которых и будет выполняться внимание.

Ускорение, соответсвенно, получается за счет того, что сложность алгоритма уже не квадратичная по длине последовательности, а линейная.

Моделька доступна в приложении, в вебе и в API

Веса | Техрепорт
75🔥30👍187🐳3
Когда серфил arxiv и нашел золото. Те самые названия статей, которые мы заслужили:

P.S. На самом деле работа интересная, автор пытается дать четкое определение AGI и разобраться, подходят ли в принципе под него современные архитектуры.
😁18138❤‍🔥145👍2🐳2
⚡️ Вышел Claude Sonnet 4.5

Теперь у Anthropic снова SOTA модель для кодинга. Модель уверенно обгоняет GPT-5 на всех бенчмарках по программированию, на остальных идут почти вровень.

Также обновили Claude Code (ура!)

– Добавили новое расширения для VS Code
– Обновили интерфейс терминала
– Залили команду для быстрого возврата к предыдущему чекпоинту (или на несколько шагов назад) и команду для быстрого перехода к расширенному ризонингу
– Теперь агент прямо в терминале сможет создавать файлы, таблицы и диаграммы на основе ваших данных

https://www.anthropic.com/news/claude-sonnet-4-5
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2🔥12324👍189😁3🍓3
This media is not supported in your browser
VIEW IN TELEGRAM
Также Anthropic выпустили research preview LLM-операционки

Что-то подобное уже было у Google (мы писали тут). Идея та же: LLM пишет ПО на лету, по вашему запросу.

Тыкаете на какое-то приложение – оно поднимается с нуля без заготовленного заранее кода. Открываете файл – содержимое генерируется тут же. Пример на видео.

Это, конечно, не серьезный продукт, а скорее просто продвинутая демонстрация способностей и реклама для нового Sonnet 4.5.

Поиграться, правда, получится, только если вы пользователь тарифа Max, и только в течение 5 дней.

https://claude.ai/imagine
🔥5422👀1813👍7😁4🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
В ChatGPT теперь можно совершать покупки

Начиная с сегодняшнего дня жители США могут покупать любые продукты, не выходя из чата с ботом.

Для этого стартап в сотрудничестве с платежной системой Stripe разработали собственный опенсорсный протокол Agentic Commerce Protocol (ACP). Похожее решение совсем недавно выкатывали Google, но OpenAI видимо решили действовать самостоятельно.

Архитектура ACP немного отличается от гугловской и выглядит даже проще. ChatGPT просто отправляет зашифрованные данные на сервер продавца, а тот обрабатывает платеж и заказ как обычно. Из минусов: отложенные покупки (типа «купи это, как только появится в продаже») пока, судя по всему, не поддерживаются.

OpenAI подчеркивают, что это не реклама (пока еще 🙃). Стоимость товаров для покупателя не будет меняться в чате, поисковая выдача товаров не проплачивается продавцами, продавцу отправляются исключительно те данные, которые нужны для покупки.

Единственное: сами продавцы, которые подключили свои товары к системе, платят небольшую комиссию за каждую продажу в ChatGPT.

Блогпост | ACP
🤯81👍4022🤨76🔥3😁2🤔2🍓2