Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Microsoft очнулись и представили MAI-1-Preview – свою первую полностью самостоятельную модель

Видимо, до компании окончательно дошло, что OpenAI так или иначе их кинет, и они наконец-то решили действовать сами.

Обучали примерно на 15к H100, это сопоставимо с большинством ведущих моделей. Архитектура MoE. Вроде бы без ризонинга.

Публичных бенчмарков пока нет, но на LMArena модель заняла 15 место рядом с Qwen3-325b-thinking и o1-2024-12-17 (смотрим, и не осуждаем, все-таки у ребят первый опыт 😁 ). Попробовать пока нигде нельзя, кроме той же LMArena.

В перспективе модель должна интегрироваться в продукты Microsoft Copilot, постепенно вытесняя решения OpenAI.

В довесок еще выпустили MAI-Voice-1 – речевую Text-to-Speech модель. Вот ее потрогать уже можно здесь. Заявляют, что за секунду можно сгенерировать до минуты звучания на одной GPU.

microsoft.ai/news/two-new-in-house-models/
Please open Telegram to view this post
VIEW IN TELEGRAM
😁5835🔥2111👍9
Anthropic привлекли 13 миллиардов долларов при оценке в 183 миллиарда

На секундочку, еще в марте этого года они стоили всего 62 миллиарда. Это рост на 300% за пол года.

А run-rate revenue с начала года вырос уже в 5 раз: $5 млрд сейчас против $1 млрд в январе. Спасибо Claude Code и API (сейчас в стартапе 70–75% выручки дают API-платежи по токенам, только 10–15% – подписки) ✌️

Такая оценка делает Anthropic четвертым по стоимости стартапом в мире и одной из самых дорогих AI-компаний после OpenAI и xAI.

Раунд возглавили Iconiq, Fidelity и Lightspeed. Для Anthropic это уже серия F, то есть шестой или седьмой по счету раунд.

www.anthropic.com/news/anthropic-raises-series-f-at-usd183b-post-money-valuation
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥99👍261512🤯7😁3🤔1🕊1
This media is not supported in your browser
VIEW IN TELEGRAM
Не могли не запостить сюда этот отрывок из нового интервью Альтмана

– Приведи пример случая, когда тебе пришлось сделать выбор в пользу того, что будет лучше для мира, а не для лидерства компании

– Ну, мы еще не добавили секс-аватара в ChatGPT


Назовите противостояние прекраснее, чем у Альтмана с Маском. Мы подождем.
😁35341🔥3511🗿11❤‍🔥7👍2😎11
OpenAI купила стартап Statsig

Сделка обошлась в 1.1 миллиард долларов (сущие копейки для OpenAI ).

Statsig – это платформа для продуктовой аналитики и экспериментов, её технологии нужны OpenAI для ускорения разработки и тестирования новых продуктов. Но они купили не только технологию.

Сделка значится как «all-stock deal», то есть все сотрудники стартапа также перейдут в OpenAI. А CEO – Виджай Раджи – станет новым CTO of Applications в OpenAI. В этой роли он будет отвечать за инфраструктуру и надежность всех пользовательских продуктов, включая ChatGPT и Codex.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍984815🔥7😁6
Новый день – новая сохраненная статья, которую никто не будет читать
😁299👍3824💯10❤‍🔥5👾53🔥1
В CERN ИИ помогает найти крайне редкие виды распада бозона Хиггса

В эфире наша любимая рубрика: ускорение прогресса с помощью Deep Learning. На очереди снова физика.

Контекст. В науке существует так называемая Стандартная модель – это теория, объясняющая, из каких элементарных частиц состоит вся материя и какие силы между ними действуют. По этой модели, частицы получают массу благодаря бозону Хиггса. Но чтобы подтвердить это, нужны распады Хиггса на лёгкие кварки: если Хиггс на самом деле отвечает за массы всей обычной материи, такие распады должны происходить (пусть и очень редко), так что это что-то типа лакмусовой бумажки.

Сложность в том, что эти распады утопают в шумах. Раньше физики считали, что поймать их – почти фантастика: технически всё слишком тонко.

И вот сегодня стало известно, что исследователи детектора CMS на Большом адронном коллайдере впервые представили результаты поиска распада бозона на пару очарованных кварков. И сделали это с помощью ИИ.

Сразу скажем: сам распад пока не обнаружен. Но прорыв все равно колоссальный: точность анализа удалось улучшить на 35%.

Под капотом графовая нейронная сеть и трансформер. GNN позволяет анализировать взаимосвязи между наблюдаемыми частицами в каждом событии ускорителя, а трансформер выделяет те самые едва уловимые паттерны, отличающие истинный сигнал от шума. Сетки обучали на сотнях миллионов смоделированных столкновений (они называются джеты).

Ну и да, 35% – действительно гигантский шаг. На практике это означает, что доказательство распада Хиггса на лёгкие кварки может быть обнаружено уже в ближайщие годы, когда еще пару лет назад это считалось почти невыполнимой задачей.
1🤯8240👍33❤‍🔥151413🔥10😁5😎2👌1
Data Secrets
OpenAI купила стартап Statsig Сделка обошлась в 1.1 миллиард долларов (сущие копейки для OpenAI ). Statsig – это платформа для продуктовой аналитики и экспериментов, её технологии нужны OpenAI для ускорения разработки и тестирования новых продуктов. Но…
Хах, оказывается услугами стартапа Statsig, который только что купили OpenAI, активно пользовались еще и Anthropic

Причем сообщили они об этом буквально за пару дней до сделки

Совпадение? 🤔
Please open Telegram to view this post
VIEW IN TELEGRAM
😁962116🤔5🫡321👍1
🔥 Вчера организаторы «Лето с AIRI 2025» выложили плейлист со всеми выступлениями спикеров.

Напомним: AIRI провёл летнюю школу для студентов и молодых исследователей в области ИИ в Томске. Вчера организаторы выложили плейлист со всеми лекциями. Темы охватывают всё, что сегодня волнует сообщество:
– LLM-агенты и мультиагентные системы
– Обучение с подкреплением
– Мультимодальные модели и VLM
– Интерпретируемость и безопасность
– Химия и биология с ИИ
– Генеративный дизайн и проектирование
и многое другое.

Это десятки часов контента от исследователей AIRI, МФТИ, МГУ, Сбера, Авито и других компаний 🔍

👉 Смотреть можно здесь: VK, YouTube
54🔥35👍17🗿833😁2🤔2🤯2👏1
Очень понравилась свежая статья "Be like a Goldfish, Don't Memorize!": исследователи из университета Мэриленда предлагают аналог дропаута для токенов

Проблема рассматривается следующая. LLM часто запоминают части тренировочного датасета и могут воспроизводить их дословно. И это приводит к ряду очень неприятных последствий: сюда все иски за авторские права, утечки конфиденциальных данных и лицензированного кода и прочее.

В общем, загвоздка достаточно значимая, и решать ее пытаются в основном через unlearning после обучения или Differential Privacy. И то и другое приводит к понижению точности и в целом не очень надежно работает.

Здесь авторы предлагают более фундаментальный подход. Интуиция: модель не сможет воспроизвести дословно последовательность, если часть токенов никогда не участвовала в вычислении ошибки.

А значит, мы можем случайным образом исключать часть токенов из лосс-функции на обратном проходе. Это и не очень сильно портит метрики, потому что общие закономерности языка модель все-равно выучивает, и на 100% исключает возможность дословного повторения текстов.

Формально процесс обучения остается ровно таким же, меняется только лосс. В него добавляется коэффициент G_i, который равен единице, если токен учитывается в бэкпропе, и нулю – если нет. Формулу шутливо назвали Goldfish Loss: по аналогии с рыбкой, которая тут же забывает то, что увидела секунду назад.

В итоге если при стандартном лоссе процент точных повторений выученных текстов – примерно 85%, то на Goldfish Loss – 0. И по качеству просаживается не сильно, нужно просто либо чуть больше данных, либо чуть больше шагов. Плюс, применять на всем датасете не обязательно, можно использовать только для чувствительных данных.

Изящно, скажите?

arxiv.org/pdf/2406.10209
🤗106🔥5838👍23🤨7😁3👏2💘2🍓1
Начинаем утро с хороших новостей: Google Colab снизили цены на GPU и TPU

– GPU подешевели на 13% (A100, L4, T4)
– TPU на 10% (V28, V5E1, V6E1)

A100 теперь будет стоить около $1.03 за час вместо $1.18. T4 – примерно $0.16 вместо $0.18. Напоминаем, что ценообразование у Colab динамическое, так что числа примерные.

А, и маленький нюанс: цены на CPU подняли 😄. Говорят, чтобы «компенсировать снижение стоимости ускорителей» (но по идее в целом все равно должно быть чуть дешевле).
Please open Telegram to view this post
VIEW IN TELEGRAM
90😁20🔥12👍54🤔4
На ARC-AGI-2 новый лидер: это модель всего на 200M параметров от стартапа giotto_ai

Малышка выбила аж 24,58%. Для сравнения:

– Скор предыдущего лидера – 16.94%
– Скор o3 – около 3%
– Скор o4-mini – 2–2.4%
– Скор Gemini 2.5 Pro – примерно 1%

Соревнование на kaggle пока не закончилось, так что архитектуру и детали обучения, естественно, не раскрывают. Но результат потрясающий.
107👍41🤯35😁13🤔10🍓33
OpenAI открывают направление OpenAI for Science

Об этом сообщил CTO стартапа Кевин Вейл. Цель: создать научный инструмент, который сможет ускорять научные открытия. Специально под направление OpenAI нанимает небольшую группу ученых мирового уровня из разных областей (имена пока не раскрывают).

Альтман и остальные руководители стартапа уже кучу раз говорили о том, что их ИИ будет катализировать прогресс, и вот, видимо, момент заняться этим всерьез настал. Какие-то предпосылки уже есть – вспоминаем недавние новости:

– Буквально пару недель назад OpenAI объявили, что совместно с биотехнологическим стартапом Retro Biosciences разработали модель, которая смогла в 50 раз ускорить генерацию стволовых клеток (подробности)

– В другой раз GPT-5 решила открытую математическую задачу (подробности)

– Сам Кевин в своем анонсе еще приводит в пример случай, когда ученые использовали GPT-5 для доказательства некоторых теорем по квантовой теории поля (статья)

В общем, подразделение появляется вполне своевременно. На доказательство Теории струн не надеемся, но к чему-то полезному прийти, вполне вероятно, можно. К тому же, они в своей инициативе не первые: Google вон уже 10+ лет занимаются моделями Alpha серии, и идея там вполне близкая к тому, что будет происходить в OpenAI for Science.
🔥87👍331897🤨4🦄2😎2😁1
Облачный и AI-провайдер Cloud.ru на конференции GoCloud Tech удивил всех сразу несколькими крутыми обновлениями. Делимся:

Первое и самое важное: объявление цен на открытые LLM! С 1 ноября на платформе Evolution AI Factory языковые модели будут стоить в среднем 35 рублей за миллион входных токенов и 70 рублей за выходной. Это почти мировая планка, так что теперь пробовать и внедрять AI смогут не только корпорации, но и компании поменьше. Например, цена на Qwen3-235B – 17 и 50 рублей соответственно.

Второе: появились первые результаты работы AI-помощника Клаудии на платформе Cloud.ru Evolution, которого представили в конце июня. Два месяца работы, и статистика говорит, что в среднем агент ускоряет рутинные операции DevOps-инженеров в 15 раз. Например, если раньше создание виртуалки занимало у пользователей от пяти до тридцати минут, то с Клаудией время сократилось до одной-двух. Агентом активно пользуется каждый четвертый юзер сервиса.

И видимо, классные метрики вдохновили компанию на обновления, потому что теперь помощник будет работать еще в двух новых сценариях:
– Как SRE-агент для мониторинга и алертов.
– Как FinOps-помощник, который автоматически выявляет лишние траты и подсказывает оптимизацию. Приятно.

Ну и еще несколько инженерных обновлений, которые стоит оценить:

1. Ребята расширили возможности сервиса для создания и управления сетевыми связями Magic Router. Теперь в нем появился Magic Link, которая организует сетевую связность между облачными ресурсами под использования интернета.
2. Релизнули Evolution VPN – облачный сервис, который даёт защищённый доступ к корпоративным и облачным ресурсам.
3. Evolution Data Platform наконец-то вышла из превью и теперь в коммерции. Система поддерживает полный цикл работы с данными и может срезать до 40% затрат на инфраструктуру.

Все новинки тестируем тут
🤨46🔥23🗿15👍76😁52🤯11
Nvidia выложили в опенсорс универсальный Deep Research, который можно обернуть вокруг любой LLM

Он так и называется: Universal Deep Research (UDR). Фактически, это готовый конструктор для построения системы поиска или анализа.

Пользователь просто задает стратегию работы на уровне сценариев: правила сбора и анализа данных, последовательность действий, критерии отбора источников и формат результата. А дальше агент все делает сам: ищет источники, обрабатывает их, верифицирует и синтезирует. Движок под капотом может быть абсолютно любой, то есть модель можно взять какую угодно.

Почему это круто? Тут все просто: демократизация. Нет привязки к конкретной платформе, и обертку можно делать даже над чайником.

Почему это не панацея? Тут не предполагается никакого рода файнтюнинга. А значит, итоговые метрики могут страдать, даже если в основе у вас отличная базовая модель. Поэтому – доверяем, но всегда проверяем.

Статья | Страница проекта | Гитхаб | Лаб
❤‍🔥9332🎉30👍21🔥5🤔21😁1
Друзья, внимание

У Ильи Суцкевера появился мерч

И да, вы это уже не развидите
1😁291🔥38🗿186😎5❤‍🔥4👍33
У OpenAI появятся собственные чипы. Первые поставки ожидаются уже в 2026.

Чипы под названием XPU разрабатываются совместно с Broadcom (они же помогали Google с TPU). Железо будет предназначено только для внутреннего использования и только для инференса. Цель – снизить зависимость от Хуанга.

Сумма договора официально не сообщается, НО буквально пару дней назад директор Broadcom Хок Тан сообщил о сделке с загадочным новым крупным клиентом на сумму около $10 млрд 😏

Кстати, после новостей акции Broadcom подскочили уже на 4,5%. А аналитики говорят, что к 2026 году бизнес Broadcom по разработке кастомных чипов и вовсе будет расти быстрее, чем производство GPU у Nvidia.

Новость на FT без пэйвола

UPD: еще выяснилось, что команду XPU в OpenAI возглавляет сам Ричард Хо – бывший главный инженер TPU в Google
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥9223👍18117🕊2😁1
На Hugging Face вышел обзор мировых ML-датасетов, недавно выложенных в опенсорс. Среди них крупнейший рекомендательный датасет Yambda-5B от Яндекса.

Самое главное из статьи:
– Открытые датасеты двигают вперед исследования в ML-индустрии, на многие из них стоит обратить внимание
– Мировые эксперты отметили значимость датасета Яндекса для развития рекомендательных систем и науки в целом

Один из экспертов, Аман Чадха (AWS GenAI, ранее Stanford AI и Apple), отметил, что «такие датасеты, как Yambda-5B, сокращают разрыв между академическим сообществом и реальной индустрией»
🤯75👍7131🤨13😁7🗿3🔥2