Data Secrets
77.3K subscribers
6.03K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
⚡️ Вышел Qwen-3, встречаем новую открытую соту

Выпустили 2 MoE и 6 dense моделей в весах на любой вкус, 0.6В до 235B. Разбираем.

Самая большая модель на уровне со всеми звездами – Gemini 2.5 Pro, Grok-3, o1, R1. И это MoE всего с 22В активных параметров. На 30В MoE модель тоже крутая получилась: на бенчах видно, что она лучше предыдущего ризонера QwQ-32B (при этом активных параметров у нее всего 3В, то есть в 10 раз меньше).

Что еще чтоит знать:

1. Это полу-ризонеры, как Sonnet 3.7 или Gemini 2.5 Pro. То есть модель будет «думать», если задать мод think, и не думать, если задать Non-Thinking. Бюджет рассуждений тоже можно контролировать.

2. Модели мультиязычные (русский тоже есть), но не мультимодальные. Довольствуемся тем, что есть.

3. Улучшены агентные способности на уровне поиска в браузере, использования интерпретатора и др. Что особенно приятно – добавили поддержку MCP.

4. Претрейнинг был в три этапа: сначала на 30 триллионах токенов с контекстом 4К, затем отдельно на сложных научных текстах (5Т), потом на длинных контекстах до 32К токенов.

5. Пост-трейнинг: файн-тюнинг на CoT + несколько стадий RL. Интересно, что мелкие модели до 30В обучали дистилляцией из крупных.

В общем, пробуем и наслаждаемся здесь

Веса | Блогпост | Гитхаб
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
86👍38🔥21
Робо-руку от HuggingFace за 100 долларов надо?

HuggingFace показали свою новую модель робо-руки SO-101. Это продолжение SO-100, которую они раскатывали в октябре совместно с The Robot Studio (в этот раз релиз тоже совместный). Новая модель проще для сборки, легче, и оснащена лучшими двигателями и камерой.

Стоит удовольствие всего 100 долларов. Но, если быть откровенным, это базовая цена. В зависимости от тарифов она может колебаться до 500 долларов.

Самое интересное, что покупателям предстоит не только самостоятельно собрать, но и обучить руку. Это, к слову, не сложно: вот здесь в репозитории подробнейшие инструкции, справится даже не инженер. А научить робота можно чему хочешь (ну в рамках возможностей и, желательно, этики).

Получается какое-то лего нового поколения 🙌
Please open Telegram to view this post
VIEW IN TELEGRAM
👍84🔥4116🤯3🤝1
Ого: Илон Маск анонсировал Grok-3.5 на следующей неделе

Это будет ранняя бета-версия. Маск обещает, что модель будет рассуждать from first principles, и сможет давать ответы, которых просто нет в Интернете.

"Это первый ИИ, который может, например, точно отвечать на вопросы о ракетных двигателях или по электрохимии."
🤯151👍6522🔥1310😁10🗿6🐳3
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI анонсировали в ChatGPT рекламу встроенный шоппинг 🤑

Это буквально улучшенный браузинг для покупок. Пишешь, что хочешь купить -> агент ищет, сравнивает цены, характеристики, продавцов и рекомендует товары с прямыми ссылками на покупку.

На самом деле, удобно. К тому же пока говорят, что весь поиск товаров будет выполняться независимо, а результаты не являются рекламой. Но все мы знаем, к чему это ведет. Не зря же раскатывают и на Pro, и на Plus, и на Free.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥130👍30🤨2416💯3🤯1👌1
Data Secrets
В Notebook LM от Google теперь можно строить вот такие интерактивные майнд-мапы Напоминаем, что Notebook LM – это очень крутой инструмент для изучения статей, любых других pdf-ок, сайтов или роликов YouTube. Он может взглянуть на источник и: ответить на вопросы…
В NotebookLM теперь можно генерировать подкасты из статей на русском языке 🍯

Помните этот легендарный сервис от Google, в котором можно анализировать любые PDF/сайты/видео/ссылки, генерировать по ним конспекты, майндмапы и подкасты?

Так вот: раньше подкасты были доступны только на английском, но с сегодняшнего дня раскатили еще 50 языков. Среди них – русский.

Заходим -> кидаем источник -> тыкаем "Audio Overview" -> получаем подкаст с двумя ведущими по теме в формате вопрос-ответ.
👍126🔥78216🤯4
Мира Мурати получит 2 миллиарда долларов от крупнейшнего венчурного фонда a16z

Оценка при этом составит 10 миллиардов. Но самое занятное в этой сделке – ее условия, на которые чудом согласились инвесторы.

Дело в том, что Мира сохраняет за собой математическое абсолютное превосходство над советом директоров. Ее голос в совете равен (кол-во членов совета + 1), то есть он будет решающим в любом голосовании, даже если все остальные проголосуют иначе.

Кроме того, все учредители-основатели владеют акциями, повышающими их обычное количество голосов в 100 раз, а Мира может пользоваться этими голосами по доверенности. А значит, ей хватает прав в одиночку уволить или назначить кого угодно в совет.

А что, так можно было? 🔵
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥118😁80🤯21👍74❤‍🔥22🤔2
Кстати, с сегодняшнего дня GPT-4 – все

Модель отключили, и теперь она недоступна ни в чате, ни в API

🫡
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡32523🤯14🔥6👍5😁3❤‍🔥2🕊1
Вышли веса новой модели от DeepSeek: DeepSeek Prover V2

В модели, приготовьтесь, 671 миллиард параметров. Вероятно, модель будет заточена под сложную математику. Первая версия прувера вышла год назад (вот статья) и предназначалась для доказательства теорем.

Интересно, что при этом новая версия базовой модели для прувера (DeepSeek Math) не входила. Возможно, их объединили?

В любом случае, пока есть только веса. Будем ждать статью и официальный релиз
77👍3211🏆2🐳1💘1
Лучшее GPU-облако в России? По мнению CNews — это MWS

Сервис от MTS Web Services занял 1-е место в рейтинге GPU-облаков 2025.

Что дало преимущество:
Поддержка платформы виртуализации GPU (вкл. MWS VMcloud Platform, KVM)
MWS GPT и MLOps-инструменты под задачи ИИ
15 конфигураций: от T4 до A100, с CPU Intel Xeon Gold
Kubernetes, VDI, DRaaS, ML-библиотеки
ЦОДы уровня Tier III и высокая отказоустойчивость

В целом, это облако, которое закроет задачи от теста модели до продакшена.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁61👍10👻43🔥3🤯3🗿1
Xiaomi опенсорснули свою ризонинг модель

Она называется MiMo-7B и результаты для своего веса у нее довольно неплохие: 93.6% на MATH-500, 55.4% на AIME 2025 и 49.1% на LCB.

Это примерно уровень o1-mini. Есть, как у DeepSeek, вариант Zero (то есть RL с холодным стартом), SFT+RL и даже base+SFT.

Веса
69🔥27👍17🤨9👀5😁4
Data Secrets
Вышли веса новой модели от DeepSeek: DeepSeek Prover V2 В модели, приготовьтесь, 671 миллиард параметров. Вероятно, модель будет заточена под сложную математику. Первая версия прувера вышла год назад (вот статья) и предназначалась для доказательства теорем.…
1 мая – день труда. Вот и мы с утра потрудились и сделали для вас технический разбор статьи про новенькую DeepSeek-Prover-V2

Это ризонинг-модель на 671B для доказательства теорем в среде Lean. Lean – это такая классическая программа от Microsoft Research для формальной верификации доказательств. Там свой язык программирования, и среда умеет проверять корректность отдельных утверждений и обоснованность доказательства в целом.

Первое, чем цепляет работа – пайплайн сбора данных. Для него используется связка из двух полноценных моделей: DeepSeek-V3 и DeepSeek-Prover-V2-7B. Вот как это работает:

1. DeepSeek-V3 генерирует скетч доказательства в виде рекурсивной серии утверждений вида "если у нас будет доказанная лемма A, то мы сможем доказать B". Так у нас появляется план действий и список лемм, которые надо доказать для решения.
2. Подключается моделька DeepSeek-Prover-V2-7B (еще без всякого ризонинга, в non-CoT). В качестве базы для нее брали DeepSeek-Prover-V1.5-Base-7B и дообучали прямо в процессе сбора данных. Цель модели – доказать все мелкие леммы из пункта 1.
3. Все сгенерированные скрипты прогоняются через Lean. Верифицированные остаются в датасете, не верифицированные остаются на следующий прогон как нерешенные.


Таким образом мы одним пайплайном учим DeepSeek-Prover-V2-7B non-CoT на собственных дистиллированных трасировках + собираем большой чистый датасет с CoT доказательствами (CoT — потому что у нас есть все шаги, а не просто ответ) + бонусом имеем non-CoT датасет со всеми верифицированными Lean-скриптами от 7B модельки.

Как только дата собрана – переходим к обучению главного босса на 671B. Это уже моделька end-to-end, без мультиагентности. Что тут происходит:

1. Мы смешиваем CoT и non-CoT данные так, чтобы в каждом батче был баланс между быстрыми решениями и развернутыми.
2. Берем уже предобученную на куче математических текстов 671B-модель и для начала просто файнтюним на смешанном корпусе. Получается такой Cold-start RL.
3. Ну и, конечно, полноценный RL с фирменным дипсиковским GRPO
(разбор метода).
Награда бинарная, 1 за верифицированное доказательство, 0 иначе. Еще введен consistency reward, штрафующий несовпадение структуры итогового доказательства с изначальным CoT-скетчем.

Параллельно, кстати, точно так же (SFT+RL) дообучали и малышку 7B. Вот такой нагруженный трейнинг.

Результаты, естественно, стоящие. На miniF2F от OpenAI модель решает почти 90% задач. Предыдущие самые продвинутые конкуренты выбивали 80, а DeepSeek-Prover-V1.5 – 63. Прирост так прирост. А на PutnamBench результат – 49 решенных задач. Для понимания, o3-mini на этом тесте выбивает 0, а о4-mini-high – 2.

Статья
78🔥39👍24💘5
Microsoft выпустили reasoning версии моделей линейки Phi-4

Пост-разбор самой линейки, которая вышла в феврале, можно посмотреть тут. Сегодня она пополнилась моделями Phi-4-reasoning, Phi-4 reasoning-plus и Phi-4-mini-reasoning. В первых двух 14В, в последней – всего 3.8B, можно запускать дома.

Самая мощная Phi-4 reasoning-plus во многих тестах лучше R1 (в R1 в десятки раз больше параметров), и намного лучше o1-mini в математике. То есть в целом на уровне с передовыми ризонерами, но открыто и легковесно.

Немного отстает только на кодинге, но авторы сами говорят, что в датасете задач по программированию было мало. В то же время приросты относительно обычной Phi-4 говорят сами за себя, бусты достигают х10. Маленькая модель в своем размере тоже тащит.

Как обучали:

Phi-4-reasoning: это только SFT на задачах с CoT от o3-mini. Интересно, что даже эта версия, хоть училась только на CoT o3-mini, иногда обходит своего учителя (пример - бенч OmniMath).

Phi-4 reasoning-plus: тут добавляется еще и RL, правда совсем не масштабный, всего 6 тысяч задач. Больше не брали, потому что модель начинала выходить за контекст. При этом даже такой компактный RL показал крутые результаты, сами сравните на бенчмарках с Phi-4-reasoning.

Phi-4-mini-reasoning: здесь все немного иначе. CoT брали из R1 + датасетов. Обучали в четыре этапа: дистилляция (тут не из конкретной модели, а просто по собранному датасету и только на next-token), SFT, DPO и RL. Про эту модель вышла отдельная статья (там очень подробный рецепт того, как добавить в маленькую модель качественный ризонинг, так что сохраняем).

Веса | Тех.репорт
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥50👍1813😁3🤯2
О, Cursor поделились статистикой самых популярных среди разработчиков моделей

Топ-5 самых популярных:

1. Claude 3.7 Sonnet
2. Gemini 2.5 Pro
3. Claude 3.5 Sonnet
4. GPT-4.1
5. GPT-4o

Топ-5 быстрее всего набирающих популярность:

1. o3
2. o4-mini
3. DeepSeek 3.1 (видимо после выхода свежего чекпоинта)
4. GPT-4.1
5. Grok 3

Кстати, на днях основатель Cursor также поделился тем, что сейчас их агент генерирует порядка миллиарда строк кода в день (и это только те, которым пользователь поставил апрув). Это при том, что во всем мире ежедневно пишется всего несколько миллиардов строчек 😱
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥115👍4115🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic анонсировали Интеграции: теперь к Claude можно присоединить любой источник ваших данных

Это работает так: вы присоединяете какое-то свое приложение (ну, например, базу знаний Confluence), и с этого момента во время поиска бот будет искать не только в Интернете, но и по вашей интеграции.

При этом, конечно, можно попросить поискать только в базе знаний, задать по ней любой вопрос, выгрузить оттуда код и поработать с ним и прочее и прочее и прочее, любые действия с этим контекстом.

По сути это верифицированные MCP внутри чат-бота. Сейчас в партнерах уже Atlassian, GitLab, Asana, PayPal, CloudFlare и еще с десяток сервисов. Их можно подсоединить в пару кликов. Если нужного вам сервиса среди них нет, то можно и свой добавить, но потребуется чуть больше времени и сил.

www.anthropic.com/news/integrations
🔥117👍3618🤯5🤔1