Ого: Илон Маск анонсировал Grok-3.5 на следующей неделе
Это будет ранняя бета-версия. Маск обещает, что модель будет рассуждать from first principles, и сможет давать ответы, которых просто нет в Интернете.
Это будет ранняя бета-версия. Маск обещает, что модель будет рассуждать from first principles, и сможет давать ответы, которых просто нет в Интернете.
"Это первый ИИ, который может, например, точно отвечать на вопросы о ракетных двигателях или по электрохимии."
🤯151👍65❤22🔥13✍10😁10🗿6🐳3
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI анонсировали в ChatGPT рекламу встроенный шоппинг 🤑
Это буквально улучшенный браузинг для покупок. Пишешь, что хочешь купить -> агент ищет, сравнивает цены, характеристики, продавцов и рекомендует товары с прямыми ссылками на покупку.
На самом деле, удобно. К тому же пока говорят, что весь поиск товаров будет выполняться независимо, а результаты не являются рекламой. Но все мы знаем, к чему это ведет. Не зря же раскатывают и на Pro, и на Plus, и на Free.
Это буквально улучшенный браузинг для покупок. Пишешь, что хочешь купить -> агент ищет, сравнивает цены, характеристики, продавцов и рекомендует товары с прямыми ссылками на покупку.
На самом деле, удобно. К тому же пока говорят, что весь поиск товаров будет выполняться независимо, а результаты не являются рекламой. Но все мы знаем, к чему это ведет. Не зря же раскатывают и на Pro, и на Plus, и на Free.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥130👍30🤨24❤16💯3🤯1👌1
Data Secrets
В Notebook LM от Google теперь можно строить вот такие интерактивные майнд-мапы Напоминаем, что Notebook LM – это очень крутой инструмент для изучения статей, любых других pdf-ок, сайтов или роликов YouTube. Он может взглянуть на источник и: ответить на вопросы…
В NotebookLM теперь можно генерировать подкасты из статей на русском языке 🍯
Помните этот легендарный сервис от Google, в котором можно анализировать любые PDF/сайты/видео/ссылки, генерировать по ним конспекты, майндмапы и подкасты?
Так вот: раньше подкасты были доступны только на английском, но с сегодняшнего дня раскатили еще 50 языков. Среди них – русский.
Заходим -> кидаем источник -> тыкаем "Audio Overview" -> получаем подкаст с двумя ведущими по теме в формате вопрос-ответ.
Помните этот легендарный сервис от Google, в котором можно анализировать любые PDF/сайты/видео/ссылки, генерировать по ним конспекты, майндмапы и подкасты?
Так вот: раньше подкасты были доступны только на английском, но с сегодняшнего дня раскатили еще 50 языков. Среди них – русский.
Заходим -> кидаем источник -> тыкаем "Audio Overview" -> получаем подкаст с двумя ведущими по теме в формате вопрос-ответ.
👍126🔥78⚡21❤6🤯4
Мира Мурати получит 2 миллиарда долларов от крупнейшнего венчурного фонда a16z
Оценка при этом составит 10 миллиардов. Но самое занятное в этой сделке – ее условия, на которые чудом согласились инвесторы.
Дело в том, что Мира сохраняет за собой математическое абсолютное превосходство над советом директоров. Ее голос в совете равен (кол-во членов совета + 1), то есть он будет решающим в любом голосовании, даже если все остальные проголосуют иначе.
Кроме того, все учредители-основатели владеют акциями, повышающими их обычное количество голосов в 100 раз, а Мира может пользоваться этими голосами по доверенности. А значит, ей хватает прав в одиночку уволить или назначить кого угодно в совет.
А что, так можно было?🔵
Оценка при этом составит 10 миллиардов. Но самое занятное в этой сделке – ее условия, на которые чудом согласились инвесторы.
Дело в том, что Мира сохраняет за собой математическое абсолютное превосходство над советом директоров. Ее голос в совете равен (кол-во членов совета + 1), то есть он будет решающим в любом голосовании, даже если все остальные проголосуют иначе.
Кроме того, все учредители-основатели владеют акциями, повышающими их обычное количество голосов в 100 раз, а Мира может пользоваться этими голосами по доверенности. А значит, ей хватает прав в одиночку уволить или назначить кого угодно в совет.
А что, так можно было?
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥118😁80🤯21👍7❤4❤🔥2☃2🤔2
Кстати, с сегодняшнего дня GPT-4 – все
Модель отключили, и теперь она недоступна ни в чате, ни в API
🫡
Модель отключили, и теперь она недоступна ни в чате, ни в API
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡325❤23🤯14🔥6👍5😁3❤🔥2🕊1
Вышли веса новой модели от DeepSeek: DeepSeek Prover V2
В модели, приготовьтесь, 671 миллиард параметров. Вероятно, модель будет заточена под сложную математику. Первая версия прувера вышла год назад (вот статья) и предназначалась для доказательства теорем.
Интересно, что при этом новая версия базовой модели для прувера (DeepSeek Math) не входила. Возможно, их объединили?
В любом случае, пока есть только веса. Будем ждать статью и официальный релиз
В модели, приготовьтесь, 671 миллиард параметров. Вероятно, модель будет заточена под сложную математику. Первая версия прувера вышла год назад (вот статья) и предназначалась для доказательства теорем.
Интересно, что при этом новая версия базовой модели для прувера (DeepSeek Math) не входила. Возможно, их объединили?
В любом случае, пока есть только веса. Будем ждать статью и официальный релиз
❤77👍32⚡11🏆2🐳1💘1
Лучшее GPU-облако в России? По мнению CNews — это MWS
Сервис от MTS Web Services занял 1-е место в рейтинге GPU-облаков 2025.
Что дало преимущество:
➖ Поддержка платформы виртуализации GPU (вкл. MWS VMcloud Platform, KVM)
➖ MWS GPT и MLOps-инструменты под задачи ИИ
➖ 15 конфигураций: от T4 до A100, с CPU Intel Xeon Gold
➖ Kubernetes, VDI, DRaaS, ML-библиотеки
➖ ЦОДы уровня Tier III и высокая отказоустойчивость
В целом, это облако, которое закроет задачи от теста модели до продакшена.
Сервис от MTS Web Services занял 1-е место в рейтинге GPU-облаков 2025.
Что дало преимущество:
В целом, это облако, которое закроет задачи от теста модели до продакшена.
Please open Telegram to view this post
VIEW IN TELEGRAM
😁61👍10👻4❤3🔥3🤯3🗿1
Xiaomi опенсорснули свою ризонинг модель
Она называется MiMo-7B и результаты для своего веса у нее довольно неплохие: 93.6% на MATH-500, 55.4% на AIME 2025 и 49.1% на LCB.
Это примерно уровень o1-mini. Есть, как у DeepSeek, вариант Zero (то есть RL с холодным стартом), SFT+RL и даже base+SFT.
Веса
Она называется MiMo-7B и результаты для своего веса у нее довольно неплохие: 93.6% на MATH-500, 55.4% на AIME 2025 и 49.1% на LCB.
Это примерно уровень o1-mini. Есть, как у DeepSeek, вариант Zero (то есть RL с холодным стартом), SFT+RL и даже base+SFT.
Веса
❤69🔥27👍17🤨9👀5😁4
Data Secrets
Вышли веса новой модели от DeepSeek: DeepSeek Prover V2 В модели, приготовьтесь, 671 миллиард параметров. Вероятно, модель будет заточена под сложную математику. Первая версия прувера вышла год назад (вот статья) и предназначалась для доказательства теорем.…
1 мая – день труда. Вот и мы с утра потрудились и сделали для вас технический разбор статьи про новенькую DeepSeek-Prover-V2
Это ризонинг-модель на 671B для доказательства теорем в среде Lean. Lean – это такая классическая программа от Microsoft Research для формальной верификации доказательств. Там свой язык программирования, и среда умеет проверять корректность отдельных утверждений и обоснованность доказательства в целом.
Первое, чем цепляет работа – пайплайн сбора данных. Для него используется связка из двух полноценных моделей: DeepSeek-V3 и DeepSeek-Prover-V2-7B. Вот как это работает:
Таким образом мы одним пайплайном учим DeepSeek-Prover-V2-7B non-CoT на собственных дистиллированных трасировках + собираем большой чистый датасет с CoT доказательствами (CoT — потому что у нас есть все шаги, а не просто ответ) + бонусом имеем non-CoT датасет со всеми верифицированными Lean-скриптами от 7B модельки.
Как только дата собрана – переходим к обучению главного босса на 671B. Это уже моделька end-to-end, без мультиагентности. Что тут происходит:
Параллельно, кстати, точно так же (SFT+RL) дообучали и малышку 7B. Вот такой нагруженный трейнинг.
Результаты, естественно, стоящие. На miniF2F от OpenAI модель решает почти 90% задач. Предыдущие самые продвинутые конкуренты выбивали 80, а DeepSeek-Prover-V1.5 – 63. Прирост так прирост. А на PutnamBench результат – 49 решенных задач. Для понимания, o3-mini на этом тесте выбивает 0, а о4-mini-high – 2.
Статья
Это ризонинг-модель на 671B для доказательства теорем в среде Lean. Lean – это такая классическая программа от Microsoft Research для формальной верификации доказательств. Там свой язык программирования, и среда умеет проверять корректность отдельных утверждений и обоснованность доказательства в целом.
Первое, чем цепляет работа – пайплайн сбора данных. Для него используется связка из двух полноценных моделей: DeepSeek-V3 и DeepSeek-Prover-V2-7B. Вот как это работает:
1. DeepSeek-V3 генерирует скетч доказательства в виде рекурсивной серии утверждений вида "если у нас будет доказанная лемма A, то мы сможем доказать B". Так у нас появляется план действий и список лемм, которые надо доказать для решения.
2. Подключается моделька DeepSeek-Prover-V2-7B (еще без всякого ризонинга, в non-CoT). В качестве базы для нее брали DeepSeek-Prover-V1.5-Base-7B и дообучали прямо в процессе сбора данных. Цель модели – доказать все мелкие леммы из пункта 1.
3. Все сгенерированные скрипты прогоняются через Lean. Верифицированные остаются в датасете, не верифицированные остаются на следующий прогон как нерешенные.
Таким образом мы одним пайплайном учим DeepSeek-Prover-V2-7B non-CoT на собственных дистиллированных трасировках + собираем большой чистый датасет с CoT доказательствами (CoT — потому что у нас есть все шаги, а не просто ответ) + бонусом имеем non-CoT датасет со всеми верифицированными Lean-скриптами от 7B модельки.
Как только дата собрана – переходим к обучению главного босса на 671B. Это уже моделька end-to-end, без мультиагентности. Что тут происходит:
1. Мы смешиваем CoT и non-CoT данные так, чтобы в каждом батче был баланс между быстрыми решениями и развернутыми.
2. Берем уже предобученную на куче математических текстов 671B-модель и для начала просто файнтюним на смешанном корпусе. Получается такой Cold-start RL.
3. Ну и, конечно, полноценный RL с фирменным дипсиковским GRPO
(разбор метода).
Награда бинарная, 1 за верифицированное доказательство, 0 иначе. Еще введен consistency reward, штрафующий несовпадение структуры итогового доказательства с изначальным CoT-скетчем.
Параллельно, кстати, точно так же (SFT+RL) дообучали и малышку 7B. Вот такой нагруженный трейнинг.
Результаты, естественно, стоящие. На miniF2F от OpenAI модель решает почти 90% задач. Предыдущие самые продвинутые конкуренты выбивали 80, а DeepSeek-Prover-V1.5 – 63. Прирост так прирост. А на PutnamBench результат – 49 решенных задач. Для понимания, o3-mini на этом тесте выбивает 0, а о4-mini-high – 2.
Статья
❤78🔥39👍24💘5
Microsoft выпустили reasoning версии моделей линейки Phi-4
Пост-разбор самой линейки, которая вышла в феврале, можно посмотреть тут. Сегодня она пополнилась моделями Phi-4-reasoning, Phi-4 reasoning-plus и Phi-4-mini-reasoning. В первых двух 14В, в последней – всего 3.8B, можно запускать дома.
Самая мощная Phi-4 reasoning-plus во многих тестах лучше R1 (в R1 в десятки раз больше параметров), и намного лучше o1-mini в математике. То есть в целом на уровне с передовыми ризонерами, но открыто и легковесно.
Немного отстает только на кодинге, но авторы сами говорят, что в датасете задач по программированию было мало. В то же время приросты относительно обычной Phi-4 говорят сами за себя, бусты достигают х10. Маленькая модель в своем размере тоже тащит.
Как обучали:
➖ Phi-4-reasoning: это только SFT на задачах с CoT от o3-mini. Интересно, что даже эта версия, хоть училась только на CoT o3-mini, иногда обходит своего учителя (пример - бенч OmniMath).
➖ Phi-4 reasoning-plus: тут добавляется еще и RL, правда совсем не масштабный, всего 6 тысяч задач. Больше не брали, потому что модель начинала выходить за контекст. При этом даже такой компактный RL показал крутые результаты, сами сравните на бенчмарках с Phi-4-reasoning.
➖ Phi-4-mini-reasoning: здесь все немного иначе. CoT брали из R1 + датасетов. Обучали в четыре этапа: дистилляция (тут не из конкретной модели, а просто по собранному датасету и только на next-token), SFT, DPO и RL. Про эту модель вышла отдельная статья (там очень подробный рецепт того, как добавить в маленькую модель качественный ризонинг, так что сохраняем).
Веса | Тех.репорт
Пост-разбор самой линейки, которая вышла в феврале, можно посмотреть тут. Сегодня она пополнилась моделями Phi-4-reasoning, Phi-4 reasoning-plus и Phi-4-mini-reasoning. В первых двух 14В, в последней – всего 3.8B, можно запускать дома.
Самая мощная Phi-4 reasoning-plus во многих тестах лучше R1 (в R1 в десятки раз больше параметров), и намного лучше o1-mini в математике. То есть в целом на уровне с передовыми ризонерами, но открыто и легковесно.
Немного отстает только на кодинге, но авторы сами говорят, что в датасете задач по программированию было мало. В то же время приросты относительно обычной Phi-4 говорят сами за себя, бусты достигают х10. Маленькая модель в своем размере тоже тащит.
Как обучали:
Веса | Тех.репорт
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥50👍18❤13😁3🤯2
О, Cursor поделились статистикой самых популярных среди разработчиков моделей
Топ-5 самых популярных:
1. Claude 3.7 Sonnet
2. Gemini 2.5 Pro
3. Claude 3.5 Sonnet
4. GPT-4.1
5. GPT-4o
Топ-5 быстрее всего набирающих популярность:
1. o3
2. o4-mini
3. DeepSeek 3.1 (видимо после выхода свежего чекпоинта)
4. GPT-4.1
5. Grok 3
Кстати, на днях основатель Cursor также поделился тем, что сейчас их агент генерирует порядка миллиарда строк кода в день (и это только те, которым пользователь поставил апрув). Это при том, что во всем мире ежедневно пишется всего несколько миллиардов строчек😱
Топ-5 самых популярных:
1. Claude 3.7 Sonnet
2. Gemini 2.5 Pro
3. Claude 3.5 Sonnet
4. GPT-4.1
5. GPT-4o
Топ-5 быстрее всего набирающих популярность:
1. o3
2. o4-mini
3. DeepSeek 3.1 (видимо после выхода свежего чекпоинта)
4. GPT-4.1
5. Grok 3
Кстати, на днях основатель Cursor также поделился тем, что сейчас их агент генерирует порядка миллиарда строк кода в день (и это только те, которым пользователь поставил апрув). Это при том, что во всем мире ежедневно пишется всего несколько миллиардов строчек
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥115👍41❤15🤯2
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic анонсировали Интеграции: теперь к Claude можно присоединить любой источник ваших данных
Это работает так: вы присоединяете какое-то свое приложение (ну, например, базу знаний Confluence), и с этого момента во время поиска бот будет искать не только в Интернете, но и по вашей интеграции.
При этом, конечно, можно попросить поискать только в базе знаний, задать по ней любой вопрос, выгрузить оттуда код и поработать с ним и прочее и прочее и прочее, любые действия с этим контекстом.
По сути это верифицированные MCP внутри чат-бота. Сейчас в партнерах уже Atlassian, GitLab, Asana, PayPal, CloudFlare и еще с десяток сервисов. Их можно подсоединить в пару кликов. Если нужного вам сервиса среди них нет, то можно и свой добавить, но потребуется чуть больше времени и сил.
www.anthropic.com/news/integrations
Это работает так: вы присоединяете какое-то свое приложение (ну, например, базу знаний Confluence), и с этого момента во время поиска бот будет искать не только в Интернете, но и по вашей интеграции.
При этом, конечно, можно попросить поискать только в базе знаний, задать по ней любой вопрос, выгрузить оттуда код и поработать с ним и прочее и прочее и прочее, любые действия с этим контекстом.
По сути это верифицированные MCP внутри чат-бота. Сейчас в партнерах уже Atlassian, GitLab, Asana, PayPal, CloudFlare и еще с десяток сервисов. Их можно подсоединить в пару кликов. Если нужного вам сервиса среди них нет, то можно и свой добавить, но потребуется чуть больше времени и сил.
www.anthropic.com/news/integrations
🔥117👍36❤18🤯5🤔1
Chatbot Arena больше не работает? Вышло исследование "The Leaderboard Illusion", в котором ученые доказали предвзятость всеми любимого рейтинга
Среди авторов – ученые из Cohere, Стэнфорда, Принстона, Ватерлоо, MIT и других вузов с именем. Вот что им удалось выяснить:
➖ Во-первых, у крупных провайдеров появляется нечестное преимущество за счет количества "попыток". На арене есть такая штука, как приватное тестирование. В ходе него можно "анонимно" запустить N версий своей модели (разные гиперпараметры, системные промпты, чекпоинты). При этом результаты этих N версий не появляются на лидерборде: туда отгружается только результат лучшей из них.
На первый взгляд все честно. Но на самом деле тут есть статистическая ошибка. Если из N моделей мы выбираем ту, у которой максимальный Arena Score и публикуем его, то он получается завышенным.
Дело в том, что при "истинном" умении X результаты модели колеблются на X+-Δ. Если мы тестируем одну модель (как это обычно делают мелкие провайдеры), то результат получается средним и отражает истинный X. Но в случае выбора из N моделей мы автоматически выбираем ту, которая больше раз случайно "стрельнула" в сторону завышения способностей, а значит отражаем результат выше, чем X (картинка 2).
В статье ученые даже показали это на реальном эксперименте (картинка 3). Взяли модель и дважды отправили ее на арену по разным путям тестирования. Разница получилась в 17 очков, а это довольно серьезно. При этом чем больше N, тем больше будет этот несправедливый разрыв. А у кого есть ресурсы на кучу тестов? Правильно, только у больших игроков.
➖ Во-вторых, большие игроки получают преимущество за счет ассиметрии количества баттлов (картинка 4). Посмотрите: проприетарные модели получают 54–70% всех диалогов, а значит им и данных достается гораздо больше. А значит, разработчики могут лучше файн-тюниться под арену. И дальше все превращается в снежный ком.
При этом в статье показано, что это переобучение в чистом виде. То есть чем больше мы файнтюним модель под арену, тем она хуже показывает себя на реальных бенчмарках (в статье брали MMLU).
И это уже не говоря о том, что на арене вендоры могут по-тихому удалять свои модели, что тоже портит статистику и влияет на рейтинги.
Значит ли все это, что арена совершенно бесполезная и непрезентативная? Нет, просто нужно переосмыслять концепцию и вводить больше правил и ограничений. В статье, кстати, даже предложили парочку.
Почитать работу полностью можно здесь (а вот тут, кстати, сами разрабы арены написали на нее свою рецензию-ревью)
Среди авторов – ученые из Cohere, Стэнфорда, Принстона, Ватерлоо, MIT и других вузов с именем. Вот что им удалось выяснить:
На первый взгляд все честно. Но на самом деле тут есть статистическая ошибка. Если из N моделей мы выбираем ту, у которой максимальный Arena Score и публикуем его, то он получается завышенным.
Дело в том, что при "истинном" умении X результаты модели колеблются на X+-Δ. Если мы тестируем одну модель (как это обычно делают мелкие провайдеры), то результат получается средним и отражает истинный X. Но в случае выбора из N моделей мы автоматически выбираем ту, которая больше раз случайно "стрельнула" в сторону завышения способностей, а значит отражаем результат выше, чем X (картинка 2).
В статье ученые даже показали это на реальном эксперименте (картинка 3). Взяли модель и дважды отправили ее на арену по разным путям тестирования. Разница получилась в 17 очков, а это довольно серьезно. При этом чем больше N, тем больше будет этот несправедливый разрыв. А у кого есть ресурсы на кучу тестов? Правильно, только у больших игроков.
При этом в статье показано, что это переобучение в чистом виде. То есть чем больше мы файнтюним модель под арену, тем она хуже показывает себя на реальных бенчмарках (в статье брали MMLU).
И это уже не говоря о том, что на арене вендоры могут по-тихому удалять свои модели, что тоже портит статистику и влияет на рейтинги.
Значит ли все это, что арена совершенно бесполезная и непрезентативная? Нет, просто нужно переосмыслять концепцию и вводить больше правил и ограничений. В статье, кстати, даже предложили парочку.
Почитать работу полностью можно здесь (а вот тут, кстати, сами разрабы арены написали на нее свою рецензию-ревью)
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤87👍58🤯17🏆7⚡3😁3