Авито переходит от локальных кейсов использования LLM к полноценным агентам
Стало известно, что технологическая платформа начала тестирование двух ИИ-ассистентов: Ави для покупателей и Ави Pro для продавцов.
➖ Ави станет полноценным помощником в выборе товаров. Агент подбирает релевантные предложения по описанию задачи и помогает разобраться в различиях между вариантами. Его специально обучали понимать даже размытые промпты, и, судя по статистике, эффект от внедрения должен быть огромный: 59% пользователей приходят на платформу без четкого запроса, а 43% уже готовы доверить выбор цифровому ассистенту.
➖ Ави Pro для продавцов будет помогать вести бизнес эффективнее. В частности, в нем хорошо прокачали tool use, и агент сможет детально анализировать статистику объявлений с учетом действий покупателей и других игроков, выявлять причины изменений в показателях и подсказывать, как повысить эффективность продаж. Опять же, по стататистике, 24% продавцов уже используют внешние ИИ-сервисы, так что спрос на агента, вероятно, будет немалый.
В Авито, кстати, намекают, что это мультиагентная система. Оба сервиса уже начинают тестировать на ограниченных группах пользователей, а в 2026 на их развитие выделят 1 млрд руб.
Стало известно, что технологическая платформа начала тестирование двух ИИ-ассистентов: Ави для покупателей и Ави Pro для продавцов.
В Авито, кстати, намекают, что это мультиагентная система. Оба сервиса уже начинают тестировать на ограниченных группах пользователей, а в 2026 на их развитие выделят 1 млрд руб.
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿44❤32👍19🔥5😁4🎄3
«В ближайшие 12-18 месяцев ВВП вырастет более, чем на 10 процентов» – заявил Илон Маск.
Также, по его мнению, если прикладной ИИ окажется прокси-метрикой для экономического роста, то примерно за 5 лет возможен уже «triple-digit», то есть рост свыше 100% в год.
В комментариях объявляется конкурс: нужно вспомнить хотя бы одно предсказание/обещание Илона Маска, которое сбылось🤔
Также, по его мнению, если прикладной ИИ окажется прокси-метрикой для экономического роста, то примерно за 5 лет возможен уже «triple-digit», то есть рост свыше 100% в год.
В комментариях объявляется конкурс: нужно вспомнить хотя бы одно предсказание/обещание Илона Маска, которое сбылось
Please open Telegram to view this post
VIEW IN TELEGRAM
😁280❤15👍13🔥7🗿4 3 3🤨2
Андрей Карпаты заявил, что чувствует себя отстающим программистом в мире ИИ
Вот что он написал:
Кажется, на Новый Год Андрей решил подарить нам экзистенциальный кризис и приступ тревожности✌️
Вот что он написал:
Я никогда не чувствовал себя настолько отстающим как программист. Профессия радикально переписывается: вклад человека в код становится все более разреженным и фрагментарным. Возникает ощущение, что я мог бы быть в десять раз эффективнее, если бы действительно научился связывать воедино все то, что появилось за последний ~год, и неспособность открыть для себя этот буст ощущается откровенно как skill issue.
Появился новый программируемый уровень абстракции, который нужно освоить (в дополнение ко всем привычным уровням ниже): агенты и субагенты, их промпты, контексты, память, режимы, права доступа, инструменты, плагины, навыки, хуки, MCP, LSP, слэш-команды, воркфлоу, интеграции с IDE – и необходимость выстроить всеобъемлющую ментальную модель сильных и слабых сторон сущностей, которые по своей природе стохастичны, ошибочны, неинтерпретируемы и постоянно меняются, но при этом внезапно переплетаются с тем, что раньше было просто старым добрым инжинирингом.
Нам всем как будто раздали мощный инопланетный инструмент, но без инструкции. Каждый вынужден сам разбираться, как его держать и как им пользоваться, в то время как профессия переживает землетрясение магнитудой 9. Засучивайте рукава, если не хотите остаться позади.
Кажется, на Новый Год Андрей решил подарить нам экзистенциальный кризис и приступ тревожности
Please open Telegram to view this post
VIEW IN TELEGRAM
5😁318 108💯80❤26👍18🔥7 6🎄4❤🔥3🤯1🤩1
За этот год ИИ в России стал заметно приземлённее
И это, пожалуй, главный сдвиг. Всё меньше разговоров «про потенциал» и всё больше решений, которые встраиваются в уже работающие процессы и дают быстрые результаты.
Вот несколько российских ИИ-стартапов из этой сферы:
CyberPhysics научили ИИ предсказывать поломки оборудования без установки дополнительных датчиков, только по данным, которые уже есть у завода.
Bitrobotics создали CV-роботов, которые помогают автоматизировать рутину на производстве.
«Синтелли» разработали ИИ‑платформу, которая быстро анализирует для химиков и фармацевтов колоссальные объёмы молекул и реакций.
Slider AI запустили ИИ для сбора презентаций из данных пользователя.
HiveTrace придумали, как в режиме реального времени защищать GenAI-приложения от атак и утечек.
Эти кейсы показывают текущее состояние рынка: ИИ становится частью инфраструктуры. Подробный разбор этих проектов и общей логики рынка — в блоге Яндекса.
Кстати, для команд с рабочими прототипами это ещё и сигнал, что вокруг таких решений постепенно формируется поддержка — в том числе через индустриальные программы и акселераторы.
И это, пожалуй, главный сдвиг. Всё меньше разговоров «про потенциал» и всё больше решений, которые встраиваются в уже работающие процессы и дают быстрые результаты.
Вот несколько российских ИИ-стартапов из этой сферы:
CyberPhysics научили ИИ предсказывать поломки оборудования без установки дополнительных датчиков, только по данным, которые уже есть у завода.
Bitrobotics создали CV-роботов, которые помогают автоматизировать рутину на производстве.
«Синтелли» разработали ИИ‑платформу, которая быстро анализирует для химиков и фармацевтов колоссальные объёмы молекул и реакций.
Slider AI запустили ИИ для сбора презентаций из данных пользователя.
HiveTrace придумали, как в режиме реального времени защищать GenAI-приложения от атак и утечек.
Эти кейсы показывают текущее состояние рынка: ИИ становится частью инфраструктуры. Подробный разбор этих проектов и общей логики рынка — в блоге Яндекса.
Кстати, для команд с рабочими прототипами это ещё и сигнал, что вокруг таких решений постепенно формируется поддержка — в том числе через индустриальные программы и акселераторы.
🗿80❤39😁18🔥13👍8🆒2
Data Secrets
Андрей Карпаты заявил, что чувствует себя отстающим программистом в мире ИИ Вот что он написал: Я никогда не чувствовал себя настолько отстающим как программист. Профессия радикально переписывается: вклад человека в код становится все более разреженным…
Ну и добивочка от Андрея под тем же постом: «Если вы не следите за новостями хотя бы 30 дней, ваши взгляды уже устарели»
Это вам на случай, если вы хотели устроить диджитал детокс на январских🙄
P.S. Эти два сообщения пахнут, как еще +20 миллиардов к стоимости Anthropic
Это вам на случай, если вы хотели устроить диджитал детокс на январских
P.S. Эти два сообщения пахнут, как еще +20 миллиардов к стоимости Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
😁226❤37🔥26👍9🤯4🗿4🐳2🤝1
Meta* под конец года выпустили прекрасную статью, в которой предложили новый способ обучения агентов
Современный ИИ все еще напрямую зависит от человеческой разметки и человеческих данных в целом. И с этим куча проблем: дорого, долго, "данные кончаются" и тд.
В Meta к тому же уверены, что это в принципе жеский потолок на пути к AGI: если учить агентов только на человеческом следе, то обучение сводится к шлифовке человеческого опыта. Тогда можно ли быть на 100% уверенным, что такие системы могут научиться чему-то вне распределения и стать умнее нас? Особенно это относится к таким областям, как кодинг, о котором дальше и пойдет речь.
Исследователи предложили Self-Play SWE-RL – способ обучать агентов так, чтобы они самосовершенствовались на своих же данных.
Состоит Self-Play SWE-RL из двух сущностей: Bug-injector и Bug-solver. На вход системе поступает какой-то репозиторий с кодом, Bug-injector изучает его, ломает код и ослабляет тесты так, чтобы баг спрятался.
Задача Bug-solver очевидна: починить код, и при этом без issue-текста, без подсказок, без готовых тест-раннеров. И если в процессе он сам что-то поломал, этот кейс тоже становится частью датасета и расширяет выборку.
Нужно понимать, что это не просто синтетические баги. Тут ломает и чинит код одна и та же политика (то есть это просто разные роли одного агента). В этом смысле подход чем-то напоминает GAN: солвер учится за счет того, что инджектор становится умнее, и наоборот.
Результаты следующие:
– Code World Model (CWM) на 32B, которая уже прошла этап sft и которую обучали таким образом, вышла на +10.4% на SWE-bench Verified и на +7.8% на SWE-bench Pro
– Если сравнивать с обычным RL, то такой подход дает +2.4% на SWE-bench Verified и на +3.6% на SWE-bench Pro
Не прорыв, конечно, но редко какой пайплайн сегодня дает такие ощутимые приросты, так что довольно интересно (но код, к сожалению, не дали).
https://arxiv.org/pdf/2512.18552
Современный ИИ все еще напрямую зависит от человеческой разметки и человеческих данных в целом. И с этим куча проблем: дорого, долго, "данные кончаются" и тд.
В Meta к тому же уверены, что это в принципе жеский потолок на пути к AGI: если учить агентов только на человеческом следе, то обучение сводится к шлифовке человеческого опыта. Тогда можно ли быть на 100% уверенным, что такие системы могут научиться чему-то вне распределения и стать умнее нас? Особенно это относится к таким областям, как кодинг, о котором дальше и пойдет речь.
Исследователи предложили Self-Play SWE-RL – способ обучать агентов так, чтобы они самосовершенствовались на своих же данных.
Состоит Self-Play SWE-RL из двух сущностей: Bug-injector и Bug-solver. На вход системе поступает какой-то репозиторий с кодом, Bug-injector изучает его, ломает код и ослабляет тесты так, чтобы баг спрятался.
Задача Bug-solver очевидна: починить код, и при этом без issue-текста, без подсказок, без готовых тест-раннеров. И если в процессе он сам что-то поломал, этот кейс тоже становится частью датасета и расширяет выборку.
Нужно понимать, что это не просто синтетические баги. Тут ломает и чинит код одна и та же политика (то есть это просто разные роли одного агента). В этом смысле подход чем-то напоминает GAN: солвер учится за счет того, что инджектор становится умнее, и наоборот.
Результаты следующие:
– Code World Model (CWM) на 32B, которая уже прошла этап sft и которую обучали таким образом, вышла на +10.4% на SWE-bench Verified и на +7.8% на SWE-bench Pro
– Если сравнивать с обычным RL, то такой подход дает +2.4% на SWE-bench Verified и на +3.6% на SWE-bench Pro
Не прорыв, конечно, но редко какой пайплайн сегодня дает такие ощутимые приросты, так что довольно интересно (но код, к сожалению, не дали).
https://arxiv.org/pdf/2512.18552
1❤108👍39🔥13😁7 4⚡2❤🔥2👌1🗿1
OpenAI нанимает Head of Preparedness – человека, который будет готовиться к рискам ИИ
Это абсолютно новая для стартапа роль, и это будет позиция не про элаймент, а про моделирование мира после релиза моделей.
То есть Head of Preparedness будет отвечать на вопросы про будущее: что плохого может произойти после релиза модели, чего не отловишь в экспериментах, в каких неочевидных областях она может быть опасна, какие есть долгоиграющие угрозы, ну и тд.
Альтман пишет, что в 2025 году они увидели первый тревожный сигнал – влияние моделей на психическое здоровье людей (помните эти истории про самоубийства из-за ChatGPT?). Плюс модели достигли довольно серьезного уровня к кодинге, а значит представляют потенциальную опасность в сфере кибератак.
Собственно, это все и стало поводом к найму такого человека. (Хочется верить, что нанимают реально для дела, а не маркетинга ради).
Платить обещают $555k с учетом бонусов. Не Цукерберговские цифры, конечно, но на жизнь вроде хватит😐
openai.com/careers/head-of-preparedness-san-francisco/
Это абсолютно новая для стартапа роль, и это будет позиция не про элаймент, а про моделирование мира после релиза моделей.
То есть Head of Preparedness будет отвечать на вопросы про будущее: что плохого может произойти после релиза модели, чего не отловишь в экспериментах, в каких неочевидных областях она может быть опасна, какие есть долгоиграющие угрозы, ну и тд.
Альтман пишет, что в 2025 году они увидели первый тревожный сигнал – влияние моделей на психическое здоровье людей (помните эти истории про самоубийства из-за ChatGPT?). Плюс модели достигли довольно серьезного уровня к кодинге, а значит представляют потенциальную опасность в сфере кибератак.
Собственно, это все и стало поводом к найму такого человека. (Хочется верить, что нанимают реально для дела, а не маркетинга ради).
Платить обещают $555k с учетом бонусов. Не Цукерберговские цифры, конечно, но на жизнь вроде хватит
openai.com/careers/head-of-preparedness-san-francisco/
Please open Telegram to view this post
VIEW IN TELEGRAM
😁78👍18🔥8❤6🤨3 3
Разработчик Claude Code признался, что последние 30 дней 100% его контрибьютов в Claude Code были написаны самим Claude Code
И это, причем, не просто какой-то разработчик, а Борис Черный. Он считается «основателем» Claude Code (на самом деле в 2024 это был его сторонний проект, а во что он вырос – видите сами).
Невольно вспомнился этот мем⬆️ ⬆️
И это, причем, не просто какой-то разработчик, а Борис Черный. Он считается «основателем» Claude Code (на самом деле в 2024 это был его сторонний проект, а во что он вырос – видите сами).
За последние тридцать дней я успешно залил 259 PR - - 497 коммитов, 40 тысяч строк добавлено, 38 тысяч строк удалено. Каждая строка была написана Claude Code + Opus 4.5.
Claude стабильно работает минуты, часы и даже дни подряд (с использованием Stop hooks). Разработка ПО меняется, и мы вступаем в новую эру в истории программирования. И это все еще только начало.
Невольно вспомнился этот мем
Please open Telegram to view this post
VIEW IN TELEGRAM
4❤176😁83 34🔥14👍6 3🕊2🗿2🤨1
Data Secrets
Разработчик Claude Code признался, что последние 30 дней 100% его контрибьютов в Claude Code были написаны самим Claude Code И это, причем, не просто какой-то разработчик, а Борис Черный. Он считается «основателем» Claude Code (на самом деле в 2024 это был…
Джунам посвящается
😁405🤓42🔥18🫡6🤝3❤1👍1💯1
Nvidia официально отказалась от идеи построить облачный сервис
DGX Cloud, фактически, перестал существовать. Как структура, он остается, но теперь будет обслуживать исключительно внутренний спрос Nvidia. Команда же переместилась в основном в R&D блок.
Будем честны: вряд ли кто-то сильно опечален. Спрос на DGX Cloud был мизерный: собственно, поэтому его и закрывают.
С другой стороны, Хуанг таким образом публично отказался от конкуренции с AWS. Ранее AWS наотрез отказалась участвовать в программе DGX Cloud и Хуанг, видимо, передумал раздражать своих крупнейших клиентов.
DGX Cloud, фактически, перестал существовать. Как структура, он остается, но теперь будет обслуживать исключительно внутренний спрос Nvidia. Команда же переместилась в основном в R&D блок.
Будем честны: вряд ли кто-то сильно опечален. Спрос на DGX Cloud был мизерный: собственно, поэтому его и закрывают.
С другой стороны, Хуанг таким образом публично отказался от конкуренции с AWS. Ранее AWS наотрез отказалась участвовать в программе DGX Cloud и Хуанг, видимо, передумал раздражать своих крупнейших клиентов.
👍51🤯14❤13🤔6😁2👾2
Теперь вы знаете, кого винить, если ИИ захватит мир
P.S. GPU действительно исторически появились для Quake и Half-Life 2. А, например, Демис Хассабис, глава ИИ в Google, начинал свою карьеру как геймдейвер. Вклад геймеров недооценен!⌨️
P.S. GPU действительно исторически появились для Quake и Half-Life 2. А, например, Демис Хассабис, глава ИИ в Google, начинал свою карьеру как геймдейвер. Вклад геймеров недооценен!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤196 62😁45🔥14💯11🆒3😎1
Вау: Meta купила китайский стартап Manus
Это разработчики того самого агента Manus, который хайпанул в марте этого года. К слову, он до сих пор выбивает соту на нескольких бенчмарках, и пользователей у них куча.
Вообще, компания базировалась в Китае, но после покупки связи со страной будут разорваны (в том числе с крупными инвесторами типа Tencent и Hongshan), и Manus продолжит независимо работать из Сингапура.
Сумму сделки не раскрывают, но аналитики оценивают ее примерно в два миллиарда долларов. И это еще не сильно дорого для стартапа, который всего за 8 месяцев достиг ARR в 100–125 млн долларов.
Самого агента Manus планируется интегрировать в продукты Meta. В целом, для Meta это логичная покупка: у них у единственных до сих пор нет своего ИИ-продукта, и это сильно отодвигает назад. Может, теперь мы наконец увидим крутого агента уже под флагом Цукерберга?
Это разработчики того самого агента Manus, который хайпанул в марте этого года. К слову, он до сих пор выбивает соту на нескольких бенчмарках, и пользователей у них куча.
Вообще, компания базировалась в Китае, но после покупки связи со страной будут разорваны (в том числе с крупными инвесторами типа Tencent и Hongshan), и Manus продолжит независимо работать из Сингапура.
Сумму сделки не раскрывают, но аналитики оценивают ее примерно в два миллиарда долларов. И это еще не сильно дорого для стартапа, который всего за 8 месяцев достиг ARR в 100–125 млн долларов.
Самого агента Manus планируется интегрировать в продукты Meta. В целом, для Meta это логичная покупка: у них у единственных до сих пор нет своего ИИ-продукта, и это сильно отодвигает назад. Может, теперь мы наконец увидим крутого агента уже под флагом Цукерберга?
❤76🔥32🤔23👍12 9 8😁5🤯3
Еще одно новогоднее ✨обещание✨ от Илона Маска: миллиардер заявил, что xAI в течение 5 лет будет иметь больше вычислительных мощностей, чем все остальные компании вместе взятые
Напоминаем, что сейчас в Мемфисе строится Colossus 2. Мощность датацентра уже превышает 400 МВт, а цель составляет 2 ГВт. Это будет первый в мире гигаватный дата-центр + прямо сейчас xAI привлекает $20 млрд на дополнительные GPU.
Верим?
Напоминаем, что сейчас в Мемфисе строится Colossus 2. Мощность датацентра уже превышает 400 МВт, а цель составляет 2 ГВт. Это будет первый в мире гигаватный дата-центр + прямо сейчас xAI привлекает $20 млрд на дополнительные GPU.
Верим?
🤯137😎40😁28 23❤21 19🗿8👍6🦄4🔥3🎄2
Yandex Cloud и Forbes запустили свою версию игры «Герои меча и магии» специально для CDO и дата-аналитиков
Можно сыграть за одного из персонажей и помочь решить его продуктовую задачу. Мы попробовали поиграть за Селину Маркетар: с ней надо найти лучшую локацию для размещения магазина. Для этого нужно передвигаться по карте и собирать нужные артефакты типа PostgreSQL, ClickHouse, DataLens и тд (у каждого героя набор свой).
Чтобы победить врага – в нашем случае Фантома Мертвой Локации – нужно собрать все артефакты. Их можно покупать за деньги данные, крафтить самостоятельно в кибер-кузнице или получать у хранителей, отвечая на вопросы по Data Science.
Внутри игры куча милых пасхалок на «Героев меча и магии», даже появляется ностальгия. В общем, тем, кто любит data-driven или играл в детстве в Героев, зайдет 100%.
Играть можно на десктопе и с телефона. В праздники – просто идеально, чтобы развлечься, вспомнить детство и заодно немного прокачать свои знания о работе с данными.
Играть тут
Можно сыграть за одного из персонажей и помочь решить его продуктовую задачу. Мы попробовали поиграть за Селину Маркетар: с ней надо найти лучшую локацию для размещения магазина. Для этого нужно передвигаться по карте и собирать нужные артефакты типа PostgreSQL, ClickHouse, DataLens и тд (у каждого героя набор свой).
Чтобы победить врага – в нашем случае Фантома Мертвой Локации – нужно собрать все артефакты. Их можно покупать за деньги данные, крафтить самостоятельно в кибер-кузнице или получать у хранителей, отвечая на вопросы по Data Science.
Внутри игры куча милых пасхалок на «Героев меча и магии», даже появляется ностальгия. В общем, тем, кто любит data-driven или играл в детстве в Героев, зайдет 100%.
Играть можно на десктопе и с телефона. В праздники – просто идеально, чтобы развлечься, вспомнить детство и заодно немного прокачать свои знания о работе с данными.
Играть тут
1🗿117🤨30❤22🔥11😁8 8✍2👍2🤗2🤯1👾1
Не очень радостную новость вам принесли под Новый Год, но что делать: реклама в ChatGPT точно будет, и довольно скоро
Об этом сообщает The Information, а в том, что касается инсайтов, они обычно не ошибаются.
Ранее, если помните, запуск рекламы отложился из-за «красного кода», который объявили в стартапе из-за накаленной ситуации с Google. Теперь же приоритет запуска рекламы в ChatGPT снова высокий.
Оказывается, уже готовы макеты для различных рекламных форматов. А это значит, что тестирование и, далее, запуск – уже близко.
Грустно, конечно, но, как ни крути, это всегда было вопросом времени. Реклама в ChatGPT – буквально золотая жила, и OpenAI точно не будет от нее отказываться, тем более при их уровне расходов.
Сейчас у чатбота уже 900 миллионов юзеров, к 2030 (по некоторым прикидкам) будет около 2.6 миллиардов. И о каждом пользователе будет известно: что он любит, чем пользуется, о чем говорит с ИИ. Чем вам не крупнейшая в истории рекламная империя, м?
Из хороших новостей: пока запускать рекламу планируют только на бесплатный тариф. Может кого-нибудь это утешит😐
Об этом сообщает The Information, а в том, что касается инсайтов, они обычно не ошибаются.
Ранее, если помните, запуск рекламы отложился из-за «красного кода», который объявили в стартапе из-за накаленной ситуации с Google. Теперь же приоритет запуска рекламы в ChatGPT снова высокий.
Оказывается, уже готовы макеты для различных рекламных форматов. А это значит, что тестирование и, далее, запуск – уже близко.
Грустно, конечно, но, как ни крути, это всегда было вопросом времени. Реклама в ChatGPT – буквально золотая жила, и OpenAI точно не будет от нее отказываться, тем более при их уровне расходов.
Сейчас у чатбота уже 900 миллионов юзеров, к 2030 (по некоторым прикидкам) будет около 2.6 миллиардов. И о каждом пользователе будет известно: что он любит, чем пользуется, о чем говорит с ИИ. Чем вам не крупнейшая в истории рекламная империя, м?
Из хороших новостей: пока запускать рекламу планируют только на бесплатный тариф. Может кого-нибудь это утешит
Please open Telegram to view this post
VIEW IN TELEGRAM
Всем новогоднего настроения за наш счет!
31 декабря – самое время подводить итоги года. И специально для вас мы подготовили ИИ-бинго🎅
Пока на столе еще не стоит оливье – заполняйте его и делитесь результатами в комментариях.
Есть те, кто выбил 16/16?
31 декабря – самое время подводить итоги года. И специально для вас мы подготовили ИИ-бинго
Пока на столе еще не стоит оливье – заполняйте его и делитесь результатами в комментариях.
Есть те, кто выбил 16/16?
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁151🎄46❤24 14🔥4🗿4☃3
Чем заняться на январских?
Проснулись, улыбнулись, доели салаты и пытаемся не потерять время на новогодних совсем уж даром. Мы собрали для вас небольшую подборку полезного контента на выходные.
Если хочется что-нибудь посмотреть:
Если хочется поучиться:
Если хочется почитать:
Если ничего не хочется, просто читайте Data Secrets: тоже полезно🍿
Проснулись, улыбнулись, доели салаты и пытаемся не потерять время на новогодних совсем уж даром. Мы собрали для вас небольшую подборку полезного контента на выходные.
Если хочется что-нибудь посмотреть:
– Новая документалка The Thinking Game про DeepMind от Google. Отличный сюжет про Демиса Хассабиса и разработку легендарных систем вроде AlphaGo, AlphaZero и AlphaFold.
– Свежее интервью Ильи Суцкевера у Дваркеша Пателя. Это прямо must watch, каждый эпизод можно разбирать на цитаты.
– Отличный фильм про Python этого года. В нем, кстати, снялся сам создатель – Гвидо ван Россум. Внутри – история языка, как он зарождался, развивался, и почему ML вывел его в топ-1 ЯП мира.
Если хочется поучиться:
– Stanford CS230 | Autumn 2025: новый курс по глубокому обучению с легендарным Эндрю Ыном, детально охватывающий весь DL, начиная с перцептрона и заканчивая LLM. Доп.материалы к курсу здесь.
– Stanford CS224R | Spring 2025: хороший курс по RL для более продвинутых.
– Вот здесь мы делали подборку еще из 5 бесплатных ML/AI курсов от топовых университетов. Все не старше весны 2025 года, так что и информация, и код – актуальны.
– 12 курсов на любые ИИ-темы от Hugging Face.
Если хочется почитать:
– Отличная свежая книга по ML-системам от Гарварда. Про то, как строить, оптимизировать и поддерживать ML-решения на всех этапах – от данных и инфраструктуры до развертывания и эксплуатации. PDF, репозиторий.
– The Smol Training Playbook от HuggingFace. По сути, интерактивный хардовый гайд по тому, как с нуля обучить и захостить языковую модель.
– Книга Себастьяна Рашки по ML/DL, которую он недавно сделал бесплатной. 30 больших глав по нейросетям, компьютерному зрению, LLM, эвалу и методам деплоя моделей. Много практики, примеров, схем и картинок.
– Статьи из топа www.alphaxiv.org/: там все самое новое и популярное среди исследователей. Туда же – huggingface.co/papers: каждый день новый топ статей.
Если ничего не хочется, просто читайте Data Secrets: тоже полезно
Please open Telegram to view this post
VIEW IN TELEGRAM
4❤159👍39🎄21🔥13🤨8🤯2🗿1🆒1
DeepSeek предложили новую вариацию трансформера
Сегодня с вами разбираем свежую громкую статью под названием mHC: Manifold-Constrained Hyper-Connections от DeepSeek. В самой статье ну очень много математики, но мы попробуем разобрать идею на пальцах.
Священная корова трансформера – это residual connection (левая схема на скрине). Суть: вместо того, чтобы каждый слой полностью переписывал предыдущий, вход слоя добавляется к его выходу. Тем самым сигнал и градиенты не теряются по дороге, а плавно протекают сквозь глубину сетки без резких искажений.
В 2024 ученые из ByteDance предложили расширить residual connections и сделать их многопоточными (схема посередине на скрине). Теперь остаточная информация течет по нескольким "трубам", распределяется и перемешивается. Это называется Hyper-Connections, и такой подход немного раширяет топологию, позволяет потокам обмениваться "мыслями" и действительно дает какие-то приросты.
Но есть большой нюанс. Из-за HC в сети накапливается нестабильность. Матрицы H ничем не ограничены, и когда информация перемешивается, сигнал может резко усилиться или заглушиться. Это все приводит к тому, что HC не масштабируется на крупные модели.
Это и есть то, что в своей работе исправили DeepSeek. Они предложили хитрый математический хак, чтобы ограничить матрицу H_res, при этом не навредив эффективности метода. Дело в том, что ее ограничивают не просто значениями, а геометрией.
Авторы проецируют H_res на многообразие doubly-stochastic matrices(оно же Birkhoff polytope). Все элементы должны быть неотрицательные, суммы по строкам = 1, суммы по столбцам = 1 (совсем идеально эти свойства не выполняются, но итеративным алгоритмам матрицы к ним приближают). Основное свойство тут в том, что произведение таких матриц тоже doubly-stochastic, а еще у таких матриц среднее значение сигнала сохраняется по глубине.
То есть информация продолжает распространяться эффективно, но теперь еще и монотонно и без разрушения скейлинга. H_pre и H_post при этом так жестко ограничивать не надо, потому что они служат только для сбора и разброса сигнала по потокам и не передают сигнал между слоями.
Результаты:
– Стабильность улучшилась на три порядка. В mHC (DeepSeek) Amax Gain ≤ 1.6, при том что в обычном HC – примерно 3000
– Качество на reasoning-бенчмарках значимо усиливается, и выигрыш не исчезает при росте FLOPs
– При этом с оптимизированными ядрами по времени выходит всего +6.7% с четыремя потоками (считай, бесплатно)
Из минусов – сложности с инфраструктурой и дорогое масштабирование по количеству потоков.
www.alphaxiv.org/abs/2512.24880
Сегодня с вами разбираем свежую громкую статью под названием mHC: Manifold-Constrained Hyper-Connections от DeepSeek. В самой статье ну очень много математики, но мы попробуем разобрать идею на пальцах.
Священная корова трансформера – это residual connection (левая схема на скрине). Суть: вместо того, чтобы каждый слой полностью переписывал предыдущий, вход слоя добавляется к его выходу. Тем самым сигнал и градиенты не теряются по дороге, а плавно протекают сквозь глубину сетки без резких искажений.
В 2024 ученые из ByteDance предложили расширить residual connections и сделать их многопоточными (схема посередине на скрине). Теперь остаточная информация течет по нескольким "трубам", распределяется и перемешивается. Это называется Hyper-Connections, и такой подход немного раширяет топологию, позволяет потокам обмениваться "мыслями" и действительно дает какие-то приросты.
Но есть большой нюанс. Из-за HC в сети накапливается нестабильность. Матрицы H ничем не ограничены, и когда информация перемешивается, сигнал может резко усилиться или заглушиться. Это все приводит к тому, что HC не масштабируется на крупные модели.
Это и есть то, что в своей работе исправили DeepSeek. Они предложили хитрый математический хак, чтобы ограничить матрицу H_res, при этом не навредив эффективности метода. Дело в том, что ее ограничивают не просто значениями, а геометрией.
Авторы проецируют H_res на многообразие doubly-stochastic matrices(оно же Birkhoff polytope). Все элементы должны быть неотрицательные, суммы по строкам = 1, суммы по столбцам = 1 (совсем идеально эти свойства не выполняются, но итеративным алгоритмам матрицы к ним приближают). Основное свойство тут в том, что произведение таких матриц тоже doubly-stochastic, а еще у таких матриц среднее значение сигнала сохраняется по глубине.
То есть информация продолжает распространяться эффективно, но теперь еще и монотонно и без разрушения скейлинга. H_pre и H_post при этом так жестко ограничивать не надо, потому что они служат только для сбора и разброса сигнала по потокам и не передают сигнал между слоями.
Результаты:
– Стабильность улучшилась на три порядка. В mHC (DeepSeek) Amax Gain ≤ 1.6, при том что в обычном HC – примерно 3000
– Качество на reasoning-бенчмарках значимо усиливается, и выигрыш не исчезает при росте FLOPs
– При этом с оптимизированными ядрами по времени выходит всего +6.7% с четыремя потоками (считай, бесплатно)
Из минусов – сложности с инфраструктурой и дорогое масштабирование по количеству потоков.
www.alphaxiv.org/abs/2512.24880
👍148❤49🔥17🍓9🤯6🤨6😁5👏2🕊2🐳2