Yandex for ML
17K subscribers
932 photos
70 videos
1 file
398 links
💙Канал для ML-сообщества от Яндекса и место встречи специалистов в сфере анализа данных.

Чат→ https://xn--r1a.website/+OsKnLNG-7DE1ZTFi
Вопросы: @Ekaterina_Lyagina

Все каналы по стекам: https://xn--r1a.website/addlist/Hrq31w2p1vUyOGZi
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🔥9
🔌 Подключайтесь к ML Global Recap

До начала всего час! Обсудим ключевые инсайты с шести международных ML-конференций 2025 года. А ещё разберём главные тренды в самых разных сферах машинного обучения.

↔️ А пока держите инсайт от Николая Савушкина, руководителя команды рекомендательных технологий:

Главный тренд этого года — объединение каскада моделей в единой генеративной постановке. В индустрии пробуют перейти с традиционного многошагового отбора на end-to-end-нейросети. Они принимают на вход описание пользователя, а на выходе строят готовый ответ.


🧿 А в 2026 году нас ждёт продолжение тренда на объединение LLM и рекомендательных моделей. Так что готовимся к новым продуктам и умным RecSys!

💻 Онлайн-трансляция:

⚪️Яндекс Плеер
⚪️Ютуб

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
14👍7👎4🔥2
🧑‍🏫 Как мы создавали новое семейство генеративных моделей Яндекса

Недавно мы запустили Алису AI: чат с нашим ассистентом превратился в инструмент для решения широкого круга задач с помощью нейросетей разной модальности. В основе — новое поколение генеративных моделей Alice AI.

В новое семейство генеративных моделей Яндекса вошли базовая текстовая Alice AI LLM и специализированная Alice AI LLM Search, мультимодальная Alice AI VLM и картиночная Alice AI ART. Мы перестроили пайплайн их обучения так, чтобы сократить число этапов и сфокусироваться на качестве решения задач, которые на практике востребованы у пользователей наших сервисов.

↔️ В большом техрепорте рассказываем обо всех новых моделях:

⚪️ Alice AI LLM: делимся опытом полного цикла обучения нашей LLM и объясняем, как удалось совместить архитектуру MoE и метод Online RL с многокомпонентными наградами. Кстати, кроме чата с Алисой, новая модель уже доступна и для разработки собственных AI-решений на платформе Yandex AI Studio.

⚪️ Alice AI LLM Search: рассказываем про походы в Поиск с последующей фильтрацией/ранжированием источников и про то, как готовим ответы с использованием документов разной модальности (веб-документы, картинки, видео, гео)

⚪️ Alice AI VLM: показываем, как повысили качество чтения текста с изображений (в том числе рукописного) и описания визуальной информации. А ещё рассказываем про специализированный VLM-«решатель» для задач, которые требуют глубокой визуально-математической экспертизы

⚪️ Alice AI ART: объясняем, как добавили двухступенчатую архитектуру генерации
и недостающие категории запросов для балансировки под реальные пользовательские запросы

🔳 Читайте подробный разбор на Хабре.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
13🔥13👍10👏1
🔗 SourceCraft объясняет непонятный код на Хабре, AI-агент помогает с покупками, а мы пишем музыку в стиле Баха. Об этом и не только — в новом ML-дайджесте

🌎 Что случилось

⚪️ Yandex AI Startup Lab собирает заявки. Это акселератор для совершеннолетних студентов, аспирантов, исследователей и предпринимателей. Те, кто с нуля строил Такси, Лавку, Самокаты и другие сервисы Яндекса, помогут вывести ваши прототипы на новый уровень, а лучшие проекты получат гранты на ресурсы Yandex Cloud и возможность развиваться в экосистеме Яндекса

⚪️ Нейросеть помогла волонтёрам очистить от мусора труднодоступные побережья. С 2024 года они очистили от мусора 50 километров побережий на Камчатке, в Ленобласти и Приморском крае. В 2026-м нейросеть будут использовать ещё на шести охраняемых природных территориях в разных частях страны и в Арктике. Подробнее о проекте читайте тут

⚪️ SourceCraft интегрирован в Хабр, чтобы объяснять код. Новая AI-фича прокомментирует и сделает понятнее код, который вы видите в статье

📖 Что почитать

⚪️ Запустили новое семейство генеративных моделей Яндекса. Рассказываем, как мы перестроили пайплайн их обучения, сократили число этапов и сфокусировались на качестве решения самых востребованных задач у пользователей

⚪️ Как мы учим Яндекс Карты предупреждать о манёврах. Делимся, как мы переосмыслили систему генерации дорожных аннотаций и создали уникальный датасет с помощью сотен водителей-экспертов и ML-модели

⚪️ AI-агент в Яндекс Маркете. Объясняем, как он устроен под капотом, и делимся инсайтами, которые наши инженеры получили во время разработки

⚪️ Music-composer: генератор музыки в стиле композиторов. Рассказываем про пет-проект, который позволяет обучить программу творчеству того или иного композитора, а затем написать музыку в его стилистике в реальном времени

⚪️ HD-карты для автономного транспорта. Как мы добиваемся точности до сантиметра и стремимся обработать полтора миллиона километров дорог России. Всё ради того, чтобы роботы быстрее стали частью нашей повседневности

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
9👍6🔥3👎1
🗺 Как мы пересобрали дорожные аннотации в Яндекс Картах

Голосовые аннотации — это небольшие подсказки, которые помогают водителю не съехать с маршрута. Например, навигатор сообщает, когда стоит держаться левой стороны дороги или что скоро будет круговое движение. Но в некоторых дорожных ситуациях такие аннотации только мешают и озвучивать их не нужно. А если попытаться масштабировать технологию на другие страны, то спорных случаев становится ещё больше, ведь зачастую там другие правила и культура вождения.

В итоге неоднозначные моменты требуют пристального внимания разработчиков и добавления новых условий. А со временем система превращается в лабиринт из эвристик и региональных костылей. И когда мы подстраиваем новые правила для одной страны — это ломает логику в другой.

👨‍💻 Меня зовут Дмитрий Шалыга, я руковожу ML-разработкой в команде автонавигации Яндекс Карт. Мы вместе с Альбертом Юсуповым решили переосмыслить систему генерации дорожных аннотаций. Вместо того чтобы плодить новые сущности в коде, наша команда с помощью сотен опытных водителей собрала датасет и обучила компактную ML-модель.

👷 Рассказываю об этом в карточках выше

🔳 Подробности в статье на Хабре. Там же я объясняю, из чего складывается качество голосовой аннотации и как она помогает водителям ориентироваться в сложных ситуациях на дороге.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
21👍11🔥4👎1
This media is not supported in your browser
VIEW IN TELEGRAM
▶️ Вышел YaC 2025!

Искусственный интеллект больше не живёт в презентациях и экспериментах. В Яндексе с ним каждый день работают десятки команд, а тысячи сотрудников используют AI, чтобы быстрее решать задачи, которые ещё недавно нужно было выполнять вручную.

Весь год мы создавали, обучали, внедряли, тестировали… Но сейчас ненадолго остановимся, чтобы оглянуться назад и оценить проделанный труд.

💻 Мы хотим показать вам YaC — одно из главных событий Яндекса

Здесь мы объединяем результаты работы за прошедший год. В этот раз YaC полностью посвящён теме искусственного интеллекта, его применению и новым возможностям для наших пользователей.

🔳 Смотрите фильм о том, как Яндекс создаёт и внедряет нейросети, — на сайте.

Что внутри:

⚪️ Новый шаг развития Алисы AI

Показываем, как работают AI-агент «Найти дешевле» и новый режим «Исследовать». А ещё знакомим с технологией AI-оживления изображений и платформой Промптхаб, где пользователи делятся своими запросами и учат друг друга их писать.

⚪️ AI в экосистеме Яндекса

AI-агенты Такси, Еды, Лавки и Доставки помогают решать повседневные задачи в городе (например, быстро собрать продуктовую корзину для борща или оформить доставку). Агент Маркета через чат ищет товары по запросу и консультирует по ним. А в Браузере можно задать Алисе AI вопросы по контенту открытой страницы или видео.

⚪️ AI для профессионалов

Алиса Про помогает за секунды находить нужное в документации, почте или базе знаний. А нейроюрист консультирует специалистов и мгновенно обрабатывает массивы законодательной базы и нормативных актов.

⚪️ Новые категории AI-гаджетов

Показываем, как связываем железо с искусственным интеллектом: умные наушники с Алисой, AI-диктофон, который анализирует записи, и IP-камеру с VLM-моделью для умного дома.

⚪️ AI в физическом мире

Демонстрируем четвёртое поколение наших роботов-доставщиков и рассказываем о строительстве собственного завода по их производству. А ещё заглядываем под капот автономных грузовиков. Объясняем, почему они ближе к самолётам, чем к машинам.

⚪️ AI в медицине

Рассказываем о нейросети, которая анализирует МРТ новорождённых. Она автоматизирует анализ, ускоряет диагностику, а ещё помогает выявлять неврологические заболевания, чтобы вовремя назначить терапию или реабилитацию.

↔️ Смотреть фильм

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥9👍75👎3🔥1
🍎 PackEat: самый большой CV-датасет для умных касс и систем учёта магазинов

Сергей Нестерук, инженер из Yandex Cloud, вместе с командой исследователей создал самый большой в мире открытый набор данных для систем компьютерного зрения в розничной торговле.

В датасете свыше 100 тысяч изображений фруктов и овощей — всего 34 вида и 65 сортов. Прочитать подробности можно в журнале Scientific Data, фотографии с описаниями лежат в Zenodo, а код и примеры моделей — на Kaggle.

🅿️ С помощью PackEat можно:

⚪️ Обучать алгоритмы в умных кассах и системах учёта
⚪️ Улучшать точность распознавания продуктов в супермаркетах
⚪️ Создать систему, которая автоматически подсчитывает количество единиц товара

Кстати, датасет учитывает изображения объектов с полиэтиленовыми пакетами, пересечением объектов и «шумным» фоном на прилавках.

🅿️ Немного о команде

Ключевую роль в проекте сыграли два исследователя: Сергей Нестерук и Светлана Илларионова.

⚪️ Сейчас Сергей руководит командой безопасности искусственного интеллекта Yandex Cloud. Его команда обеспечивает безопасность при использовании AI, а также разрабатывает AI-инструменты для защиты данных и безопасности продуктов и сервисов

⚪️ Светлана руководит группой «Компьютерное зрение для обработки данных» Центра ИИ Сколтеха. Ребята занимаются компьютерным зрением для обработки данных: от спутникового мониторинга окружающей среды до медицинского анализа

🔳 Подробности читайте в статье.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
24🔥12👍8
🔗 В последнем ML-дайджесте уходящего года подводим итоги, прогнозируем осадки и распознаём продукты на кассе (чтобы вы точно собрали хорошую корзину к праздничному столу)

🌎 Что случилось

⚪️ CatBoost стал одним из самых востребованных ML-инструментов. Нашим алгоритмом пользуются учёные более чем в 50 странах мира, а мы строим на нём ML во многих сервисах Яндекса

⚪️ Улучшили модель прогноза глобальных осадков. Теперь с помощью нашей нейросети мы можем буквально за пару минут получить анализ 70 ключевых характеристик всей земной атмосферы на 10 суток вперёд и с шагом в час

⚪️ Решили сделать кассы умнее. Мы создали самый большой в мире открытый набор данных для систем компьютерного зрения в розничной торговле. В датасете свыше 100 тысяч изображений фруктов и овощей — всего 34 вида и 65 сортов

⚪️ Alice AI VLM dev заняла второе место в MWS Vision Bench. Наши инженеры сумели добиться хороших результатов благодаря обучению модели не только под пользовательские, но и под бизнесовые сценарии

📖 Что почитать

⚪️ Обучаем ML-модели и запускаем батч-инференс на YTsaurus. Показываем, как вы сами можете потестировать платформу. Внутри — полная инструкция с подробным описанием пяти сценариев практического воркшопа

📺 Что посмотреть

⚪️ Доклады ML Global Recap 2025. Выложили записи с митапа, на котором поговорили о главных трендах в RecSys, компьютерном зрении, технологиях распознавания речи и NLP. Смотрите их на ютубе и в VK Видео

⚪️ YaC 2025. Это фильм о том, как мы в Яндексе создаём и внедряем нейросети. И набор итогов работы компании за последний год

🎄 С наступающим!

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥147👍3🦄1
С наступающим, инженеры!

Передаём приветы от всех ML-разработчиков и AI-энтузиастов Яндекса. В этом посте мы подводим итоги уходящего года для нашего (и вашего!) сообщества Yandex for ML:

🧿 Мы провели много крутых ивентов

В этом году организовали ML Party, Data Fest, большую конференцию Practical ML Conf и ML Global Recap. Если сложить все цифры, то на наших ивентах:

⚪️ Набралось более 8000 регистраций

⚪️ Побывали очно около 1500 энтузиастов ML

⚪️ Тысячи человек посмотрели онлайн-трансляции

⚪️ Мы послушали десятки докладов крутых спикеров

↔️ А вот достижения нашего телеграм-канала

🔛 Мы опубликовали 200 постов

🔛 Подписчиков стало больше на 4000

🔛 Рекордсменом по реакциям (целых 103!) стал этот пост про датасет Yambda

📺 Не забываем и о ютубе, там тоже был отличный год

⚪️ 87 записей докладов

⚪️ 10 онлайн-трансляций

⚪️ 308 тысяч просмотров на всех видео

📪 Пусть в грядущем году данные будут понятными, решения воспроизводимыми, а фиксы быстрыми и очевидными. Желаем, чтобы все ваши решения работали именно так, как вы этого от них ожидаете, без неприятных сюрпризов томными пятничными вечерами. С Новым годом!

P. S. 🎁 И небольшой подарок от нашей редакции — набор праздничных аватарок, чтобы никто не мешал вам наслаждаться каникулами 😉

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉17🔥13👍54🥰2👎1
🎁 У нас для вас кое-что есть на этот год

Всем привет! Отдыхаете? Это правильно 😉

📆 Мы так, забежали на секунду рассказать, что собрали для вас календарь важных дат из мира разработки и технологий. С ним под рукой вы не пропустите профессиональные праздники, дни рождения языков программирования или, например, День резервного копирования.

🔳 Вот инструкция по импорту файла в любой календарь.

🌠 Кстати, вы видели наш адвент в канале Yandex for Developers? Это серия постов с полезными материалами о карьерном росте, личной эффективности и пет-проектах, а ещё небольшие мотивирующие челленджи. Самое то, если в каникулы уже хочется планировать профессиональное развитие на год. Все посты собраны по тегу #yfd_адвент.

🛄 А прямо сейчас в YfD мы собираем антистресс-кнопку в технике оригами. Залетайте, если хотите немного размять мозг и руки. Ждём фотографии ваших результатов в комментариях 👀

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3👎3🔥2
🖍 Как превратить технический доклад в историю

Полезный технический контент необязательно подавать в форме строго академической лекции. Люди любят, когда им рассказывают хорошие истории. Чтобы подать информацию в виде истории, нужно помнить несколько важных правил сторителлинга:

⚪️ Конфликт

Конфликт — это начало всякого движения и развития. Опишите действующих героев, объясните проблему, которую нужно решить, покажите, зачем вообще вам пришлось пуститься в это приключение.

⚪️ Значимость

Люди должны понимать важность вашей истории. Раскройте контекст ситуации, опишите внутренний мир и переживания героя (особенно если герой — это вы). Объясните, почему это актуально для слушателей.

⚪️ Близость

Используйте красивые и понятные метафоры, рисуйте понятные и близкие сердцу образы, будьте субъективным — пусть люди посмотрят на историю вашими глазами.

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
👍126🤔2🔥1
🌤 Мы разработали модель глобального прогноза погоды

Всем привет, меня зовут Паша Анисимов. В Яндекс Погоде я занимаюсь задачей глобального прогноза.

В независимых погодных сервисах разработчики строят прогнозы на основе глобальных прогнозов крупных метеорологических центров. Чтобы не переживать, что данные не доедут вовремя для составления прогноза, мы решились на эксперимент.

Путь был тернистым, но в итоге мы стали первыми в мире, кто в оперативном режиме с помощью нейросетей получает собственные глобальные погодные данные и использует их для прогноза осадков для массового пользователя.

🧿 Для этого мы побороли основные проблемы нейросетевых прогнозов накопленных глобальных осадков: сократили bias, улучшили точность локализации и интенсивности сильных осадков, справились с zero‑inflated distribution.

Вкратце про наше решение:

⚪️ За пару минут просчитывает эволюцию 70 ключевых характеристик атмосферы Земли на 10 суток вперёд с шагом в 1 час

⚪️ Использует авторегрессию в латентном пространстве для экономии вычислений и совместного и согласованного обучения моделей с разным горизонтом прогноза

🔳 Читайте на Хабре:

⚪️ Как мы создали собственную глобальную модель прогноза — от выбора данных и архитектуры до распределённого обучения на 32 видеокартах

⚪️ Почему прогноз осадков — одна из самых сложных задач для нейросетей и как мы улучшили метрики (MAE, CSI, FSS, W1, bias) за счёт новых лосс‑функций и нормировки

⚪️ Как интегрировали нейросеть в сервис — тестировали на часовых накоплениях, сравнивали с WeatherNext2 от Google и внедряли в профильную модель осадков

Подписывайтесь:
💬 @Yandex4ML
📹 @YandexML
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19👍12🦄64