Моменты CIKM’25 (и не только)
Делимся яркими кадрами с конференции.
1 — Коля Савушкин допытывается о всех подробностях у авторов MARM.
2 — Что происходит с постером, когда нет внятного ТЗ.
3–4 — Кто хорошо поработал на конференции, того покормили.
5 — Лапшу на уши на CIKM не вешали, пришлось пойти в сеульский супермаркет.
ML Underhood
Делимся яркими кадрами с конференции.
1 — Коля Савушкин допытывается о всех подробностях у авторов MARM.
2 — Что происходит с постером, когда нет внятного ТЗ.
3–4 — Кто хорошо поработал на конференции, того покормили.
5 — Лапшу на уши на CIKM не вешали, пришлось пойти в сеульский супермаркет.
ML Underhood
❤14🔥9👍6😁2
Yandex Research везёт пять статей на NeurIPS 2025
Не за горами NeurIPS 2025 — одна из главных конференций в области машинного обучения. Рассказываем о принятых на неё работах исследователей Yandex Research (и не только).
Hogwild! Inference: Parallel LLM Generation via Concurrent Attention
Исследователи предлагают новый подход к ускорению LLM: несколько LLM-агентов запускаются параллельно с возможностью их синхронизации через совместно обновляемый KV-кэш. Реализуется с помощью механизма Hogwild! Inference. Все агенты мгновенно «видят» генерации друг друга и за счёт этого могут пробовать разные способы решения задач, распределять подзадачи между собой, корректировать ошибки друг друга.
Статья получила отметку spotlight — такой статус только у 3% работ, отправленных на NeurIPS.
AutoJudge: Judge Decoding Without Manual Annotation
В статье предложили алгоритм майнинга данных для выявления «важных» токенов, влияющих на качество ответа при использовании Speculative Decoding в генерации текста LLM. Метод не требует человеческой разметки и автоматически определяет токены, которые можно безопасно принять, ослабив критерий принятия токенов драфтовой модели, без ухудшения качества ответа.
Авторы обучают компактную модель-классификатор, использующую внутренние представления таргетной и драфтовой LLM для предсказания важности токенов.
Интеграция модели в vLLM повышает скорость генерации текста с использованием Speculative Decoding до 1,5 раз.
GraphLand: Evaluating Graph Machine Learning Models on Diverse Industrial Data
В ML на графах есть известная проблема с бенчмарками: существующие датасеты покрывают мало доменов, задачи далеки от практики, а в ряде датасетов были допущены ошибки при сборе данных.
Авторы делают шаг к решению этой проблемы: они предлагают GraphLand, бенчмарк из 14 графовых датасетов из различных индустриальных приложений. Некоторые датасеты подготовлены на основании открытых источников, а другие собраны специально для бенчмарка из данных нескольких сервисов Яндекса.
GraphLand позволяет сравнивать графовые модели на широком спектре задач. Графовые нейросети дают хорошие результаты и имеют большой потенциал для использования в индустриальных приложениях. В то же время, существующие графовые фундаментальные модели (Graph Foundation Models) показывают слабые результаты, то есть задача разработки таких моделей ещё далека от решения.
Alchemist: Turning Public Text-to-Image Data into Generative Gold
В статье представили новую методологию создания универсальных наборов данных для файнтюнинга (SFT) моделей преобразования текста в изображение (T2I).
Методология использует предварительно обученную генеративную модель YandexART для оценки эффективных обучающих примеров. С её помощью создали датасет Alchemist, содержащий 3350 пар «картинка-текст» и выложенный в открытый доступ.
Этот датасет значительно улучшает качество генерации пяти общедоступных T2I-моделей, сохраняя при этом разнообразие и следование промпту. Веса дообученных моделей также выложены в открытый доступ.
Подробнее о решении мы писали в телеграм канале CV Time.
Results of the Big ANN: NeurIPS'23 competition
Статья основана на результатах конкурса Big ANN Challenge, который прошёл в рамках NeurIPS 2023. Его цель — разработка методов векторного поиска (ANN-поиск) в востребованных практико-ориентированных сетапах.
Рассматривались следующие сценарии: векторный поиск с использованием метаданных; поиск, при котором распределения запросов отличается от распределения базы данных (text-to-image); сетап с регулярно обновляющимися базами данных; а также поиск по спарсовым эмбеддингам.
В публикации подробно описываются эти сетапы, наборы данных, метрики и подходы участников, которые показали значительное улучшение точности и эффективности поиска по сравнению с базовыми методами. Результаты дают представление о современных достижениях и направлениях развития в области ANN-поискa.
💫 По традиции инженеры и исследователи Яндекса поедут на конференцию и будут делиться самым интересным.
#YaNeurIPS25
ML Underhood
Не за горами NeurIPS 2025 — одна из главных конференций в области машинного обучения. Рассказываем о принятых на неё работах исследователей Yandex Research (и не только).
Hogwild! Inference: Parallel LLM Generation via Concurrent Attention
Исследователи предлагают новый подход к ускорению LLM: несколько LLM-агентов запускаются параллельно с возможностью их синхронизации через совместно обновляемый KV-кэш. Реализуется с помощью механизма Hogwild! Inference. Все агенты мгновенно «видят» генерации друг друга и за счёт этого могут пробовать разные способы решения задач, распределять подзадачи между собой, корректировать ошибки друг друга.
Статья получила отметку spotlight — такой статус только у 3% работ, отправленных на NeurIPS.
AutoJudge: Judge Decoding Without Manual Annotation
В статье предложили алгоритм майнинга данных для выявления «важных» токенов, влияющих на качество ответа при использовании Speculative Decoding в генерации текста LLM. Метод не требует человеческой разметки и автоматически определяет токены, которые можно безопасно принять, ослабив критерий принятия токенов драфтовой модели, без ухудшения качества ответа.
Авторы обучают компактную модель-классификатор, использующую внутренние представления таргетной и драфтовой LLM для предсказания важности токенов.
Интеграция модели в vLLM повышает скорость генерации текста с использованием Speculative Decoding до 1,5 раз.
GraphLand: Evaluating Graph Machine Learning Models on Diverse Industrial Data
В ML на графах есть известная проблема с бенчмарками: существующие датасеты покрывают мало доменов, задачи далеки от практики, а в ряде датасетов были допущены ошибки при сборе данных.
Авторы делают шаг к решению этой проблемы: они предлагают GraphLand, бенчмарк из 14 графовых датасетов из различных индустриальных приложений. Некоторые датасеты подготовлены на основании открытых источников, а другие собраны специально для бенчмарка из данных нескольких сервисов Яндекса.
GraphLand позволяет сравнивать графовые модели на широком спектре задач. Графовые нейросети дают хорошие результаты и имеют большой потенциал для использования в индустриальных приложениях. В то же время, существующие графовые фундаментальные модели (Graph Foundation Models) показывают слабые результаты, то есть задача разработки таких моделей ещё далека от решения.
Alchemist: Turning Public Text-to-Image Data into Generative Gold
В статье представили новую методологию создания универсальных наборов данных для файнтюнинга (SFT) моделей преобразования текста в изображение (T2I).
Методология использует предварительно обученную генеративную модель YandexART для оценки эффективных обучающих примеров. С её помощью создали датасет Alchemist, содержащий 3350 пар «картинка-текст» и выложенный в открытый доступ.
Этот датасет значительно улучшает качество генерации пяти общедоступных T2I-моделей, сохраняя при этом разнообразие и следование промпту. Веса дообученных моделей также выложены в открытый доступ.
Подробнее о решении мы писали в телеграм канале CV Time.
Results of the Big ANN: NeurIPS'23 competition
Статья основана на результатах конкурса Big ANN Challenge, который прошёл в рамках NeurIPS 2023. Его цель — разработка методов векторного поиска (ANN-поиск) в востребованных практико-ориентированных сетапах.
Рассматривались следующие сценарии: векторный поиск с использованием метаданных; поиск, при котором распределения запросов отличается от распределения базы данных (text-to-image); сетап с регулярно обновляющимися базами данных; а также поиск по спарсовым эмбеддингам.
В публикации подробно описываются эти сетапы, наборы данных, метрики и подходы участников, которые показали значительное улучшение точности и эффективности поиска по сравнению с базовыми методами. Результаты дают представление о современных достижениях и направлениях развития в области ANN-поискa.
#YaNeurIPS25
ML Underhood
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24❤16🔥15😱2👎1👏1
Как прошла CIKM 2025: взгляд изнутри
Недавно в Сеуле закончилась международная конференция CIKM 2025. Своими впечатлениями о ней поделился Александр Михеев, руководитель группы разработки сервисов моделей.
Продолжаем следить за индустрией и рассказывать о главных мировых ML-конференциях.
ML Underhood
Недавно в Сеуле закончилась международная конференция CIKM 2025. Своими впечатлениями о ней поделился Александр Михеев, руководитель группы разработки сервисов моделей.
Мне впервые довелось съездить на CIKM. Сеул порадовал и золотой тёплой осенью (днём температура поднималась до +19), и хорошо организованной конференцией в центре знаменитого района Гангнам.
Послушал много интересных докладов. Больше всего впечатлили работы от крупных китайских компаний: TikTok, Kuaishou, Alibaba, Meituan, NetEase. В частности, удалось подробно поговорить с коллегами из Kuaishou. Это вторая по популярности платформа для просмотра и загрузки коротких видео в Китае, которая в этом году наделала шума техническим отчётом об их end-to-end-генеративной системе рекомендаций OneRec. На CIKM они представили серию сильных работ, напрямую релевантных направлению развития рекомендательных систем в Яндексе.
Для меня, как представителя ML-инфраструктуры, самым интересным был доклад по статье MARM: Unlocking the Recommendation Cache Scaling-Law through Memory Augmentation and Scalable Complexity. В ней предлагается для трансформерных рекомендательных моделей перенести часть вычислений KV-матриц в офлайн, складывать их в отдельное хранилище и переиспользовать при инференсе в реалтайме. С инфраструктурной точки зрения схема нетривиальна: из-за большого размера KV-матриц возрастает нагрузка на пропускную способность отдельных компонентов — сети и шины памяти. Но при личном разговоре с докладчиком удалось узнать основные приёмы, которые помогают смягчить эти ограничения. Всё протестируем и вернёмся рассказать о них.
Из любопытных впечатлений. Я ехал на конференцию с ощущением, что буду тихо сидеть в углу и смотреть на тяжеловесов с передового края науки (индустриальной, прикладной, академической), до которых нам ещё далеко. А на деле, по многим направлениям уровень наших исследований и инфраструктуры рекомендательных систем не уступает крупным зарубежным компаниям. Мы можем чаще публиковать доклады о наших внедрениях на академических конференциях.
При этом огромная конкуренция в Китае стремительно продвигает индустрию рекомендательных систем вперёд. Поэтому расслабляться однозначно не стоит.
Продолжаем следить за индустрией и рассказывать о главных мировых ML-конференциях.
ML Underhood
❤7👍7🔥6❤🔥1
Всего 38 часов лёту — и мы на NeurIPS в Мехико!
В этом году конференция проходит сразу в двух странах: США и Мексике. Мы будем вести репортажи из обеих, а начём с Мехико, где уже подошёл к концу первый день. Примечательное собрал Дмитрий Быков, руководитель группы AI-планирования робота доставки.
Больше о том, что было интересного на тему безопасности и масштабируемости автономного транспорта, написали в канале @DriverNotFound.
#YaNeurIPS25
ML Underhood
В этом году конференция проходит сразу в двух странах: США и Мексике. Мы будем вести репортажи из обеих, а начём с Мехико, где уже подошёл к концу первый день. Примечательное собрал Дмитрий Быков, руководитель группы AI-планирования робота доставки.
Лететь в Мексику через Китай оказалось очень необычным опытом :) Маршрут проходит через Аляску, и зимой это невероятно красиво: почти всю дорогу из окна был необычный вид на солнце (картинка 1). В отличие от заката, здесь видна другая часть спектра. Кажется, подобное можно увидеть разве что на Северном полюсе или вот так — из самолёта.
В первый день мы посетили большой воркшоп NeurIPS 2025 Workshop on Embodied and Safe-Assured Robotic Systems. Расскажу о том, что запомнилось с него и в целом.
Toward Efficient and Reliable VLMs
for Real-World Autonomous Systems
Работа на тему улучшения VLM. Изначальная идея авторов была максимально простой: часто для получения нужной информации используют несколько разных энкодеров и затем их фьюзят.
В модели LEO исследователи как раз отказались от фьюзинга и получили SOTA по метрикам — но столкнулись с очень долгим инференсом. Ну а в LEO-mini они попытались разобраться, в чём именно проблема фьюза. Оказалось, что если добавить текстовый запрос, модель может понимать, какая информация из каких энкодеров нужна для конкретной задачи.
Однако моделей становилось много, и в работе над Hawaii авторы решили пойти дальше: с помощью CLIP дистиллировали выходы всех энкодеров в один CLIP-энкодер. В результате получилась одна модель с одним энкодером.
Systematizing the Unusual: A Taxonomy-Driven Dataset for Vision–Language Model Reasoning About Edge Cases in Traffic
Рассказ об эдж-кейсах в автономном вождении — причём самых разных типов и причин.
Кейсы авторы собирали вручную из интернета, и на их основе построили онтологию дорожных опасностей и ожидания корректного поведения модели.
Забавно, что было сделано сравнение с GPT-5: в целом видно, что есть прогресс, но при этом текущие метрики проседают. Например, в кейсе с дорогой и коровой (картинка 2) GPT-5 не видит корову, даже если напрямую спросить о ней (при этом на кропе корову распознаёт).
Diversity-Guided Genetic Algorithm for Safety-Critical Scenario Generation in Autonomous Driving Testing
А вот это уже совсем необычная вещь — вызывающая у меня сомнения, но всё же любопытная.
Исследователи решили генерировать сложные сценарии с помощью генетических алгоритмов. У них был набор признаков, и они прямо генетическим алгоритмом смешивали эти признаки, «максимизируя разнообразие».
Имхо: о настоящем разнообразии здесь речи идти не может — потому что разнообразие в таких задачах — это редкие, неожиданные случаи, а не механическая генерация «разнообразных» сцен по шаблону.
Больше о том, что было интересного на тему безопасности и масштабируемости автономного транспорта, написали в канале @DriverNotFound.
#YaNeurIPS25
ML Underhood
❤🔥13🔥6❤5😎3
В Мехико жара — и это мы сейчас не о погоде, а о NeurIPS
Продолжаем рассказывать о том, что происходит на полях конференции. Руководитель группы AI-планирования робота доставки Дмитрий Быков посетил любопытный воркшоп NORA: The First Workshop on Knowledge Graphs & Agentic Systems Interplay и поделился впечатлениями.
#YaNeurIPS25
ML Underhood
Продолжаем рассказывать о том, что происходит на полях конференции. Руководитель группы AI-планирования робота доставки Дмитрий Быков посетил любопытный воркшоп NORA: The First Workshop on Knowledge Graphs & Agentic Systems Interplay и поделился впечатлениями.
Авторы пытались решить проблему того, что способ запоминания знаний в языковых моделях через веса далеко не самый эффективный и создаёт много галлюцинаций. И даже поиск через интернет не спасает от артефактов — особенно на сложных запросах. Например, была проблема с вопросом обо всех женщинах Нобелевских лауреатах.
Разработали конкретные онтологии и способ извлечения знаний из них (graph ql и поиск по близости эмбеддингов). В целом, для конкретных даже сложных примеров это достаточно хорошо работало.
При этом проблема получения онтологий не из структурированных данных остаётся акутальной. Авторы возлагают большие надежды на обработку с помощью LLM, но пока так не делают.
Ещё решил послушать второй доклад по схожей теме. Тут в основном всё было сосредоточено на арабском языке.
Рассказали, как собирали онтологию — по сути, обучили BERT на ner и entity linking. Имели порядка 50 возможных отношений между объектами, часть из которых могла быть достаточно похожей. В итоге так заполнили онтологию, докинули в промпт ChatGPT значения и получили прирост по метрикам.
#YaNeurIPS25
ML Underhood
❤8👍6🔥4