ML Underhood

Третий день RecSys 2025: индустриальный трек

Конкуренция на индустриальном треке растёт: +104% сабмитов к предыдущему году. Всё, что выделил из этого многообразия работ Иван Романов, — читайте ниже.

Всё чаще звучало слово latency. Даже keynote оказался практичным: Jure Leskovec (именитый профессор из Стэнфорда) прорекламировал свой стартап Kumo — AutoML на графовых нейросетях с SQL-подобным языком для fit-predict по таблицам. Мне запомнился «наброс», что существует опенсорс-решение (CARTE: Pretraining and Transfer for Tabular Learning), которое из коробки даёт аналогичные результаты.

Следующая статья зацепила названием — User Long-Term Multi-Interest Retrieval Model for Recommendation. В качестве MLA-ментора предстоит «забустить» одну рексистему с помощью long-term-интересов. Явно разделяют долгосрочное и краткосрочное поведение пользователя и на вход долгосрочного энкодера передают в качестве query (как в encoder-decoder) выход краткосрочного. Обучают на два лосса. Кстати, заметен общий тренд: почти в каждой индустриальной статье используют несколько лоссов.

Не менее полезная статья — Zero-shot Cross-domain Knowledge Distillation: A Case Study on YouTube Music. Проблема: нужно запустить рексистему с нуля (YouTube Music), но уже есть готовая (на главной YouTube) с пересечением по фичам. Решение: переиспользовать веса, добавить спецтокены для новых фичей и дистиллировать артефакты от старой модели. Да, есть элемент overengineering, но главное — в индустрии начинают трогать cross-domain, и результаты уже позитивные.

Похожую проблему решают ребята из академии — LM-RecG: A Semantic Bias-Aware Framework for Zero-Shot Sequential Recommendation. Деталей в статье намного больше, но трудно сказать, что из этого работает (на академических датасетах буст настолько большой, что верится с трудом).

Было сразу три статьи, которые решают проблему использования контентных фичей в рекомендациях. Подходы разные, но суть одна: инициализировать lookup table через предобученную модель, а поверх запускать последовательную модель на айдишниках.

«Внебрачное дитя» европейских регуляций и Google — Cross-Batch Aggregation for Streaming Learning from Label Proportions in Industrial-Scale Recommendation Systems. Нельзя однозначно определить связь user-item, поэтому используют трюк из Learning from Label Proportions. Автор признал, что не знал о такой задаче до написания статьи, но был рад, что «поле уже немного пропахано».

Scaling Generative Recommendations with Context Parallelism on Hierarchical Sequential Transducers: инженерное ускорение HSTU (AllGather меняют на AllToAll, кастомные Triton-кернелы, jagged tensors — аналог NestedTensor из PyTorch в TorchRec). Около постера никого не было, визуализации классные, но темой вокруг особо не интересовались, хотя ускорение достойное — x5.

T2ARec: The Proposed Method — по метрикам отлично, но пугает SSM (state space model). Основное улучшение достигается через test-time alignment (во время теста модели выполняется градиентный спуск по двум вспомогательным задачам: сопоставление временных интервалов пользователей и сопоставление previous state с current state представления).

В конце дня был «званый ужин», на котором Иван успел посидеть за тремя русскоговорящими столами и вынести кое-какие инсайты:

— По ощущениям 2/3 участников используют GPT-интерфейс (VSCode, Cursor, либо разделённый экран: с одной стороны Jupyter Notebook, с другой — Perplexity/Gemini).

— У самого в квартальных целях — порешать эту проблему, так что, наверное, я biased, но повсюду говорят о холодном старте.

— С Сашей Петровым (gSASRec) обсуждали формулу хорошей статьи. Я уточнил, не обидится ли он на фидбек, что «читается просто». Его ответ порадовал: «Чем проще читается статья, тем сложнее её было писать».

ML Underhood

❤9🔥7👍4

2.07K views14:05

ML Underhood

Как YandexGPT научили размечать тикеты и экономить время разработчиков

DutyGPT — классификатор на базе YandexGPT 5 Lite в Яндекс Облаке, который по тексту тикета в трекере предсказывает, какой команде его логичнее всего передать. Раньше разработчики читали каждый тикет, сверялись с таблицами зон ответственности и вручную проставляли компоненты. У одного человека на это уходило до 25 часов в месяц, без учёта времени на исправление ошибок маршрутизации.

Техлид разработки общих AI-решений в Райдтехе Василий Дмитриев рассказал об инструменте, который освободил сотрудников от рутинной задачи.

Всё работает в реальном времени: как только в трекере создаётся тикет, автоматический триггер отправляет его содержимое в DutyGPT. Текст уезжает в дообученную модель, и мы получаем предсказание — команду и вероятность. Модель сама пишет в карточке комментарий вида «предсказываю такую-то команду с такой-то вероятностью» и проставляет нужную компоненту.

Дальше включаются стандартные триггеры трекера: по компоненте вызывается дежурный соответствующей команды. Если модель ошиблась, дежурный перевешивает компоненту или пингует людей. Все такие исправления возвращаются к нам как новые размеченные примеры для следующего дообучения.

Как происходит обучение

Перед запуском рассматривался вариант обучения без файнтюна — условный zero/few-shot на «голом» LLM. Но в проде его не пробовали: чтобы это работало, модель нужно кормить подробными описаниями зон ответственности каждой команды, а это десятки сущностей (в одной группе — ~30, а, например, в Доставке — 50+). Нужна постоянная ручная поддержка актуальности. Поэтому пошли путём дообучения под нужные домены.

Данные для дообучения на задачу классификации собираются из реальных выборок тикетов от разных команд. Стартовали с небольшой выборки с точностью около 40% — никуда не выкатывали, просто наблюдали.

Дособрали данных — подскочили до 69% и задумались, много это или мало. Померили человеческую точность на этом же процессе и получили около 70%. Фактически модель уже размечала «как человек» — с этим результатом и решили выкатываться. Ну а дальше заработал автоматический сбор правильных и неправильных кейсов. Менее чем за год дошли до стабильных 75%+ по организациям, а в некоторых командах — до ~80%.

Важно понимать, что 100% никогда не будет, потому что у команд появляются новые зоны ответственности, и модель нужно постоянно переобучать. Но дойти до 85–90% — реальная цель (по всем командам).

У проекта есть отдельная доска для контроля качества разметки, и когда на ней видна деградация (модели без дообучения закономерно «плывут»), вручную запускается новый цикл обучения: собираются свежие тикеты по конкретным командам и обновляется датасет. Ближайший план — автоматизировать этот контур, чтобы переобучение происходило самостоятельно, примерно раз в месяц.

Результаты

С марта 2024 DutyGPT сэкономил ~1000 часов у разработчиков на разметке тикетов. С момента запуска к автоматической разметке присоединились порядка 89 команд.

ML Underhood

🔥26❤9🐳6

2.28K viewsedited 11:02

ML Underhood

Как устроена первая Нейроредакция в Яндексе

В 2023 редакция ПромоСтраниц, выросшая из Дзена, начала эксперименты с LLM в написании лонгридов для клиентов. Первый нейротекст о пляжах Турции команда выпустила в апреле. Примерно тогда же команда собрала фреймворк «Барсук» — с промптами для каждого этапа работы от брифа до финальной версии.

Дальше редакция стала оптимизировать процесс:

— Сделали макрос на базе «Барсука», в который загружается бриф от клиента и тема, а дальше автоматически формируются нужные промпты.

— Добавили эмулятор действий пользователя. Один раз записываем, куда кликать, что вставлять и нажимать, а потом программа воспроизводит эти действия сколько угодно раз.

Теперь всё работает так: вставляем бриф и план, нажимаем кнопку — компьютер сам копирует промпты, отправляет их в нейросеть, получает ответы, а потом формирует чат. Из него копируем весь диалог в файл и передаём редактору, который очищает черновик от вспомогательных промптов. В итоге остаётся текст, который нужно немного дотюнить — примерно как от стажёра или джуна.

ИИ-редактор внутри кабинета

Дальше редакция захотела поделиться своими инструментами и наработанной экспертизой с клиентами. Для этого начали строить генератор текстов внутри клиентского кабинета в ПромоСтраницах. Сейчас там доступны два инструмента: «размножатор» и «улучшатор».

Размножатор. Рекламодатель или нейросеть создают описание продукта; выделяются аудитории, которым он может быть интересен и для каждого сегмента подбираются потребности, которые нужно обыграть в тексте. Пишется исходная статья, которая потом рерайтится под разные ЦА. Описание продукта остаётся тем же, но сценарии, акценты и подача меняются.

Улучшатор. Работает со стилистикой, помогает убрать воду, упростить, переформулировать заголовки, добавить конкретику, написать призыв к действию; можно применить как ко всему тексту, так и к фрагменту.

Кроме этого, команда разрабатывает генератор полного цикла, который сможет создавать тексты с нуля, под конкретные цели и продукты.

Результаты

За время существования Нейроредакция выпустила 1196 нейростатей, и многие из них показали метрики лучше человеческих. Ещё несколько цифр:

— 1–2 часа вместо 8 на производство текста;
— х2 текстов при том же бюджете;
— +80 млн рублей за счёт экспресс-запусков.

Благодаря росту производительности команда смогла не только сократить время на тексты, но и предложить новые форматы для партнёров, например, экспресс-пакеты для быстрого запуска кампаний.

Обычный флоу работы выглядит так:
— до 5 рабочих дней на темы и планы статей; до 8 рабочих дней на написание, в среднем пакет включает 5 текстов.
Дорогой пакет под экспресс-запуск:
— 10 текстов за 5 рабочих дней.

При этом недорогие пакеты также продолжают обслуживаться, но Нейроредакция успевает за то же время сделать чуть больше, чем обычные авторы или агентства.

ML Underhood

❤9🔥5🗿4🎉3👍2👎2😁1💯1🫡1

2.68K views10:54

ML Underhood

Это отложенное сообщение: читайте, как прошло открытие EMNLP 2025, пока мы отсыпаемся и готовимся к новому дню

В этом году Conference on Empirical Methods in Natural Language Processing (или просто EMNLP) проходит в Сучжоу.

Скоро расскажем, какие статьи привезли в Китай наши коллеги и что интересного они узнали. А пока делимся несколькими кадрами с открытия и велком-ужина. В главных ролях: Екатерина Еникеева, Владислав Негодин, Николай Карпачёв, Александр Шишеня, плюшевая панда и постер #53.

ML Underhood

❤13🥰3👏3👍2🔥1🤩1

1.66K views15:34

ML Underhood

Яндексоиды на EMNLP 2025: нашли знакомые лица?

Продолжаем делиться новостями о ежегодной конференции Empirical Methods in Natural Language Processing. В Душном NLP рассказываем о статьях, которые запомнились коллегам. А здесь поговорим о работах, которые они привезли в Китай.

В этом году на конференцию приняли сразу две статьи из Яндекса. Обе — от команды машинного перевода.

1. Refined Assessment for Translation Evaluation: Rethinking Machine Translation Evaluation in the Era of Human-Level Systems

Соавторы исследования — ребята из Together AI.

Работа посвящена проблеме оценки качества машинного перевода. Несмотря на впечатляющий прогресс LLM, задача перевода ещё далека от того, чтобы считаться решённой: современные системы хорошо справляются с новостными и бытовыми текстами, но далеко не всегда — с переводом научных статей или художественной литературы.

Мы собрали новую экспертную разметку англо-русских переводов с WMT24 и показали, что проблема заключается не только в протоколах оценки, но и в низком качестве крауд-разметки. Наши эксперты — профессиональные лингвисты и переводчики — находят в среднем в семь раз больше ошибок (4,66 против 0,65 на сегмент), чем асессоры в официальной разметке WMT24.

Также мы предложили протокол RATE (Refined Assessment for Translation Evaluation), который объединяет выделение ошибок с оценкой по 100-балльной шкале ключевых характеристик перевода — точности сохранения смысла (accuracy) и естественности/читаемости текста (fluency). RATE использует упрощённую категоризацию ошибок и расширенную шкалу их критичности, что делает анализ систем более информативным, при этом результаты разметки можно конвертировать для сравнения с существующими стандартами MQM и ESA.

Результаты показывают, что современные модели действительно превосходят человека по точности передачи смысла, но заметно уступают в естественности и читаемости текста. При этом по нашей разметке системы разделяются статистически значимо, в отличие от официальных оценок WMT24, где большинство моделей оказывается в одном кластере. Более того, становится очевидно, что без экспертной разметки и продуманных протоколов невозможно развивать качество перевода: по формальным метрикам WMT24 можно сделать вывод, что задача перевода решена, однако наши данные показывают, что это далеко от реальности — количество ошибок на сегмент остаётся высоким даже у лучших систем.

2. Yandex Submission to the WMT25 General Translation Task

В этой работе описывается участие Яндекса в ежегодном соревновании по качеству перевода в рамках конференции WMT.

Мы работаем с направлением перевода с английского на русский, используя специализированную модель, построенную с помощью дообучения pretrain-версии YandexGPT. Процесс обучения состоит из нескольких стадий.

Сначала мы делаем дополнительное предобучение для адаптации к многоязычности и переводу (post-pretrain). Затем — стандартное обучение с учителем (SFT) на корпусе параллельных документов с использованием P-Tuning. Далее — применяем новую схему алайнмента в два этапа:

🔴обучение по методике curriculum learning с расписанием сложности,
🔴исправление ошибок модели с использованием в качестве положительных примеров постредактированных человеком текстов (активное обучение) и адаптация под универсальный формат тегов.

Об исследованиях рассказали их авторы Дмитрий Попов и Николай Карпачёв ❣ специально для ML Underhood

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🔥7❤5👏3😍1

2.06K views14:15

ML Underhood

CIKM’25 — горячий привет из Южной Кореи

С 10 по 14 ноября в Сеуле проходит CIKM 2025 — одна из крупнейших конференций на стыке ИИ, машинного обучения и баз данных.

Мы уже рассказывали в @RecSysChannel о ожидаемых темах этого года, а теперь делимся впечатлениями команды рекомендательных технологий Яндекса от второго дня конференции.

Сергей Лямаев:

Сегодня мне показались интересными две статьи от Kuaishou (Pantheon и MARM), InterFormer от Meta*, серия статей от Airbnb (Beyond Pairwise Learning-To-Rank At Airbnb; Learning to Comparison-Shop; Maps Ranking Optimization in Airbnb). На постерной сессии обменялись опытом с ребятами из ресёчерской команды Snapchat (их постер) про обучение семантических ID, они тоже пробуют имплементировать OneRec.

Николай Савушкин:

Понравилась статья Action is All You Need от Kuaishou (очень популярная платформа коротких видео в Китае). Удалось пообщаться после доклада с автором, уточнить детали, которых не было ни в статье, ни в докладе.

Также подошли к автору MARM и расспросили подробности, которые нигде не были упомянуты.

Александр Михеев:

Посетил занимательный доклад по статье InstANNS от группы из Сеульского университета. Для задачи приближенного поиска ближайших соседей предлагают перенести часть фильтрующих вычислений в контроллер SSD при помощи хитрой NVMe-операции, чтобы гонять меньше данных в память и повысить пропускную способность диска.

Сама идея использования вычислительных ресурсов диска не является новой, и такой перенос нагрузки выглядит разумным и уместным. А забавный факт, к сожалению, в том, что эта хитрая NVMe-операция пока не существует и не поддержана ни одним из существующих SSD-дисков. Поэтому авторы её запрограммировали в специальном NVMe-симуляторе и зарепортили потенциальный профит :)

Кстати — на фото те самые ребята, которые принесли нам новые заметки с места событий.

ML Underhood

* Компания Meta признана экстремистской; её деятельность в России запрещена.

❤12🔥7👍6

1.71K viewsedited 12:42

ML Underhood

0:10

This media is not supported in your browser

VIEW IN TELEGRAM

Моменты CIKM’25 (и не только)

Делимся яркими кадрами с конференции.

1 — Коля Савушкин допытывается о всех подробностях у авторов MARM.

2 — Что происходит с постером, когда нет внятного ТЗ.

3–4 — Кто хорошо поработал на конференции, того покормили.

5 — Лапшу на уши на CIKM не вешали, пришлось пойти в сеульский супермаркет.

ML Underhood

❤14🔥9👍6😁2

2.05K views14:50

ML Underhood

Yandex Research везёт пять статей на NeurIPS 2025

Не за горами NeurIPS 2025 — одна из главных конференций в области машинного обучения. Рассказываем о принятых на неё работах исследователей Yandex Research (и не только).

Hogwild! Inference: Parallel LLM Generation via Concurrent Attention

Исследователи предлагают новый подход к ускорению LLM: несколько LLM-агентов запускаются параллельно с возможностью их синхронизации через совместно обновляемый KV-кэш. Реализуется с помощью механизма Hogwild! Inference. Все агенты мгновенно «видят» генерации друг друга и за счёт этого могут пробовать разные способы решения задач, распределять подзадачи между собой, корректировать ошибки друг друга.

Статья получила отметку spotlight — такой статус только у 3% работ, отправленных на NeurIPS.

AutoJudge: Judge Decoding Without Manual Annotation

В статье предложили алгоритм майнинга данных для выявления «важных» токенов, влияющих на качество ответа при использовании Speculative Decoding в генерации текста LLM. Метод не требует человеческой разметки и автоматически определяет токены, которые можно безопасно принять, ослабив критерий принятия токенов драфтовой модели, без ухудшения качества ответа.

Авторы обучают компактную модель-классификатор, использующую внутренние представления таргетной и драфтовой LLM для предсказания важности токенов.

Интеграция модели в vLLM повышает скорость генерации текста с использованием Speculative Decoding до 1,5 раз.

GraphLand: Evaluating Graph Machine Learning Models on Diverse Industrial Data

В ML на графах есть известная проблема с бенчмарками: существующие датасеты покрывают мало доменов, задачи далеки от практики, а в ряде датасетов были допущены ошибки при сборе данных.

Авторы делают шаг к решению этой проблемы: они предлагают GraphLand, бенчмарк из 14 графовых датасетов из различных индустриальных приложений. Некоторые датасеты подготовлены на основании открытых источников, а другие собраны специально для бенчмарка из данных нескольких сервисов Яндекса.

GraphLand позволяет сравнивать графовые модели на широком спектре задач. Графовые нейросети дают хорошие результаты и имеют большой потенциал для использования в индустриальных приложениях. В то же время, существующие графовые фундаментальные модели (Graph Foundation Models) показывают слабые результаты, то есть задача разработки таких моделей ещё далека от решения.

Alchemist: Turning Public Text-to-Image Data into Generative Gold

В статье представили новую методологию создания универсальных наборов данных для файнтюнинга (SFT) моделей преобразования текста в изображение (T2I).

Методология использует предварительно обученную генеративную модель YandexART для оценки эффективных обучающих примеров. С её помощью создали датасет Alchemist, содержащий 3350 пар «картинка-текст» и выложенный в открытый доступ.

Этот датасет значительно улучшает качество генерации пяти общедоступных T2I-моделей, сохраняя при этом разнообразие и следование промпту. Веса дообученных моделей также выложены в открытый доступ.

Подробнее о решении мы писали в телеграм канале CV Time.

Results of the Big ANN: NeurIPS'23 competition

Статья основана на результатах конкурса Big ANN Challenge, который прошёл в рамках NeurIPS 2023. Его цель — разработка методов векторного поиска (ANN-поиск) в востребованных практико-ориентированных сетапах.

Рассматривались следующие сценарии: векторный поиск с использованием метаданных; поиск, при котором распределения запросов отличается от распределения базы данных (text-to-image); сетап с регулярно обновляющимися базами данных; а также поиск по спарсовым эмбеддингам.

В публикации подробно описываются эти сетапы, наборы данных, метрики и подходы участников, которые показали значительное улучшение точности и эффективности поиска по сравнению с базовыми методами. Результаты дают представление о современных достижениях и направлениях развития в области ANN-поискa.

💫 По традиции инженеры и исследователи Яндекса поедут на конференцию и будут делиться самым интересным.

#YaNeurIPS25

ML Underhood

Please open Telegram to view this post

VIEW IN TELEGRAM

👍24❤16🔥15😱2👎1👏1

1.6K viewsedited 11:12

ML Underhood

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

Как прошла CIKM 2025: взгляд изнутри

Недавно в Сеуле закончилась международная конференция CIKM 2025. Своими впечатлениями о ней поделился Александр Михеев, руководитель группы разработки сервисов моделей.

Мне впервые довелось съездить на CIKM. Сеул порадовал и золотой тёплой осенью (днём температура поднималась до +19), и хорошо организованной конференцией в центре знаменитого района Гангнам.

Послушал много интересных докладов. Больше всего впечатлили работы от крупных китайских компаний: TikTok, Kuaishou, Alibaba, Meituan, NetEase. В частности, удалось подробно поговорить с коллегами из Kuaishou. Это вторая по популярности платформа для просмотра и загрузки коротких видео в Китае, которая в этом году наделала шума техническим отчётом об их end-to-end-генеративной системе рекомендаций OneRec. На CIKM они представили серию сильных работ, напрямую релевантных направлению развития рекомендательных систем в Яндексе.

Для меня, как представителя ML-инфраструктуры, самым интересным был доклад по статье MARM: Unlocking the Recommendation Cache Scaling-Law through Memory Augmentation and Scalable Complexity. В ней предлагается для трансформерных рекомендательных моделей перенести часть вычислений KV-матриц в офлайн, складывать их в отдельное хранилище и переиспользовать при инференсе в реалтайме. С инфраструктурной точки зрения схема нетривиальна: из-за большого размера KV-матриц возрастает нагрузка на пропускную способность отдельных компонентов — сети и шины памяти. Но при личном разговоре с докладчиком удалось узнать основные приёмы, которые помогают смягчить эти ограничения. Всё протестируем и вернёмся рассказать о них.

Из любопытных впечатлений. Я ехал на конференцию с ощущением, что буду тихо сидеть в углу и смотреть на тяжеловесов с передового края науки (индустриальной, прикладной, академической), до которых нам ещё далеко. А на деле, по многим направлениям уровень наших исследований и инфраструктуры рекомендательных систем не уступает крупным зарубежным компаниям. Мы можем чаще публиковать доклады о наших внедрениях на академических конференциях.

При этом огромная конкуренция в Китае стремительно продвигает индустрию рекомендательных систем вперёд. Поэтому расслабляться однозначно не стоит.

Продолжаем следить за индустрией и рассказывать о главных мировых ML-конференциях.

ML Underhood

❤7👍7🔥6❤‍🔥1

1.42K views08:14

ML Underhood

Всего 38 часов лёту — и мы на NeurIPS в Мехико!

В этом году конференция проходит сразу в двух странах: США и Мексике. Мы будем вести репортажи из обеих, а начём с Мехико, где уже подошёл к концу первый день. Примечательное собрал Дмитрий Быков, руководитель группы AI-планирования робота доставки.

Лететь в Мексику через Китай оказалось очень необычным опытом :) Маршрут проходит через Аляску, и зимой это невероятно красиво: почти всю дорогу из окна был необычный вид на солнце (картинка 1). В отличие от заката, здесь видна другая часть спектра. Кажется, подобное можно увидеть разве что на Северном полюсе или вот так — из самолёта.

В первый день мы посетили большой воркшоп NeurIPS 2025 Workshop on Embodied and Safe-Assured Robotic Systems. Расскажу о том, что запомнилось с него и в целом.

Toward Efficient and Reliable VLMs
for Real-World Autonomous Systems

Работа на тему улучшения VLM. Изначальная идея авторов была максимально простой: часто для получения нужной информации используют несколько разных энкодеров и затем их фьюзят.

В модели LEO исследователи как раз отказались от фьюзинга и получили SOTA по метрикам — но столкнулись с очень долгим инференсом. Ну а в LEO-mini они попытались разобраться, в чём именно проблема фьюза. Оказалось, что если добавить текстовый запрос, модель может понимать, какая информация из каких энкодеров нужна для конкретной задачи.

Однако моделей становилось много, и в работе над Hawaii авторы решили пойти дальше: с помощью CLIP дистиллировали выходы всех энкодеров в один CLIP-энкодер. В результате получилась одна модель с одним энкодером.

Systematizing the Unusual: A Taxonomy-Driven Dataset for Vision–Language Model Reasoning About Edge Cases in Traffic

Рассказ об эдж-кейсах в автономном вождении — причём самых разных типов и причин.

Кейсы авторы собирали вручную из интернета, и на их основе построили онтологию дорожных опасностей и ожидания корректного поведения модели.

Забавно, что было сделано сравнение с GPT-5: в целом видно, что есть прогресс, но при этом текущие метрики проседают. Например, в кейсе с дорогой и коровой (картинка 2) GPT-5 не видит корову, даже если напрямую спросить о ней (при этом на кропе корову распознаёт).

Diversity-Guided Genetic Algorithm for Safety-Critical Scenario Generation in Autonomous Driving Testing

А вот это уже совсем необычная вещь — вызывающая у меня сомнения, но всё же любопытная.

Исследователи решили генерировать сложные сценарии с помощью генетических алгоритмов. У них был набор признаков, и они прямо генетическим алгоритмом смешивали эти признаки, «максимизируя разнообразие».

Имхо: о настоящем разнообразии здесь речи идти не может — потому что разнообразие в таких задачах — это редкие, неожиданные случаи, а не механическая генерация «разнообразных» сцен по шаблону.

Больше о том, что было интересного на тему безопасности и масштабируемости автономного транспорта, написали в канале @DriverNotFound.

#YaNeurIPS25

ML Underhood

❤‍🔥13🔥6❤5😎3

1.28K views15:14

About

Blog

Apps

Platform