Information Retriever

Forwarded from DS League

#recsys #dataset #news
VK-LSVD: Large Short-Video Dataset

Особенный домен
Я пришел в RecSys из CV, где публичным бенчмаркам можно было доверять: результаты из научных статей хорошо коррелировали с продом. Поэтому, возглавив RecSys R&D, я предложил стратегию экспериментов с SotA моделями из академических статей, но практически на все предложения услышал: “уже пробовали, на нашем масштабе прироста нет”.

Различия в методах валидации и доступности данных в академии и индустрии оказались внушительными. И хотя сейчас ситуация чуть лучше, RecSys всё ещё сильно отстаёт от CV/NLP.

Что предлагает сообщество?
Многие из выкладываемых датасетов содержат только то, что можно спарсить самостоятельно (например, отзывы и контент, как в Amazon Reviews, MovieLens или MicroLens). Однако ключевые сигналы для рекомендаций индустриальные системы получают вовсе не из отзывов.

Netflix, сильно забустивший индустрию, после знаменитого соревнования погряз в судебных процессах и перестал публиковать свои данные.

Интересные датасеты выкладывают Tencent (Tenrec) и Kuaishou (KuaiRec). Но несмотря на сотни миллионов DAU их сервисов, эти данные все еще очень далеки от индустриальных масштабов.

Что решил сделать я?
Я опубликовал самый близкий к индустриальным масштабам рекомендательный датасет VK-LSVD с 40В взаимодействий. Второй по размеру сейчас MLHD с 27B взаимодействий, а замыкает тройку свежая Yambda на 4.79B записей логов.

Ключевые отличия VK-LSVD
40B взаимодействий. Упорядоченные по времени данные за 6 месяцев, которые включают и просто показы без реакций.
7 видов фидбека. Кроме привычного таймспента есть лайки, открытия комментов, шэры, закладки, дизлайки, клики на автора.
3 вида контекста. Место взаимодействия (лента, поиск, группы,…), платформа (десктоп, тв, смартфон,…), агент (тип браузера, клиента в приложении,…).
20M айтемов. Для каждого клипа известен автор, длительность и контентный эмбеддинг (недавно рассказывали, как их варим).
10M пользователей. С возрастом, полом и гео.
Кастомный сабсемплинг. В индустрии часто приходится решать задачу согласованности оффлайн-метрик с онлайн-результатами для ускорения проверки гипотез. Академия может помочь нам с исследованием стратегий семплинга, результаты которых хорошо соотносятся с метриками на больших выборках.

Почему именно клипы?
В работе мне доступно много форматов (от музыки до знакомств), но именно клипы выглядят самыми подходящими для бенчмаркинга.

Во-первых, в один момент времени на экран помещается один клип, что сильно упрощает атрибуцию фидбека: скип в клипах более осознанный сигнал, чем на витрине из 9 длинных видео, часть которых пользователь даже не заметил.

Во-вторых, в этом формате практически отсутствует фоновое потребление, которое добавляет шум в других видах контента: например в музыке, действительно ли дослушанный пятый из десяти трек в сессии это позитивный сигнал?

В-третьих, удобный интерфейс и десятки просмотров за сессию дают системе много фидбэка.

Все это повышает точность оффлайн-оценки алгоритмов и позволяет добиваться лучшей корреляции с онлайном. Кроме того, выводы, полученные на клипах, хорошо обобщаются и на другие форматы (что мы наблюдали с DB&NWT).

Что дальше?
Датасет готов к вашим экспериментам, впереди еще статья и масштабное соревнование, так что stay tuned.

@ds_league

❤35👍19🥱2

3.08K views14:27

Information Retriever

RecSys Summer School, день первый.

На этой неделе перед основной конференцией ACM RecSys проходит летняя RecSys школа в Вене, большую часть которой составляют лекции различных профессоров / ресерчеров.

Для меня это возможность научиться чему-то новому, набрать побольше материала для собственного курса по рексису, понетворкаться, а также потусить целую неделю в Вене :)

Что интересного было в первый день:

1. Dietmar Jannach, один из самых цитируемых ученых в RecSys, выступил с вводной лекцией про рекомендательные системы: про их ценность, алгоритмы, оценку качества. С такой лекцией он выступает уже не первый раз, презентации прошлых лет есть в открытом доступе.

Приводил много разных фактов про пользу рексистем. Например, (1) 35% выручки Амазона атрибуцируется рексистемам, (2) а в Нетфликсе говорят, что с помощью персонализации и рексистем “экономят” больше миллиарда долларов в год.

Интересно было послушать и про историческое развитие области:
* в 1992 году в статье Using collaborative filtering to weave an information tapestry впервые был упомянут термин “Collaborative Filtering”
* в 1994 появился первый кейс индустриальной рексистемы (GroupLens, рекомендация новостей), статья GroupLens: an open architecture for collaborative filtering of netnews
* в 2003 Амазон опубликовал статью про Item-to-Item Collaborative Filtering
* потом состоялся небезызвестный Netflix prize (2006 — 2009), в рамках которого Нетфликс выложил самый большой на тот момент рекомендательный датасет с пользовательскими рейтингами фильмов. Про это есть хороший рассказ от CPO Нетфликса на рексисе в 2014 году (тык)
* позже от задачи предсказания рейтингов перешли к learning-to-rank парадигме, стали использовать implicit feedback (время просмотра, клики и тд). Активно использовали матричную факторизацию
* сейчас царит deep learning, про использование которого в рексистемах ваш покорный слуга аж четыре лекции в ШАДе в прошлом учебном году читал, и в этом планирует прочитать еще больше :)

Ссылался на большое количество хороших статей (ссылки можно найти в презентации). Жаловался, что ресерчеры тюнят гиперпараметры только для своих моделей, а для бейзлайнов не тюнят. Что нечестно фиксировать одинаковую небольшую размерность выходных эмбеддингов для обычной матричной факторизации (с обучаемыми векторами пользователей и айтемов) и нейросетей, так как у матричной факторизации становится сильно меньше параметров при уменьшении размерности эмбеддингов.

Упоминал beyond accuracy метрики (статья Beyond accuracy: evaluating recommender systems by coverage and serendipity).

Fun fact: в какой-то момент Dietmar занимался рексистемой для премиальных кубинских сигар =)

2. Barry Smyth (h-index 85!) выступил с рассказом по мотивам статьи People Who Liked This Also Liked ... A Publication Analysis of Three Decades of Recommender Systems Research, в которой приводится аналитика по всем RecSys публикациям за ближайшие 30 лет. Также он немного дополнил рассказ про историю рексистем, показал статью аж 1990 года от Jussi Karlgren под названием An Algebra for Recommendations, в которой уже говорится про моделирование пользовательского поведения и предсказание будущего пользователей. Еще показал очень красивое издание Communications of the ACM 1997-го года, special issue on recommender systems (картинку прикладываю).

Получилось, что за последние 30 лет появилось порядка 50к статей про рекомендательные системы.

А сегодня, во второй день школы, были лекции по психологии, графовым нейронным сетям, а также про оффлайн оценку качества рексистем. Но про это расскажу чуть позже :)

❤50🔥24🤔2🐳2

2.86K views21:28

Information Retriever

Best Practices for Offline Evaluation.

Под оффлайн-оценкой качества рекомендаций подразумевается типичный для ресерча процесс (присутствует в 87% RecSys’23 статей), когда мы берем датасет с пользовательским фидбеком, сплитим на train/valid/test, замеряем метрики на тесте.

Ниже идет моя вольная интерпретация лекции от Lien Michiels на RecSys Summer School:

1. Большая часть ресерч статей — это “мы увеличили ndcg / recall на датасете X на 0.0Y% и побили SOTA”. Этим улучшениям нет доверия. По ходу школы неоднократно шутили, что если бы можно было просуммировать зарепорченные приросты из всех статей, побивших соту, то мы бы давно вышли за верхние границы метрик. Есть непаханое поле для более осознанного ресерча — задайте stakeholder’ов (например, кроме пользователей это могут быть content creator’ы, сама платформа), сформулируйте реалистичный objective (e.g., хотим не только поднять точность для пользователей, но и поднять exposure по content creator’ам).

2. Запускайте эксперименты несколько раз (с зафиксированными сидами), выкладывайте весь код — не только код метода, но и код запуска экспериментов, включая бейзлайны; и даже код тюнинга гиперпараметров.

3. Используйте публичные датасеты, при этом выбирайте наиболее большие и свежие.

4. Очень популярна n-core фильтрация, когда из датасета фильтруются все пользователи и айтемы с менее чем n взаимодействиями. Не нужно делать ее просто так; повторение за другими статьями — не обоснование.

5. Не используйте совсем рандомные дата сплиты (это лик).

6. Всегда перезапускайте бейзлайны (на своих машинках), не копируйте результаты из других статей.

7. Используйте сильные бейзлайны. Например, в статьях часто используют BPRMF (матричная факторизация с BPR-лоссом), а EASE — редко . А метрики у него выше :)

8. Используйте beyond accuracy метрики — например, coverage (насколько ваш алгоритм своими рекомендациями покрывает весь каталог; для кандгена актуально); время работы алгоритма.

9. Нужно тюнить все модели (и все гиперпараметры), а не только свои. Включая бейзлайны!

10. Считайте метрики без сэмплирования негативов.

11. Зачастую, если пофильтровать из рекомендаций то, что у пользователя в истории уже встречалось, можно поднять метрики. Это нормально, но если так делаете — нужно явно писать (сейчас часто не пишут).

С некоторыми моментами на лекции я не совсем согласен, и поэтому про большую часть из них выше ничего не писал:

1. На лекции говорилось, что в некоторых ситуациях отсутствие таймсплита для эвала — это нормально. Что это зависит от домена (например, в музыке таймсплит менее необходим чем в новостях), и что иногда для таймсплита недостаточно данных. Я считаю что тайм сплит нужен абсолютно всегда, даже в доменах типа музыки. Еще был кусочек про user split, что если в тест и трейн класть непересекающихся пользователей, то будем проверять strong generalization. Это совсем не соответствует сценарию реального применения.

2. Также было сказано, что если все-таки сэмплируете негативы для метрик, то надо сэмплировать их пропорционально популярности (а не равномерно). Это тоже не соотвествует сценарию применения.

3. В качестве примера хорошей метрики приводился ndcg (на сэмплированных айтемах / индексе). Но он ничего информативного не измеряет. Если вы обучаете модель для стадии отбора кандидатов, то нужно смотреть на полноту (Recall@K), причем с большими значениями K. Если для ранжирования — надо замеряться не против случайных айтемов, а против других показанных в той же выдаче объектов (impression’ов). По крайней мере, так делают все в индустрии, и это хорошо работает.

4. С тюнингом размерности эмбеддингов тоже не совсем согласен — в зависимости от сценария применения это может быть не целесообразно. Например, если вы пересчитываете векторы пользователей в оффлайне и загружаете в key-value storage, то у вас есть ограничения по памяти. На практике для одной модели редко когда можно хранить больше 100-1000 квантизованных флотов на пользователя.

И прикладываю пару фотографий с этого дня школы :)

🔥34👍18❤12💯5

1.92K views20:47

Information Retriever

RecSys Summer School, часть 3.

1. Рассказ про лекцию по психологии давайте скипнем :)

2. Лекция по GNN была хорошая, но очень академическая. Ничего не было про web-scale, про то как работать с большими графами и тд. TLDR: графовые модели очень выразительны, задачу рекомендаций удобно моделировать в виде графа, с помощью графовой структуры легко учитывать коллаборативный сигнал, графовые свертки по сути представляют из себя фильтры низких частот (если рассматривать каждую вершину в графе как сигнал).

3. Также выступал один из авторов статьи про CO2 в рексистемах с прошлого рексиса, Alan Said. Привел пример, когда в статье предложили алгоритм, увеличивающий ndcg на 0.05, но при этом также увеличивающий потребление энергии на 1.75kWh (что равносильно одному запуску посудомойки). Предложил выключить дип лернинг в стриминге, но оставить в екоме. Сказал, что нужно запускать эксперименты в первую очередь в странах с renewable energy, и что в этом плане худшая страна для экспериментов — это Австралия (а хорошие — это Дания, Швеция). Про еком логика следующая: каждый возврат вещи — это большое количество логистики, много езды на машине. Привел пример, что в Австрии у Заландо 400к активных пользователей и миллион покупок в год, из которых 35% возвратов.

Также чуть-чуть упомянул fairness, что у всех пользователей и групп должен быть одинаковый доступ к “благам” рексистемы. Упомянул статью, в которой показали, что равенство для групп может приводить к неравенству для отдельных людей. Также говорил про то, что у fairness очень много разных определений, у научного сообщества нет консенсуса как его определять, и что это нормально.

4. Была хорошая лекция про генеративный рексис, но тоже довольно академическая. Мне точно пригодится, чтобы доделать собственную лекцию (в прошлом году я эту тему постарался покрыть в финальной лекции recsys курса, про тренды). В рамках лекции было два рассказчика, второй рассказывал что-то про агентов и стартапы. Был слайд с лабубу :) Упоминал “The society of mind” от Marvin Minsky в контексте мульти-агентности.

5. Kim Falk попиарил свою книжку Practical Recommender Systems и заодно побеседовал про специфику индустриальных рексистем. Лекция была довольно поверхностная (скорее очередная вступительная лекция) и при этом видно, что Ким не сильно много работал с дип лернингом в индустрии и скорее много занимался классическими алгоритмами.

Был кусочек про то, как правильно работать с датасетами: что датасеты нужно фиксировать, обновлять их пореже; только когда нужно что-то добавить. Что при обновлении датасета мы теряем валидность сравнения экспериментов. Но и что когда близится внедрение, датасет конечно же надо обновить.

Рассказал забавный пример про LLM — спрашивал у чатгпт рекомендации книжек по рексистемам, она выдала список, в котором не было его книги. После комментария про то, что его книга тоже хорошая, попросил рекомендации снова. И тогда LLM выдала список уже и с его книгой тоже =)

В общем и целом лекция скорее напоминала набор разрозненных не сильно связанных тезисов: в рексистемах никогда нет GT (истинных меток), клик на менее популярный айтем несет больше ценности, что персонализация — это по определению дискриминация, и тд.

6. Morten Arngren прочитал лекцию про A/B тестирование, в частности про Bayesian методы и про бандитов для A/B. В лекции не было recsys специфики (например, не проговаривалось что обычно деление на группы происходит по пользователям). Были довольно красивые визуализации, основанные на симуляциях, наглядно показывающие как меняются распределения оцениваемых величин с ростом размера выборки.

7. Лекцию про CRS (conversational recommender systems) от Li Chen лично мне было тяжело слушать :). Вообще, некоторые лекции были очень “энциклопедические” — происходило сухое безэмоциональное перечисление каких-то подходов, методов, их категоризаций. Часто не было единого нарратива через всю лекцию, глубоких инсайтов.

Символы кончились, продолжение следует :) Пишу для вас посты в поезде, пока еду из Вены в Прагу :)

❤24😁6

1.46K viewsedited 12:31

About

Blog

Apps

Platform