Information Retriever

Я простоял у постера 7 часов. Людей было очень много! Кто-то даже подходил со словами, что уже прочитал статью до конференции. В целом я очень доволен, больше рассказывать сегодня нечего :)

Пожалуй, пока для меня это самый крутой момент конференции. Теперь цель — повторить =)

Было довольно забавно говорить ребятам из Гугла что-то в духе “у вас logQ коррекция устарела” :)

4🔥93❤19👍7😁1

2.08K views19:48

Information Retriever

0:30

This media is not supported in your browser

VIEW IN TELEGRAM

ACM RecSys’25, день третий.

1. Утром был keynote от Jure Lescovec, известного специалиста по графовым моделям и одного из авторов GraphSAGE / PinSAGE. Рассказывал про свой стартап kumo.ai; про модель, которую делают — RFM (Relational Foundation Model). Эта модель позволяет взять произвольный набор табличек бизнеса (по сути реляционную бд), построить на их основе граф, затем предсказать какие-то новые ребра в этом графе, либо что-то классифицировать по вершинам. Причём делается это in-context learning’ом, без дообучения модели на графе. Вроде говорят, что прожевывают “billions of records”, но при этом используют pandas, чтобы манипулировать таблицами в оперативной памяти (что в 2025-м году уже нелегально). Под капотом то ли просто многоголовый аттеншн, то ли полноценный трансформер. Графовые данные и in-context примеры как-то преобразуются, “токенизируются”, чтобы можно было подать в трансформер. Еще, из интересного — есть целый предиктивный язык, похожий на SQL, в стиле “PREDICT NEXT(order) FOR users IN (1, 2, 3)”.

Что не понравилось — так это бенчмарки. Они выглядели как попытка продать что-то инвесторам. Рекомендательный бенчмарк, например, выглядел супер невнятно — взяли для сравнения LightGBM, GraphSAGE, NFBNet. Датасеты тоже непонятные (но зато был датасет от avito :) ). Ах да, потом еще выясняется что их RFM модельку файнтюнить все-таки можно, и от этого качество существенно растет. В общем, чувства от доклада немного смешанные =) Еще в related work был небольшой омаж Tabular Foundation Models.

2. Это был день индустриальных статей, на котором было много интересных постеров. Все мои знакомые, павшие духом после первых двух дней конференций, воспряли :) Мне, правда, и от ресерч работ, и от индустрии сильно не хватило фундаментальности. Почти все, что делается (за исключением части RL работ) — выглядит не слишком значительным.

Так как я в прошлом году больше всего активничал именно на индустриальных работах, у меня осталось много знакомых из индустрии. Сегодня кучу из них встретил. Знаете, есть такое ощущение, когда давно не видел человека и хорошо его помнишь, но не уверен, помнит ли он тебя :) Так вот — все помнят!

3. После просмотра постеров я заметил, что их меньше, чем слотов. И решил повесить свой еще раз =) В итоге я еще часа 3-4 простоял с постером сегодня, удалось где-то 10-15 человек посвятить в наши наработки :) Еще один человек, прочитавший нашу статью до конференции, сослался на мой пост на реддите. Он не выглядит популярным, но тем не менее тоже сработал. Если хотите, чтобы ваша работа получила максимальный охват, нужно пользоваться всеми доступными социальными сетями — это совсем не бесполезный труд, даже если на первый взгляд может так показаться.

4. На RecSys традиционно есть social dinner, после которого ночью люди обычно самоорганизуются и идут на караоке. В прошлом году я про караоке не знал и ушел рано, а в этом до него таки добрался. В результате были спеты Creep (Radiohead), Yesterday (Beatles), Do I Wanna Know (Arctic Monkeys), Where Is My Mind (Pixies). Еще кто-то Viva la Vida (Coldplay) заказал, а петь не стал, пришлось помогать… В общем, домой я добрался где-то в 3:30 =)

P.S: напоследок немного инсайдов — следующий RecSys будет в Миннесоте, город Миннеаполис. Будет трудно туда попасть :( И про RecSys, который будет через два года, у меня есть похожая инфа, что он будет в Штатах (если интересно где — ищите сериал White Lotus).

А еще, вроде как ребята из Дипмайнда через пару недель должны дропнуть новую статью про семантические айдишники!

Кстати, на прошлом RecSys их коллеги из соседней команды тизерили DCN-v3 и даже DCN-v4, а статей про них что-то нет — подозрительно?)

🔥19❤13🤩3👍1

2.43K views10:13

Information Retriever

Началось

👀29🔥6🤡1

2.36K views21:03

Information Retriever

ACM RecSys’25, день четвертый.

Сегодня в рамках гугловского симпозиума (это что-то типа мини-сессии от конкретного спонсора на конференции) было очередное выступление от Эда Чи и панельная дискуссия с Эдом, Lichan Hong’ом (это тимлид одной из команд Эда; эта команда занимается LLM x RecSys, например, семантическими айдишниками) и инженерами Ютуба (включая Лукаса, выступавшего на large recsys воркшопе два года назад — см пост).

Доклад был очень похож на прошлогодний (см пост), даже шутки повторялись:
* опять рассказал, как в девяностых сказал научнику (John Riedl), что делать рекомендации для пользователей на основе матрицы user-item фидбека — глупая затея (просчитался, но где)
* опять упомянул, что наработки его команды приносят Гуглу 10 млрд ежегодно, и пошутил, что надо было просить долю вместо зарплаты, когда выходил на работу
* опять упомянул, что один из трех авторов оригинальной seq-to-seq работы (наряду с Суцкевером и Oriol Vinyals) — ресерчер из его команды, Quoc V. Le
* много времени посвятил термину transduction — что он значит (в физике), почему transformer называется transformer
* показал какую-то новую демку Project Astra, на которой мужик чинит велосипед и гладит собаку
* опять говорил про акции. Спросил, купил ли кто-нибудь в аудитории в 2015 году акций NVIDIA на 5000 долларов, нашелся один человек; попросил его купить всем по пиву

Сказал, что мы (рекомендательные инженеры) занимаемся ранжированием, и что ранжирование — это просто сортировка. Что мы все зарабатываем на жизнь с помощью сортировки :)

Еще рассказал, что выход в свет ChatGPT в ноябре 22-го года заставил их срочно выпускать своего чатбота. Что они и так чем-то подобным занимались (долгие годы к этому шли), но выход чатгпт не оставил им возможности аккуратно проресерчить все риски и потенциальные последствия релиза такой технологии. Что через неделю после выхода чатгпт была встреча с Сундаром (CEO Гугла), на которой было много Senior VP и были очень-очень жаркие дискуссии. Сказал, что “OpenAI выпустили джина из бутылки”.

Было чуть-чуть про монетизацию. Что конечно же будут встраивать рекламу; не хочешь рекламу — плати за подписку.

Сказал, что думает, что нормальные квантовые компьютеры появятся в лучшем случае через 10 лет, раньше их ждать не стоит. Но если вдруг появятся — надо срочно продавать все акции =)

На прямой вопрос про потенциальный вред от AI технологий сказал, что мы хотим IA (intelligence augmentation), а не AI. Чтобы нам помогали думать, а не думали вместо нас (звучит почти как тавтология).

Во время конференции также выпала возможность пообщаться с Lichan’ом (тем самым тимлидом LLM x RecSys команды), и видно, что они очень сильно верят в свой подход, когда тюнят LLM на рекомендации. Почти дословная цитата: “моя команда 10 лет занималась дип лернингом для рекомендаций, а теперь мы уже два года делаем LLM, потому что верим, что за этим подходом будущее”.

Еще на панельной дискуссии Эд упомянул, что Lichan вчера попросил его посмотреть манускрипт с новой статьей про семантические айдишники. Видимо, он сначала пообещал нам выпустить новую статью в ближайшие две недели, и сразу пошел ее доделывать =)

P.S: знакомый из Гугла меня своим коллегам представляет как “автора той самой статьи про LogQ”. Теперь я официально амбассадор LogQ-коррекции. Если на вашей вечеринке нужно про нее рассказать — зовите :)

1👍28🔥18❤8

3.41K views23:46

Information Retriever

ACM RecSys 2025.

Серия постов про рексис’25 подошла к концу. Напоследок хочу чуть-чуть попиарить другие каналы, освещавшие конференцию. Есть как минимум три личных канала — Никиты, Лёши, Саши. Все трое приехали на конференцию со своими статьями, и заодно решили для вас ее осветить :)

Если хочется более хардовых постов, то есть корпоративные каналы с разборами статей с конференции — от Яндекса и от vk.

За фотографию спасибо Ване Романову @irrmnv. Ваня, кстати, работает в Яндексе и наверняка нанимает к себе заниматься рекомендательными системами :)

❤17🔥10👍4😢1

2.42K viewsedited 10:53

Information Retriever

Большая новость в мире рекомендаций — Александр Геннадьевич Дьяконов, не нуждающийся в представлении, собирает команду, целью которой будет делать рексис ресерч (публиковаться на конфах), выигрывать соревнования, заниматься оупенсорсом и так далее.

Что-то подобное я в свое время пытался сделать в своей команде. Круто, что есть такая инициатива, надеюсь все больше и больше компаний будет на такое выделять ресурсы!

За подробностями можно писать Александру Геннадьевичу в личку — @AlexanderDY.

43❤41🔥38😁6🤡3

3.14K viewsedited 14:30

Information Retriever

Теперь можно прямо в ChatGPT попросить музыкальные рекомендации от Spotify. Круто!

Здесь, на самом деле, сразу два интересных аспекта — и сами “разговорные” рекомендации (самое интересное направление рекомендаций в данный момент, if you ask me), и тот факт, что ChatGPT постепенно становится эдаким “единым” источником рекомендаций; кажется, еком-рекомендации они уже тоже подключили — как минимум, сделали интеграцию с Etsy и Shopify (ссылка).

🔥15🤯5

3.55K viewsedited 15:58

Information Retriever

PLUM: Adapting Pre-trained Language Models for Industrial-scale Generative Recommendations.

А вот и обещанная новая статья про семантические айдишники от Google. Много подробностей про то, как подружить LLM и рекомендательные системы; на примере прода Ютуба.

1. Улучшили семантические айдишники:
* теперь семантический энкодер принимает на вход не единое векторное представление айтема, а “мультимодальное” — несколько векторов, соответствующих разным контентным сигналам (модальностям), e.g. отдельный вектор для названия, описания, видео и тд (здесь конкретики по модальностям нет, я чуть фантазирую)
* multi-resolution codebook — раньше у них был один общий кодбук на все шаги генерации семантических айдишников. Теперь утверждают, что на каждом новом шагу генерации нужно кодировать “остаточную” энтропию с прошлых шагов, поэтому можно на каждом уровне уменьшать размер используемого кодбука
* progressive masking — при обучении RQ-VAE случайным образом маскируют хвост семантических айдишников, то есть больше фокусируются на ранних уровнях айдишников. Утверждают, что таким образом форсится более сильная иерархичность айдишников
* добавили contrastive learning на со-встречаемость айтемов — сближают айтемы, которые встречаются рядом в истории пользователя. То есть теперь при обучении RQ-VAE учитывается коллаборативный сигнал

2. Описали CPT (continuous pre-training) стадию:
* стартуют с предобученной LLM (Gemini)
* половину датасета строят из behavioral данных — последовательностей просмотров пользователей (и, видимо, предсказывают следующий просмотр)
* вторую половину — из метаданных айтемов (задачи а-ля ‘У видео <sid> следующее название: <название>’)
* по мере обучения смотрят и как растет качество рекомендаций (первая задача), и насколько хорошо модель восстанавливает метаданные (вторая задача), и как сильно деградируют способности естественного языка модели

3. Есть и третья, SFT (supervised fine-tuning) стадия:
* подают на вход модели watch history | user features | context features
* учат ее в ответ генерировать семантические айдишники нужного айтема
* учатся не на всех айтемах, а как-то сэмплируют их исходя из награды (фидбека пользователя), и еще взвешивают лосс на этот фидбек

4. Про прод:
* используют модель для генерации кандидатов
* используют beam search; говорят, что он по качеству лучше чем случайное декодирование, но теряет в разнообразии (логично)
* модель дообучают; говорят, что модель гораздо более sample efficient, чем их прошлое поколение — ежедневно используют для дообучения 250 млн сэмплов, когда прошлые модели использовали миллиарды
* длина контекста — 1500 токенов, что примерно соответствует сотне последних просмотров пользователя
* в A/B тесте добавили свою модель как новый источник кандидатов, сравниваются с контролем, в котором увеличили количество кандидатов (чтобы оно было равное в обеих группах) — показывают приросты по метрикам и для шортсов, и для обычных YouTube видеороликов
* их прошлая флагманская продовая модель — трансформер над историей пользователя. Когда ее упоминают, ссылаются на Top-K REINFORCE работу (в которой был RNN-based генератор кандидатов)

Что еще могу выделить:
* проверили скейлинг модели, но по-умному — зафиксировали бюджет на compute и смотрели какого размера модель выгодней взять; получилось, что 900M выгодней 3B
* инициализация модели с LLM-чекпойнта (с Gemini) докидывает не очень много качества. НО: добавляет few-shot способности — в конце статьи есть пара примеров, когда модель отвечает на вопросы, на которые ее не учили, в стиле “а какая тема у <sid>”. Модель без LLM претрейна такое не умеет
* в related work цитируют OneRec как пример работы с семантическими айдишниками
* длина истории конечно все еще очень маленькая, 100 событий. Это подозрительно. Я на RecSys подходил и спрашивал про это, Lichan Hong ответил что-то типа “у нас есть модели и с большой длиной истории”. Но статьи они что-то про них не пишут :)

🔥25❤3

3.94K views10:58

About

Blog

Apps

Platform