Возвращаемся на ICML 2025
Собрали ещё несколько интересных работ вдогонку прошедшей конференции. Сегодня — об оптимизации больших моделей, новых SGD-подходах и работе на тему conformal prediction.
The Surprising Agreement Between Convex Optimization Theory and Learning-Rate Scheduling for Large Model Training
Крайне любопытная теоретическая статья, показывающая (без доказательства — прямо на постере: «we don't know why»), что график лоссов LLM-претрейна с cosine и WSD lr-шедулерами выглядит практически так же, как график теоретических верхних оценок расстояния финальной точки оптимизации от точки оптимума для выпуклых негладких задач при использовании SGD с cosine/WSD-шедулерами. Что ещё любопытнее — теоретические оценки выводятся для SGD, однако графики LLM-претрейна авторы запускали с Adam — использование адаптивных оптимизаторов ведёт к таким же результатам. Авторы также утверждают, что шедулер WSD удобнее для экспериментов со scaling law.
General framework for online-to-nonconvex conversion: Schedule-free SGD is also effective for nonconvex optimization
Статья берёт новый алгоритм оптимизации Schedule-Free из работы The Road Less Scheduled, демонстрировавшей лучшие на момент публикации результаты в бенчмарке методов оптимизации, и разрабатывает инструменты для теоретического анализа в невыпуклых случаях. Идея Schedule-Free в том, что большинство шедулеров на самом деле похожи на усреднение итераций — алгоритм выглядит схожим образом, как хитрое усреднение параметров итераций. Достоинство подхода — алгоритму не нужно наперёд знать число итераций T для задания расписания шедулера. Текущая статья — теоретическая работа, показывающая, как алгоритм ведёт себя в невыпуклых сценариях. Значительное количество статей по методам оптимизации доказываются для задачи онлайн-обучения в терминах regret — в данной статье авторы также решили воспользоваться достоинствами regret-формулировок для анализа.
Decision Theoretic Foundations for Conformal Prediction: Optimal Uncertainty Quantification for Risk-Averse Agents
На конференции было как минимум 10 (а скорее — больше) статей на тему conformal prediction — её сейчас активно исследуют. Conformal prediction — когда модель предсказывает не один label, а множество, и нужно предсказать такое множество, которому с заданной уверенностью принадлежит правильный ответ. Мы пообщались с автором этой работы — он подробнее рассказал о подходе, математических идеях, а также о том, как эти идеи соотносятся с реальными задачами. Выглядит как хорошая точка входа, чтобы разобраться в теме.
Интересное отобрал❣ Алексей Морозов
ML Underhood
#YaICML25
Собрали ещё несколько интересных работ вдогонку прошедшей конференции. Сегодня — об оптимизации больших моделей, новых SGD-подходах и работе на тему conformal prediction.
The Surprising Agreement Between Convex Optimization Theory and Learning-Rate Scheduling for Large Model Training
Крайне любопытная теоретическая статья, показывающая (без доказательства — прямо на постере: «we don't know why»), что график лоссов LLM-претрейна с cosine и WSD lr-шедулерами выглядит практически так же, как график теоретических верхних оценок расстояния финальной точки оптимизации от точки оптимума для выпуклых негладких задач при использовании SGD с cosine/WSD-шедулерами. Что ещё любопытнее — теоретические оценки выводятся для SGD, однако графики LLM-претрейна авторы запускали с Adam — использование адаптивных оптимизаторов ведёт к таким же результатам. Авторы также утверждают, что шедулер WSD удобнее для экспериментов со scaling law.
General framework for online-to-nonconvex conversion: Schedule-free SGD is also effective for nonconvex optimization
Статья берёт новый алгоритм оптимизации Schedule-Free из работы The Road Less Scheduled, демонстрировавшей лучшие на момент публикации результаты в бенчмарке методов оптимизации, и разрабатывает инструменты для теоретического анализа в невыпуклых случаях. Идея Schedule-Free в том, что большинство шедулеров на самом деле похожи на усреднение итераций — алгоритм выглядит схожим образом, как хитрое усреднение параметров итераций. Достоинство подхода — алгоритму не нужно наперёд знать число итераций T для задания расписания шедулера. Текущая статья — теоретическая работа, показывающая, как алгоритм ведёт себя в невыпуклых сценариях. Значительное количество статей по методам оптимизации доказываются для задачи онлайн-обучения в терминах regret — в данной статье авторы также решили воспользоваться достоинствами regret-формулировок для анализа.
Decision Theoretic Foundations for Conformal Prediction: Optimal Uncertainty Quantification for Risk-Averse Agents
На конференции было как минимум 10 (а скорее — больше) статей на тему conformal prediction — её сейчас активно исследуют. Conformal prediction — когда модель предсказывает не один label, а множество, и нужно предсказать такое множество, которому с заданной уверенностью принадлежит правильный ответ. Мы пообщались с автором этой работы — он подробнее рассказал о подходе, математических идеях, а также о том, как эти идеи соотносятся с реальными задачами. Выглядит как хорошая точка входа, чтобы разобраться в теме.
Интересное отобрал
ML Underhood
#YaICML25
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍5🔥5
Media is too big
VIEW IN TELEGRAM
Теперь вы знаете, кому сказать спасибо за прямые включения с KDD 2025
В начале августа в Торонто прошла KDD 2025 — конференция о поиске знаний и анализе данных:
— Обзор свежих публикаций читайте в Рекомендательной.
— Главные цифры конференции и лучшие работы ищите в Душном NLP.
Запомнил и записал для вас всё самое интересное один из наших коллег — инженер Сергей Мить. Именно его портрет рисует роборука на видео выше.
Привёз вам новости❣ Сергей Мить
ML Underhood
В начале августа в Торонто прошла KDD 2025 — конференция о поиске знаний и анализе данных:
— Обзор свежих публикаций читайте в Рекомендательной.
— Главные цифры конференции и лучшие работы ищите в Душном NLP.
Запомнил и записал для вас всё самое интересное один из наших коллег — инженер Сергей Мить. Именно его портрет рисует роборука на видео выше.
Привёз вам новости
ML Underhood
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🥰4🔥1👀1
И ещё несколько кадров, чтобы проникнуться атмосферой конференции.
P. S. KDD 2026 анонсировали в Южной Корее: надеемся, про «Игру в кальмара» они просто шутят!
ML Underhood
P. S. KDD 2026 анонсировали в Южной Корее: надеемся, про «Игру в кальмара» они просто шутят!
ML Underhood
❤11🔥7👍6🤩1
Self-rewarding Language Models
Сегодня разберём статью о том, как научить языковую модель самостоятельно оценивать качество своих ответов и итеративно улучшаться за счëт этого.
Direct Preference Optimization (DPO)
Раньше большие языковые модели учили примерно так:
1. Предобучение без учителя на огромном корпусе текстов;
2. SFT — supervised fine-tuning;
3. Создание датасета предпочтений (сравнение качества нескольких гипотез LLM между собой вручную);
4. Обучение reward-модели на датасете предпочтений.
5. RL — reinforcement learning.
Метод DPO (Direct Preference Optimization) предлагает заменить обучение reward-модели и RL на supervised fine-tuning LLM на датасете предпочтений с некоторой лосс-функцией (подробнее в оригинальной статье про DPO).
Метод авторов статьи
Авторы предлагают учить LLM не только отвечать на вопросы пользователя (instruction following), но и оценивать эти ответы с помощью механизма LMM-as-a-Judge. Благодаря этому можно автоматизировать создание датасета предпочтений.
Более подробно, взяв предобученную модель M₀, делают еë supervised fine-tuning на instruction following (IFT данные) + оценивание качества ответа (EFT данные) — и так получают модель M₁. Далее начинается итеративный процесс, при котором:
1. Модель Mᵢ сама генерирует датасет предпочтений (генерирует гипотезы и оценивает их) обозначаемый AEFT(Mᵢ);
2. Модель Mᵢ дообучается на AEFT(Mᵢ) с помощью DPO — так получаем новую модель Mᵢ₊₁.
Весь процесс выглядит так:
M₀ — предобученная LLM без fine-tuning.
M₁ — модель, инициализированная M₀, а после дообученная на IFT+EFT в режиме supervised fine-tuning.
M₂ — модель, инициализированная M₁ и дообученная на AEFT(M₁) в режиме DPO.
M₃ — модель, инициализированная M₂ и дообученная на AEFT(M₂) в режиме DPO.
Авторы утверждают, что метод не только помогает нейросетям лучше справляться с инструкциями, но и улучшает их способности к оцениванию ответов. Доработав Llama 2 70B на трёх итерациях этого подхода, они получили модель, которая превосходит многие существующие системы в таблице лидеров AlpacaEval 2.0: например, Claude 2, Gemini Pro и GPT-4 0613.
Более подробно итерации обучения, применяемые в подходе, описали в канале «Душный NLP».
Разбор подготовил❣ Никита Фёдоров
ML Underhood
Сегодня разберём статью о том, как научить языковую модель самостоятельно оценивать качество своих ответов и итеративно улучшаться за счëт этого.
Direct Preference Optimization (DPO)
Раньше большие языковые модели учили примерно так:
1. Предобучение без учителя на огромном корпусе текстов;
2. SFT — supervised fine-tuning;
3. Создание датасета предпочтений (сравнение качества нескольких гипотез LLM между собой вручную);
4. Обучение reward-модели на датасете предпочтений.
5. RL — reinforcement learning.
Метод DPO (Direct Preference Optimization) предлагает заменить обучение reward-модели и RL на supervised fine-tuning LLM на датасете предпочтений с некоторой лосс-функцией (подробнее в оригинальной статье про DPO).
Метод авторов статьи
Авторы предлагают учить LLM не только отвечать на вопросы пользователя (instruction following), но и оценивать эти ответы с помощью механизма LMM-as-a-Judge. Благодаря этому можно автоматизировать создание датасета предпочтений.
Более подробно, взяв предобученную модель M₀, делают еë supervised fine-tuning на instruction following (IFT данные) + оценивание качества ответа (EFT данные) — и так получают модель M₁. Далее начинается итеративный процесс, при котором:
1. Модель Mᵢ сама генерирует датасет предпочтений (генерирует гипотезы и оценивает их) обозначаемый AEFT(Mᵢ);
2. Модель Mᵢ дообучается на AEFT(Mᵢ) с помощью DPO — так получаем новую модель Mᵢ₊₁.
Весь процесс выглядит так:
M₀ — предобученная LLM без fine-tuning.
M₁ — модель, инициализированная M₀, а после дообученная на IFT+EFT в режиме supervised fine-tuning.
M₂ — модель, инициализированная M₁ и дообученная на AEFT(M₁) в режиме DPO.
M₃ — модель, инициализированная M₂ и дообученная на AEFT(M₂) в режиме DPO.
Авторы утверждают, что метод не только помогает нейросетям лучше справляться с инструкциями, но и улучшает их способности к оцениванию ответов. Доработав Llama 2 70B на трёх итерациях этого подхода, они получили модель, которая превосходит многие существующие системы в таблице лидеров AlpacaEval 2.0: например, Claude 2, Gemini Pro и GPT-4 0613.
Более подробно итерации обучения, применяемые в подходе, описали в канале «Душный NLP».
Разбор подготовил
ML Underhood
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11❤🔥9🔥5❤2👀1
Впечатления от первого дня RecSys 2025
В Праге проходит конференция RecSys 2025 — и мы по традиции ведём репортаж с мероприятия. Первыми впечатлениями с нашим каналом поделился Иван Романов из Яндекс Путешествий. Слово Ивану:
ML Underhood
В Праге проходит конференция RecSys 2025 — и мы по традиции ведём репортаж с мероприятия. Первыми впечатлениями с нашим каналом поделился Иван Романов из Яндекс Путешествий. Слово Ивану:
Прошёл первый день RecSys, посвящённый в основном воркшопам. Первые доклады разочаровали: много воды в духе «за хорошие рекомендации против плохих». Хотел уйти, но попасть на CARS (Context-Aware RecSys) было сложно, поэтому остался на вторую часть — и не зря: стало интереснее.
Несмотря на, как мне кажется, индустриальное название самого воркшопа, большинство статей было академическими, и некоторые — сильно оторваны от реальности.
Одному человеку пришлось перейти от задачи с персонализацией — sasrec/argus-like арх-рой — к choice modeling, и он долгое время аудитории объяснял, зачем использовал что-то вроде feature tokenize transformer для своей задачи. И правда, зачем? Думаю, чтобы самому было интереснее — на графиках от скейла трансформера метрика не росла: layers=1, head=1, dim=16 давал по сути топовый результат.
Был обзор статьи KP4POI: файнтюнят LLM, промптируют посещённые места и после спецтокена ожидают новые POI (points of interest). Ничего особенного, просто отметить что LLM-based RecSys набирает обороты. В тайтле статьи есть «on Large-scale Datasets», но на одном из слайдов было что-то вроде про 5–10 тыс. пользователей.
Многие работают над своими агентами для построения маршрутов путешествий с персонализацией. Показали две демки, и ни в одной не было Чехии, что странно — можно же было всем посетителям конференции попиарить приложение. А другая демка (CityRiddler) была только по Вене, где до конференции я провёл чудесный день. Маршрут по городу и нескольким музеям мне составил ChatGPT, вот и у спикеров напросился вопрос: «А не работает ли уже это out of the box в ChatGPT и нужен ли продукт в целом, если это только промпт?»
Если не агентами богаты и LLM не тюним, то тогда RAG. Здесь, несмотря на скепсис, был очень классный слайд от одного из спикеров: «LLM as a judge» (можно оценивать не только релевантность ответа запросу, но и, например, вопросом «were retrieved chunks actually relevant» считать что-то вроде Precision). Не знаю, насколько рабочая конфигурация и не будет ли 100% корреляции скоров «судьи» под каждую из задач (recall, precision, faithfulness, answer relevancy).
А ещё среди докладов обнаружил вот такую интересную идею — взяли Mixup из image augmentation и применяют над пользовательскими векторами. Эффект есть, но метрики были странные.
ML Underhood
🔥12❤4👍3
Александр Плошкин выступил на ACM RecSys 2025 с oral'ом о датасете Yambda! Рассказывали о нём в Рекомендательной. Поздравляем ребят!
ML Underhood
ML Underhood
❤27🔥13👍1
POV: вы пережили открытие RecSys 2025 и вернулись туда на следующий день
Продолжаем рассказывать, как проходит RecSys 2025 — девятая международная конференция о рекомендательных системах в Праге. В предыдущих сериях: TL;DR интересных статей и суммаризация воркшопов в Рекомендательной, а также таймлайн первого дня от Ивана Романова, нашего коллеги из Яндекс Вертикалей. Сегодня снова передадим слово Ивану: попросили его поделиться впечатлениями о втором дне конференции.
ML Underhood
Продолжаем рассказывать, как проходит RecSys 2025 — девятая международная конференция о рекомендательных системах в Праге. В предыдущих сериях: TL;DR интересных статей и суммаризация воркшопов в Рекомендательной, а также таймлайн первого дня от Ивана Романова, нашего коллеги из Яндекс Вертикалей. Сегодня снова передадим слово Ивану: попросили его поделиться впечатлениями о втором дне конференции.
От второго дня конференции (он же первый «основной») у меня были заниженные ожидания: по опыту прошлых RecSys, сильнее всего запоминаются открывающий и закрывающий дни, когда в расписании есть воркшопы. Но всё оказалось лучше, чем я рассчитывал!
В аудитории с постерами постоянно бурлили интересные дискуссии. Мои коллеги, авторы работы Correcting the LogQ Correction, до последнего не снимали постер в ожидании Xinyang Yi, автора оригинальной статьи с LogQ. У меня тоже есть свои кумиры: повезло не только пообщаться с ребятами из Pinterest, но и задать вопросы одному из авторов статьи про PinFM.
Абсолютным фаворитом этого дня для меня стал постер от Amazon Music: Off-Policy Evaluation of Candidate Generators in Two-Stage Recommender Systems. Если коротко, авторы попытались замерить качество кандидатогенерации. Делать это на текущих пользовательских логах, на которые воздействует текущий КГ, неправильно из-за sample bias. А держать бесконечный рандомный сбор даже на 1% трафика — дорого. На помощь приходит off-policy evaluation: оценка политики на основе данных, собранных другой политикой.
Чисто академическая статья, в которой, как мне кажется, есть интересное направление работы с diversity: D-RDW. Diversity-Driven Random Walks. Авторы показывают алгоритм, который случайно ходит по сети «читатели — новости», выбирает материалы и проверяет, чтобы итоговый набор новостей соответствовал некоторым правилам баланса. Если соответствия нет — он подбирает другой набор, пока не получится нужная комбинация. Алгоритм сравнивают с MMR, на пальцах звучит прикольно — планирую закопаться и проверить.
Масштаб RecSys в этом году поражает. Слушать доклады можно не отходя от буфета (поймал на фото одного из звукорежиссёров), появилась комната для детей. Русскоговорящих на конференции много: в одном только чатике уже около 60 человек. А я познакомился с профессором из University of Pittsburgh, который закончил МГУ больше 30 лет назад.
Несколько инсайтов напоследок:🔴 В Google первые скрипты трейнов LLM переподнимали вручную в случае инцидентов ночью (когда обучение уходило в NaN/стопалось и т.п.) — после приняли решение вознаградить за это всех неравнодушных.🔴 Очень сложно есть и говорить на английском одновременно, это какой-то отдельный скилл. Присоединился на обеде к ребятам из IKEA и Telegraph, приходилось очень часто их переспрашивать.🔴 В IKEA и Telegraph сейчас используют только implicit feedback, хотя explicit тоже есть и такие действия уже логируются. А ещё ребята были очень удивлены размером Yambda-датасета и тем, как мы справляемся с обработкой таких объёмов данных, да ещё и с доказательством целесообразности скейла.
ML Underhood
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤8🔥3👍1😁1
Третий день RecSys 2025: индустриальный трек
Конкуренция на индустриальном треке растёт: +104% сабмитов к предыдущему году. Всё, что выделил из этого многообразия работ Иван Романов, — читайте ниже.
В конце дня был «званый ужин», на котором Иван успел посидеть за тремя русскоговорящими столами и вынести кое-какие инсайты:
ML Underhood
Конкуренция на индустриальном треке растёт: +104% сабмитов к предыдущему году. Всё, что выделил из этого многообразия работ Иван Романов, — читайте ниже.
Всё чаще звучало слово latency. Даже keynote оказался практичным: Jure Leskovec (именитый профессор из Стэнфорда) прорекламировал свой стартап Kumo — AutoML на графовых нейросетях с SQL-подобным языком для fit-predict по таблицам. Мне запомнился «наброс», что существует опенсорс-решение (CARTE: Pretraining and Transfer for Tabular Learning), которое из коробки даёт аналогичные результаты.
Следующая статья зацепила названием — User Long-Term Multi-Interest Retrieval Model for Recommendation. В качестве MLA-ментора предстоит «забустить» одну рексистему с помощью long-term-интересов. Явно разделяют долгосрочное и краткосрочное поведение пользователя и на вход долгосрочного энкодера передают в качестве query (как в encoder-decoder) выход краткосрочного. Обучают на два лосса. Кстати, заметен общий тренд: почти в каждой индустриальной статье используют несколько лоссов.
Не менее полезная статья — Zero-shot Cross-domain Knowledge Distillation: A Case Study on YouTube Music. Проблема: нужно запустить рексистему с нуля (YouTube Music), но уже есть готовая (на главной YouTube) с пересечением по фичам. Решение: переиспользовать веса, добавить спецтокены для новых фичей и дистиллировать артефакты от старой модели. Да, есть элемент overengineering, но главное — в индустрии начинают трогать cross-domain, и результаты уже позитивные.
Похожую проблему решают ребята из академии — LM-RecG: A Semantic Bias-Aware Framework for Zero-Shot Sequential Recommendation. Деталей в статье намного больше, но трудно сказать, что из этого работает (на академических датасетах буст настолько большой, что верится с трудом).
Было сразу три статьи, которые решают проблему использования контентных фичей в рекомендациях. Подходы разные, но суть одна: инициализировать lookup table через предобученную модель, а поверх запускать последовательную модель на айдишниках.
«Внебрачное дитя» европейских регуляций и Google — Cross-Batch Aggregation for Streaming Learning from Label Proportions in Industrial-Scale Recommendation Systems. Нельзя однозначно определить связь user-item, поэтому используют трюк из Learning from Label Proportions. Автор признал, что не знал о такой задаче до написания статьи, но был рад, что «поле уже немного пропахано».
Scaling Generative Recommendations with Context Parallelism on Hierarchical Sequential Transducers: инженерное ускорение HSTU (AllGather меняют на AllToAll, кастомные Triton-кернелы, jagged tensors — аналог NestedTensor из PyTorch в TorchRec). Около постера никого не было, визуализации классные, но темой вокруг особо не интересовались, хотя ускорение достойное — x5.
T2ARec: The Proposed Method — по метрикам отлично, но пугает SSM (state space model). Основное улучшение достигается через test-time alignment (во время теста модели выполняется градиентный спуск по двум вспомогательным задачам: сопоставление временных интервалов пользователей и сопоставление previous state с current state представления).
В конце дня был «званый ужин», на котором Иван успел посидеть за тремя русскоговорящими столами и вынести кое-какие инсайты:
— По ощущениям 2/3 участников используют GPT-интерфейс (VSCode, Cursor, либо разделённый экран: с одной стороны Jupyter Notebook, с другой — Perplexity/Gemini).
— У самого в квартальных целях — порешать эту проблему, так что, наверное, я biased, но повсюду говорят о холодном старте.
— С Сашей Петровым (gSASRec) обсуждали формулу хорошей статьи. Я уточнил, не обидится ли он на фидбек, что «читается просто». Его ответ порадовал: «Чем проще читается статья, тем сложнее её было писать».
ML Underhood
❤9🔥7👍4