Задачи, в которых необходимо одновременно учитывать данные разных модальностей (текст, изображение, звук и прочее), встречаются регулярно. Поэтому разработка моделей машинного обучения, способных эффективно решать такие задачи, имеет очевидную практическую ценность. На практике они решаются с помощью мультимодальных нейросетей (VLM), которым для обучения требуются качественные датасеты.
Существуют крупные англоязычные мультимодальные датасеты, но их использование в русскоязычном контексте не является идеальным решением. Во-первых, при переводе теряется часть смысла и возникают неточности. Во-вторых, в таких наборах данных почти не встречается контекст, значимый для другой культуры. Например, российские исторические деятели или культурные особенности в них встречаются крайне редко.
Мы подготовили статью, в которой представлен русскоязычный мультимодальный датасет MARKER, собранный под руководством Александра Рогачёва (AI VK) в рамках работы с Инженерно-математической школой НИУ ВШЭ.
В качестве основы были выбраны материалы школьной и университетской программ — это обеспечило структурированность и качество данных (текст хорошо соотносится с изображениями). Так как ручная работа заняла бы слишком много времени, применялись методы частичной автоматизации:
🔸 выгрузка данных через буфер обмена со специализированными инструментами (ускоренный «copy-paste»);
🔸 парсинг сайтов с помощью BeautifulSoup и Scrapy;
🔸 имитация действий пользователя (для сложных сайтов с динамической подгрузкой контента).
Данные были разделены на несколько сплитов по предметным областям: история, искусство, география, физика, математика.
🔸 В большинстве случаев задания имеют формат multiple-choice (картинка + вопрос с вариантами ответа).
🔸 Для физики добавлен отдельный блок с задачами со свободным развернутым ответом.
На датасете протестировали 16 современных VLM (InternVL, Gemma, Qwen, Llava и другие):
🔸 маленькие модели (<2B параметров) показали слабые результаты и склонность к «галлюцинациям»;
🔸 средние (3–4B) уже корректно распознавали авторов и факты, но часто путались в деталях;
🔸 крупные модели (7–12B) давали наиболее уверенные и развернутые ответы. Особенно выделились Gemma и Qwen: первая демонстрировала высокое качество рассуждений, а вторая — при сопоставимом уровне была заметно компактнее.
MARKER — это объёмный русскоязычный мультимодальный датасет, на котором можно объективно тестировать современные VLM. В дальнейшем планируется расширение: увеличение объёма данных, добавление новых предметных областей и внедрение аудиомодальности наряду с текстом, изображениями и видео.
🔹 Читайте статью полностью на Хабре.
#MARKER #AIVK
Существуют крупные англоязычные мультимодальные датасеты, но их использование в русскоязычном контексте не является идеальным решением. Во-первых, при переводе теряется часть смысла и возникают неточности. Во-вторых, в таких наборах данных почти не встречается контекст, значимый для другой культуры. Например, российские исторические деятели или культурные особенности в них встречаются крайне редко.
Мы подготовили статью, в которой представлен русскоязычный мультимодальный датасет MARKER, собранный под руководством Александра Рогачёва (AI VK) в рамках работы с Инженерно-математической школой НИУ ВШЭ.
В качестве основы были выбраны материалы школьной и университетской программ — это обеспечило структурированность и качество данных (текст хорошо соотносится с изображениями). Так как ручная работа заняла бы слишком много времени, применялись методы частичной автоматизации:
Данные были разделены на несколько сплитов по предметным областям: история, искусство, география, физика, математика.
На датасете протестировали 16 современных VLM (InternVL, Gemma, Qwen, Llava и другие):
MARKER — это объёмный русскоязычный мультимодальный датасет, на котором можно объективно тестировать современные VLM. В дальнейшем планируется расширение: увеличение объёма данных, добавление новых предметных областей и внедрение аудиомодальности наряду с текстом, изображениями и видео.
#MARKER #AIVK
Please open Telegram to view this post
VIEW IN TELEGRAM
❤18🔥14👍9 2✍1
Приглашаем инженеров и архитекторов ИБ, специалистов по AI Security, и всех, кто уже работает с ИИ в безопасности! Обсудим современные угрозы, методы защиты и технологии.
Вместе со специалистами AppSec, DevSecOps и Data Security посмотрим на возможности текущих инструментов и реальные кейсы применения ИИ, а также погрузимся в задачи MLSecOps – разберемся, как проверить безопасность моделей и обеспечить их защиту.
После докладов — традиционный нетворкинг: пообщаемся в неформальной обстановке и обменяемся идеями.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤17👍6🔥6 2💅1
Всем привет!
Сегодня рассмотрим статью про модель рекомендаций фильмов на основе трансформеров с Mixture of Experts с RecSys 2025.
Несмотря на значительный прогресс в рекомендательных технологиях за последние десятилетия, остаются нерешённые вопросы: как лучше обрабатывать взаимодействие пользователей с платформой, как корректно формировать негативные примеры для обучения и как учитывать сразу несколько задач при рекомендациях.
В своей работе исследователи из Amazon представили модифицированный подход к коллаборативной фильтрации, который одновременно решает эти вопросы.
Детали
1. Персонализированные сэмплы
Ключевая идея — использовать показатель досмотра (долю ролика, просмотренную пользователем). На его основе формируются позитивные и негативные примеры:
🔸 строго негативные персональные (контент, который пользователь явно отверг);
🔸 популярные видео, которые человек проигнорировал;
🔸 наименее популярные ролики в датасете.
2. Mixture-of-Experts
Для расчёта скоров применяется ансамбль экспертов:
🔸 каждый эксперт обрабатывает историю действий пользователя, закодированную трансформером;
🔸 эксперты отвечают за разные временные масштабы взаимодействия;
🔸 итоговое предсказание получается через взвешивание результатов экспертов отдельной моделью.
3. Функция потерь
Используется комбинированный лосс:
🔸 бинарная кросс-энтропия для CTR;
🔸 лосс для ранжирования;
🔸 регуляризационные члены.
Особенность — взвешивание пар «пользователь–контент» в зависимости от доли досмотра: чем выше показатель, тем больше вес пары в функции потерь.
Результаты
Метод протестирован на датасете Prime Video (7,2 млн последовательностей, собранных с ноября 2024). Новая модель показала прирост качества примерно на 2–2.5% по метрикам NDCG@1, NDCG@5 и Recall@5 по сравнению с сильными бейзлайнами (SASRec, GRU4Rec, BST).
Отдельные эксперименты подтвердили значимость каждого из четырёх компонентов алгоритма: даже небольшие вклады (от десятых долей до единиц процента) оказались критичны, учитывая, что общий выигрыш над бейзлайном составляет всего пару процентов.
Авторы подчёркивают, что их метод усиливает уже устоявшийся двухэтапный подход к построению рекомендательных систем:
1. Предобучение с учётом нескольких метрик (CTR, досмотры, удовлетворённость).
2. Дальнейшая персонализация под онлайн-поведение пользователей.
По их мнению, именно такой подход остаётся наиболее масштабируемым и практически применимым.
Предыдущий обзор статьи с RecSys от команды AI VK:
🔸 Про рекомендации Netflix для прямых эфиров
#обзорстатьи #RecSys
Сегодня рассмотрим статью про модель рекомендаций фильмов на основе трансформеров с Mixture of Experts с RecSys 2025.
Несмотря на значительный прогресс в рекомендательных технологиях за последние десятилетия, остаются нерешённые вопросы: как лучше обрабатывать взаимодействие пользователей с платформой, как корректно формировать негативные примеры для обучения и как учитывать сразу несколько задач при рекомендациях.
В своей работе исследователи из Amazon представили модифицированный подход к коллаборативной фильтрации, который одновременно решает эти вопросы.
Детали
1. Персонализированные сэмплы
Ключевая идея — использовать показатель досмотра (долю ролика, просмотренную пользователем). На его основе формируются позитивные и негативные примеры:
2. Mixture-of-Experts
Для расчёта скоров применяется ансамбль экспертов:
3. Функция потерь
Используется комбинированный лосс:
Особенность — взвешивание пар «пользователь–контент» в зависимости от доли досмотра: чем выше показатель, тем больше вес пары в функции потерь.
Результаты
Метод протестирован на датасете Prime Video (7,2 млн последовательностей, собранных с ноября 2024). Новая модель показала прирост качества примерно на 2–2.5% по метрикам NDCG@1, NDCG@5 и Recall@5 по сравнению с сильными бейзлайнами (SASRec, GRU4Rec, BST).
Отдельные эксперименты подтвердили значимость каждого из четырёх компонентов алгоритма: даже небольшие вклады (от десятых долей до единиц процента) оказались критичны, учитывая, что общий выигрыш над бейзлайном составляет всего пару процентов.
Авторы подчёркивают, что их метод усиливает уже устоявшийся двухэтапный подход к построению рекомендательных систем:
1. Предобучение с учётом нескольких метрик (CTR, досмотры, удовлетворённость).
2. Дальнейшая персонализация под онлайн-поведение пользователей.
По их мнению, именно такой подход остаётся наиболее масштабируемым и практически применимым.
Предыдущий обзор статьи с RecSys от команды AI VK:
#обзорстатьи #RecSys
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16❤9🔥5 3🤓1
Ещё одна статья из нашей серии обзоров будет про то, как просмотры, комментарии и языковые модели помогают улучшать рекомендации.
Классический коллаборативный подход к рекомендациям строится на идее: пользователи с похожей историей взаимодействия должны получать схожие рекомендации. Сегодня этот метод обогащают дополнительными сигналами — от контентных признаков до учёта последовательности действий.
Исследователи из Kuaishou Technology предложили ещё один шаг вперёд: использовать не только историю просмотров, но и активность пользователя в комментариях.
Детали
1. Модельная архитектура
В основе лежит вычислительно недорогая модель последовательных рекомендаций (SR), применяемая в продукте. Её задача — предсказать следующий элемент последовательности.
Для обучения SR используется более тяжёлая LLM-модель, которая решает расширенную задачу: рекомендации как для видео, так и для комментариев. Хотя эта модель не применяется в продакшене, она задаёт «эталон», с которым согласуется SR через контрастивную функцию потерь. После этого SR-модель дообучается классическими методами.
2. Сравнение с другими подходами
Алгоритм протестировали против целого спектра моделей:
🔸 для видео — от коллаборативной фильтрации до современных последовательных и мультимодальных алгоритмов (Caser, GRU4Rec, SASRec, BERT4Rec, NARM, DMT, MBHT, FDSA, S3-Rec, UniSRec, VQ-Rec);
🔸 для комментариев — DSSM, GRU, ATT, MHA, UniSRec, ZAM, TEM.
На внутреннем датасете (собранном с 31 октября 2023 года) новая модель уверенно превзошла аналоги по метрикам NDCG и Recall. Более того, на стороннем датасете Amazon, где доступны только названия товаров и история взаимодействий, алгоритм также показал улучшения.
Результаты
1. Оффлайн-эксперименты: рост качества по NDCG и Recall относительно всех бейзлайнов.
2. A/B-тесты:
🔸 для видео — +0.36% к времени просмотра и +0.78% к числу взаимодействий;
🔸 для комментариев — +4.12% и +1.35% соответственно.
Даже такие, казалось бы, небольшие приросты в масштабах платформы имеют серьёзное значение.
Авторы считают, что подход легко переносим на другие домены. В будущем они планируют:
🔸 оптимизировать производительность, особенно LLM-блока;
🔸 расширить модель мультимодальными LLM, чтобы учитывать не только сигналы взаимодействия, но и контентные характеристики видео.
Это исследование подтверждает важность интеграции разных источников пользовательской активности. Использование сигналов из комментариев открывает новые перспективы для построения персонализированных рекомендаций.
Предыдущие обзоры статей с RecSys 2025 от команды AI VK:
🔸 Про рекомендации Netflix для прямых эфиров
🔸 Amazon о том, как просмотры и комментарии улучшают рекомендации с помощью LLM
#обзорстатьи #RecSys
Классический коллаборативный подход к рекомендациям строится на идее: пользователи с похожей историей взаимодействия должны получать схожие рекомендации. Сегодня этот метод обогащают дополнительными сигналами — от контентных признаков до учёта последовательности действий.
Исследователи из Kuaishou Technology предложили ещё один шаг вперёд: использовать не только историю просмотров, но и активность пользователя в комментариях.
Детали
1. Модельная архитектура
В основе лежит вычислительно недорогая модель последовательных рекомендаций (SR), применяемая в продукте. Её задача — предсказать следующий элемент последовательности.
Для обучения SR используется более тяжёлая LLM-модель, которая решает расширенную задачу: рекомендации как для видео, так и для комментариев. Хотя эта модель не применяется в продакшене, она задаёт «эталон», с которым согласуется SR через контрастивную функцию потерь. После этого SR-модель дообучается классическими методами.
2. Сравнение с другими подходами
Алгоритм протестировали против целого спектра моделей:
На внутреннем датасете (собранном с 31 октября 2023 года) новая модель уверенно превзошла аналоги по метрикам NDCG и Recall. Более того, на стороннем датасете Amazon, где доступны только названия товаров и история взаимодействий, алгоритм также показал улучшения.
Результаты
1. Оффлайн-эксперименты: рост качества по NDCG и Recall относительно всех бейзлайнов.
2. A/B-тесты:
Даже такие, казалось бы, небольшие приросты в масштабах платформы имеют серьёзное значение.
Авторы считают, что подход легко переносим на другие домены. В будущем они планируют:
Это исследование подтверждает важность интеграции разных источников пользовательской активности. Использование сигналов из комментариев открывает новые перспективы для построения персонализированных рекомендаций.
Предыдущие обзоры статей с RecSys 2025 от команды AI VK:
#обзорстатьи #RecSys
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤10👍6✍1 1
Разбор one-rec продолжится на ридинг-группе AI VK 2 октября. В программе следующие статьи:
🔹 TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou
🔹 OneRec Technical Report (часть про энкодер и декодер)
🔹 Ждём всех желающих проникнуться большими рекомендательными нейросетями 2 октября в 18.00.
Зум: ссылка
ID: 313 292 5940
Код: 473906
Параллельно запустим стрим прямо в канале AI VK Hub.
Зум: ссылка
ID: 313 292 5940
Код: 473906
Параллельно запустим стрим прямо в канале AI VK Hub.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14🔥8👍7💅2 2
Готовы к выходным? Есть интересное предложение на уикенд в Москве и Питере!
🔹 У нас в VK стартует Weekend Offer — возможность для опытных ML-экспертов и бэкенд-разработчиков быстро присоединиться к команде.
Отправляйте заявку, и мы свяжемся с вами для короткого звонка на 15-30 минут. Во время разговора познакомимся, коротко расскажем о командах и подберём удобное время для персонального онлайн-интервью.
🔹 Спешите зарегистрироваться, чтобы стать частью команды! Первые собеседования пройдут уже 4–5 октября.
Отправляйте заявку, и мы свяжемся с вами для короткого звонка на 15-30 минут. Во время разговора познакомимся, коротко расскажем о командах и подберём удобное время для персонального онлайн-интервью.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20❤12👍7 4🤔2
За последнее время истории Вконтакте сильно изменились — мы сделали рекомендации более персонализированными.
Всё начиналось с обычного MVP, когда пользователь видит просто самые свежие истории. Сейчас же это сложная ML-система, где каждый сигнал и каждый клик пользователя имеют значение. Листайте карточки — в них мы рассказали, как шаг за шагом строили рекомендательную систему.
🔹 За подробностями — в нашу статью на Хабре.
Всё начиналось с обычного MVP, когда пользователь видит просто самые свежие истории. Сейчас же это сложная ML-система, где каждый сигнал и каждый клик пользователя имеют значение. Листайте карточки — в них мы рассказали, как шаг за шагом строили рекомендательную систему.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20👍12🔥8👏1 1
Эмбеддинги пользователей и айтемов — ключевой инструмент в рекомендательных системах. Обычно они строятся так, чтобы как можно точнее отразить граф взаимодействий между пользователями и контентом. Однако у такого подхода есть уязвимость: эмбеддинги сильно зависят от популярности айтемов.
Например, в соцсетях посты с осенней тематикой могут резко выстрелить в сентябре–октябре, но быстро потерять актуальность. Авторы работы, которую мы рассмотрели, предложили способ встроить динамику популярности прямо в модель эмбеддингов.
Детали
Каждый айтем представляется как сумма двух частей:
🔸 стационарная — фиксированные свойства айтема,
🔸 переменная — зависит только от индекса популярности (доли взаимодействий с этим айтемом), который меняется со временем.
Ключевые идеи метода
1. Дискретизация индекса популярности
Индекс квантуется в логарифмическом масштабе. Это позволяет сгладить различия между айтемами с близкими значениями и корректно учитывать скачки популярности.
2. Декомпозиция эмбеддинга через модификацию BPR-лосса
Вместо «сырых» значений популярности авторы используют популярность случайного айтема, усредняя вклад по всему диапазону. Так модель учится выделять инвариантную часть эмбеддинга.
3. Комбинация функций потерь
Итоговый лосс — взвешенная сумма классического BPR и его модифицированной версии с учётом популярности.
4. Прогноз популярности при инференсе
Во время генерации рекомендаций индекс популярности предсказывается с помощью простой модели.
Результаты
Новый подход протестирован на двух открытых датасетах — Micro-video и KuaiRand. В обоих случаях модель показала улучшение по метрикам Recall и NDCG по сравнению с предыдущими методами.
Численные эксперименты также подтвердили:
🔸 каждый из трёх этапов (дискретизация, декомпозиция, комбинированный лосс) играет важную роль,
🔸 алгоритм чувствителен к выбору гиперпараметров (число уровней дискретизации, веса в функции потерь).
Исследователи подчёркивают, что их метод обладает высокой обобщающей способностью: он устойчив к изменчивости популярности и подходит для сценариев с резкими сезонными или событийными колебаниями интереса пользователей.
Таким образом, предложенный алгоритм открывает путь к более «живым» эмбеддингам, которые отражают не только статические свойства контента, но и его актуальность во времени.
Обзор статьи подготовлен командой AI VK
#обзорстатьи
Например, в соцсетях посты с осенней тематикой могут резко выстрелить в сентябре–октябре, но быстро потерять актуальность. Авторы работы, которую мы рассмотрели, предложили способ встроить динамику популярности прямо в модель эмбеддингов.
Детали
Каждый айтем представляется как сумма двух частей:
Ключевые идеи метода
1. Дискретизация индекса популярности
Индекс квантуется в логарифмическом масштабе. Это позволяет сгладить различия между айтемами с близкими значениями и корректно учитывать скачки популярности.
2. Декомпозиция эмбеддинга через модификацию BPR-лосса
Вместо «сырых» значений популярности авторы используют популярность случайного айтема, усредняя вклад по всему диапазону. Так модель учится выделять инвариантную часть эмбеддинга.
3. Комбинация функций потерь
Итоговый лосс — взвешенная сумма классического BPR и его модифицированной версии с учётом популярности.
4. Прогноз популярности при инференсе
Во время генерации рекомендаций индекс популярности предсказывается с помощью простой модели.
Результаты
Новый подход протестирован на двух открытых датасетах — Micro-video и KuaiRand. В обоих случаях модель показала улучшение по метрикам Recall и NDCG по сравнению с предыдущими методами.
Численные эксперименты также подтвердили:
Исследователи подчёркивают, что их метод обладает высокой обобщающей способностью: он устойчив к изменчивости популярности и подходит для сценариев с резкими сезонными или событийными колебаниями интереса пользователей.
Таким образом, предложенный алгоритм открывает путь к более «живым» эмбеддингам, которые отражают не только статические свойства контента, но и его актуальность во времени.
Обзор статьи подготовлен командой AI VK
#обзорстатьи
Please open Telegram to view this post
VIEW IN TELEGRAM
❤13🔥9👍8🤝1 1
AI VK Hub
Разбор one-rec продолжится на ридинг-группе AI VK 2 октября. В программе следующие статьи: 🔹 TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou 🔹 OneRec Technical Report (часть про энкодер и декодер) 🔹 Ждём…
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥14❤10👍3🎉1👀1
Media is too big
VIEW IN TELEGRAM
На ридинг-группе по большим рекомендательным нейросетям обсудили следующие статьи:
#ридинггруппа #aivk
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16🔥11👍7👏1 1
Завершаем разбор OneRec на ридинг-группе AI VK 9 октября. Поговорим про дообучение модели и результаты внедрения в продакшен. Ждём всех желающих на встрече в 18:00.
🔹 9 октября в 18:00
Зум: ссылка
ID: 707 776 9330
Код: 464167
Параллельно запустим стрим прямо в канале AI VK Hub.
🔸 Запись первой части
🔸 Запись второй части
🔸 Запись третьей части
#ридинггруппа #aivk
Зум: ссылка
ID: 707 776 9330
Код: 464167
Параллельно запустим стрим прямо в канале AI VK Hub.
#ридинггруппа #aivk
Please open Telegram to view this post
VIEW IN TELEGRAM
❤16👍12🔥11😁3 2
В VK работает много ML-моделей, и важно обеспечить безопасность каждой из них. Мы много работаем над безопасностью и одним из важных направлений являются исследования атак на модели машинного обучения, которые проводятся в рамках мастерской по безопасности ИИ в Инженерно‑математической школе НИУ ВШЭ и VK. Под руководством Павла Литикова, архитектора ИБ-подразделения AI VK, выпускник магистратуры Алексей Солдатов провёл исследование атак на различные ML-модели. В своём материале для Хабра он поделился промежуточными результатами проекта. Вот ссылка на статью!
👍15❤10🔥8 3👏1