AI VK Hub
1.95K subscribers
216 photos
13 videos
116 links
Рассказываем и показываем AI в VK 🔉
Download Telegram
Эмбеддинги пользователей и айтемов — ключевой инструмент в рекомендательных системах. Обычно они строятся так, чтобы как можно точнее отразить граф взаимодействий между пользователями и контентом. Однако у такого подхода есть уязвимость: эмбеддинги сильно зависят от популярности айтемов.

Например, в соцсетях посты с осенней тематикой могут резко выстрелить в сентябре–октябре, но быстро потерять актуальность. Авторы работы, которую мы рассмотрели, предложили способ встроить динамику популярности прямо в модель эмбеддингов.

Детали

Каждый айтем представляется как сумма двух частей:
🔸стационарная — фиксированные свойства айтема,
🔸переменная — зависит только от индекса популярности (доли взаимодействий с этим айтемом), который меняется со временем.

Ключевые идеи метода

1. Дискретизация индекса популярности
Индекс квантуется в логарифмическом масштабе. Это позволяет сгладить различия между айтемами с близкими значениями и корректно учитывать скачки популярности.

2. Декомпозиция эмбеддинга через модификацию BPR-лосса
Вместо «сырых» значений популярности авторы используют популярность случайного айтема, усредняя вклад по всему диапазону. Так модель учится выделять инвариантную часть эмбеддинга.

3. Комбинация функций потерь
Итоговый лосс — взвешенная сумма классического BPR и его модифицированной версии с учётом популярности.

4. Прогноз популярности при инференсе
Во время генерации рекомендаций индекс популярности предсказывается с помощью простой модели.

Результаты

Новый подход протестирован на двух открытых датасетах — Micro-video и KuaiRand. В обоих случаях модель показала улучшение по метрикам Recall и NDCG по сравнению с предыдущими методами.

Численные эксперименты также подтвердили:
🔸каждый из трёх этапов (дискретизация, декомпозиция, комбинированный лосс) играет важную роль,
🔸алгоритм чувствителен к выбору гиперпараметров (число уровней дискретизации, веса в функции потерь).

Исследователи подчёркивают, что их метод обладает высокой обобщающей способностью: он устойчив к изменчивости популярности и подходит для сценариев с резкими сезонными или событийными колебаниями интереса пользователей.

Таким образом, предложенный алгоритм открывает путь к более «живым» эмбеддингам, которые отражают не только статические свойства контента, но и его актуальность во времени.


Обзор статьи подготовлен командой AI VK
#обзорстатьи
Please open Telegram to view this post
VIEW IN TELEGRAM
13🔥9👍8🤝11
AI VK Hub
Разбор one-rec продолжится на ридинг-группе AI VK 2 октября. В программе следующие статьи: 🔹TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou 🔹OneRec Technical Report (часть про энкодер и декодер) 🔹 Ждём…
🔹Уже через 20 минут продолжаем разбор OneRec!

Ждём всех желающих за круглым столом в зуме, а также в трансляции в AI VK Hub.
Зум: ссылка
ID: 313 292 5940
Код: 473906
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥1310👍3🎉1👀1
Live stream started
Live stream finished (1 hour)
Media is too big
VIEW IN TELEGRAM
🔹 На прошлой неделе мы продолжили серию встреч, посвящённых разбору OneRec. Делимся записью третьей части.

На ридинг-группе по большим рекомендательным нейросетям обсудили следующие статьи:
🔸TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou
🔸OneRec Technical Report (часть про энкодер и декодер)

🔹 Запись первой части
🔹 Запись второй части

#ридинггруппа #aivk
Please open Telegram to view this post
VIEW IN TELEGRAM
16🔥11👍7👏11
Завершаем разбор OneRec на ридинг-группе AI VK 9 октября. Поговорим про дообучение модели и результаты внедрения в продакшен. Ждём всех желающих на встрече в 18:00.

🔹 9 октября в 18:00

Зум: ссылка
ID: 707 776 9330
Код: 464167

Параллельно запустим стрим прямо в канале AI VK Hub.

🔸Запись первой части
🔸Запись второй части
🔸Запись третьей части

#ридинггруппа #aivk
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍12🔥11😁32
В VK работает много ML-моделей, и важно обеспечить безопасность каждой из них. Мы много работаем над безопасностью и одним из важных направлений являются исследования атак на модели машинного обучения, которые проводятся в рамках мастерской по безопасности ИИ в Инженерно‑математической школе НИУ ВШЭ и VK. Под руководством Павла Литикова, архитектора ИБ-подразделения AI VK, выпускник магистратуры Алексей Солдатов провёл исследование атак на различные ML-модели. В своём материале для Хабра он поделился промежуточными результатами проекта. Вот ссылка на статью!
👍1510🔥83👏1
Live stream started
Live stream finished (1 hour)
🔹 Ovi — опенсорсная видеомодель от Character.AI (ru)
Генерирует 5-секундные ролики с 24 fps по тексту или изображению, доступна на Hugging Face (Apache 2.0).

🔹 OpenAI представила AgentKit (eng | ru)
Набор для создания и развёртывания агентов. Включает Agent Builder, ChatKit и Apps SDK для подключения сервисов вроде Canva, Coursera, Figma и Spotify прямо в ChatGPT.

🔹 Comet от Perplexity стал бесплатным (eng | ru)
ИИ-браузер с ассистентом в адресной строке: отвечает на вопросы, переводит, делает саммари, строит маршруты и сортирует почту.

🔹 xAI готовит Grokipedia (eng | ru)
Альтернатива «Википедии» на базе Grok AI — проверка фактов, исправление ошибок и дополнение пропусков для создания «истинного источника знаний».

🔹 Synthesia 3.0 с видеоагентами (eng | ru)
Агенты могут говорить и действовать в реальном времени. Улучшены аватары: синхронность речи и мимика, создание из фото, поддержка Veo 3 и Express-Voice.

🔹 OpenAI и AMD — стратегическое партнёрство (eng | ru)
OpenAI получит 6 ГВт GPU MI450 с 2026 года и опцион на 160 млн акций AMD. Шаг к снижению зависимости от NVIDIA.

🔹 IBM интегрирует Anthropic (eng | ru)
Модели Claude появятся в продуктах IBM. Первая интеграция — IDE для корпоративных разработчиков.

🔹 OpenAI ужесточил правила в Sora 2 (eng | ru)
Запрещено использовать защищённых персонажей, бренды, публичных персон без разрешения. Возможна система роялти.

🔹 МФТИ исследовал рынок ИИ в России (ru)
Объём в 2024 году — 1,15 трлн руб. (+28% за год). Лидируют NLP (61,3%) и анализ данных (33,6%). Финансирование от государства — 7,6 млрд руб. в год.

🔹 Отчёт a16z о расходах стартапов на ИИ (eng | ru)
Больше всего тратят на OpenAI и Anthropic. Популярны инструменты: кодинг (Replit, Lovable), митинг-ассистенты (Fyxer, Happyscribe), креативные сервисы (Freepik, ElevenLabs, Canva и др.).

🔹 Новые статьи от инженеров VK на Хабр:
🔸Исследуем OSS-инструменты для MLSecOps: цели проекта и промежуточные результаты
🔸MARKER: Собираем свой русскоязычный мультимодальный датасет для оценки VLM
🔸Рекомендации историй ВКонтакте: от простой эвристики до ML-системы

#дайджест #aivk
Please open Telegram to view this post
VIEW IN TELEGRAM
16👍9🔥22🎉1
Media is too big
VIEW IN TELEGRAM
🔹 На прошлой неделе мы завершили цикл встреч, посвящённых OneRec. Делимся записью заключительного обсуждения.

🔸Запись первой части
🔸Запись второй части
🔸Запись третьей части

#ридинггруппа #aivk
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥178👍4👏11