AI VK Hub – Telegram

AI VK Hub

1.95K subscribers

216 photos

13 videos

116 links

Рассказываем и показываем AI в VK 🔉

Download Telegram

About

Blog

Apps

Platform

1.95K subscribers

Live stream finished (54 minutes)

14:56

Голосовые помощники стремительно набирают популярность, и поэтому задача разработки эффективных методов оценки качества их речи становится особенно актуальной. В идеале участие человека в этом процессе должно быть сведено к минимуму.

Студенты мастерской по прикладному искусственному интеллекту ИМШ НИУ ВШЭ и VK разработали и обучили несколько моделей автоматической оценки качества речи голосовых помощников.

Для работы рассматривались две метрики:

🔸

MOS (Mean Opinion Score) — оценка одного аудиофайла,
🔸SBS (Side-by-Side) — сравнение двух аудиофрагментов с выбором более качественного.

В результате были обучены три модели для MOS (MOSNet, MOSNetBert и WhisperBert) и две модели для SBS (NeuralISBS и NeuralISBSBert).

Обучение проводилось на открытом англоязычном датасете SOMOS. В ряде случаев удалось достичь впечатляющих результатов. Например:
🔸ошибка RMSE в оценках MOS-моделями составила 0,4, что сопоставимо с разбросом экспертных оценок (0,6);
🔸модели, оптимизирующие метрику SBS, смогли правильно выбрать лучший аудиофрагмент в 73% случаев — результат, близкий к человеческому.

Сейчас студенты ИМШ работают над адаптацией моделей к русскому языку. Одним из следующих шагов может стать интеграция этих решений в CI/CD пайплайны, что позволит внедрить автоматическую оценку качества речи в реальные производственные процессы.

👉 Прочитать новость

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18🔥10❤8👀11

1.35K views10:53

Media is too big

VIEW IN TELEGRAM

🔹 Для тех, кто пропустил встречу ридинг-группы на прошлой неделе, публикуем запись первой части разбора OneRec.

На этой неделе рассмотрим статьи:
🔹 Large Scale Product Graph Construction for Recommendation in E-commerce
🔹 QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou
🔹 Tokenizer OneRec
Приходите подготовленными, с каждым разом будет всё интереснее!

🔹 Ждём вас 18 сентября в 18:00

Зум: ссылка
ID: 707 776 9330
Код: 464167

Параллельно запустим стрим прямо в канале AI VK Hub.

#ридинггруппа #aivk

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17👍8🔥8✍21

1.37K viewsedited 09:00

🐸 «Мои чюваки» приносят топовую вакансию!

Сегодня среда, и жаба принесла отличные новости — у нас открылась вакансия Руководителя группы СV в AI VK.

Что предстоит делать:
🔸Разрабатывать мультимодальные генеративные модели (VLM) для видео, OCR и документов
🔸Руководить командой CV-инженеров: нанимать, развивать и выстраивать процессы
🔸Декомпозировать цели на понятные и достижимые задачи
🔸Проектировать ML-архитектуры и интегрировать их в продукты
🔸Следить за трендами в AI/ML, экспериментировать и внедрять новые подходы
🔸Контролировать качество решений и доносить результаты до стейкхолдеров

Что нужно уметь:
🔸Python + PyTorch — уверенно
🔸Опыт работы с ML-решениями на проде
🔸Опыт руководства командой ML от 1 года — плюс
🔸Опыт с мультимодальными моделями (VLM) или LLM — большой плюс

Почему стоит идти к нам:
🔸Задачи на стыке ML, Computer Vision и генеративных моделей
🔸Возможность влиять на продукт и команду
🔸Среда, где ценят эксперименты и исследования

Скорее откликайтесь по ссылке или в личку Аделине (рекрутер).

#вакансия #aivk

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12👍6❤4😎3🍾2

1.58K viewsedited 12:32

🔹 Для тех, кто пропустил встречу ридинг-группы на прошлой неделе, публикуем запись первой части разбора OneRec. На этой неделе рассмотрим статьи: 🔹 Large Scale Product Graph Construction for Recommendation in E-commerce 🔹 QARM: Quantitative Alignment Multi…

🔹 Осталось всего 10 минут — присоединяйтесь к ридинг-группе!

Please open Telegram to view this post

VIEW IN TELEGRAM

💅4❤1👍1🔥1👌1

1.3K views14:50

Live stream started

15:04

Live stream finished (1 hour)

16:07

☕ Встречайте новый выпуск «Кофе-брейка»!

На этот раз в гостях — наш Денис Шавейников, который руководит направлением Поиска AI VK. Вместе обсуждаем мифы про ИИ и то, как устроен поиск по ключевым словам.

❤4🔥4👍2🙈1🙊1

947 viewsedited 11:00

Forwarded from VK Team

Media is too big

VIEW IN TELEGRAM

«Найди то, не знаю что» среди миллиарда сущностей 😱

Примерно так звучат задачи специалистов, которые работают с LLM. В новом выпуске нашего подкаста «Кофе-брейк» развеиваем миф о том, что ИИ отберёт у всех нас работу (спойлер: не у всех), и обсуждаем, как вообще устроен поиск по ключевым словам. А помогает нам в этом Денис Шавейников — руководитель команды поиска VK.

Хватайте капучино и включайте выпуск

☕️

Please open Telegram to view this post

VIEW IN TELEGRAM

👍9❤6🔥4🙈4🙊1

911 views11:00

Всем привет! Объявляем неделю обзоров наиболее интересных, на наш взгляд, статей, представленных на конференции RecSys 2025.

В онлайн-кинотеатрах холодный старт возникает как для новых пользователей, так и для контента, который только появился на платформе. Трудность в том, что история взаимодействий слишком короткая, чтобы построить качественные рекомендации. Ситуация осложняется, если сервис запускает принципиально новый класс продуктов. Так произошло у Netflix при запуске онлайн-трансляций (например, спортивных матчей).

Авторы статьи рассказывают, как они адаптировали модель рекомендаций для работы с таким сценарием и смогли справиться с вызовом холодного старта.

Детали

1. Новые признаки
Для трансляций стали использовать дополнительные источники информации:
🔸данные, доступные до начала события (например, составы команд);
🔸динамические признаки, отражающие возможные действия пользователя в разные моменты (установка напоминания, просмотр в прямом эфире, запись, репост и др.).

2. Изменения в архитектуре
Появление новых признаков потребовало доработки модели:
🔸пересмотр архитектуры и гиперпараметров,
🔸корректировка стратегии предобучения,
🔸настройка метрик так, чтобы повысить вовлечённость без просадки в других показателях.

3. Функция награды
Главное изменение коснулось оценки ожиданий пользователя: модель теперь учитывает, насколько конкретный зритель ждёт трансляцию. Это напрямую повлияло на точность рекомендаций.

4. Подготовка данных
Для формирования обучающей выборки Netflix применил многорукие бандиты. В случае трансляций предпочтение отдавалось исследованию (exploration), а не только использованию прошлого опыта (exploitation), что позволило быстрее находить оптимальные решения.

Результаты

Сравнение с прежним алгоритмом показало заметный прирост:
🔸в оффлайн-тестах Recall для всех видео вырос на 1%, а для трансляций — на 193%;
🔸A/B-тесты показали рост вовлечённости пользователей в онлайн-события на 20%.
При этом бизнес-метрики остались стабильными, без серьёзных потерь.

Разработчики подчёркивают, что им удалось сбалансировать краткосрочные и долгосрочные интересы пользователей. Помимо пользы для Netflix, новый алгоритм можно адаптировать и в других сервисах для решения проблемы холодного старта при появлении новых типов контента.

Обзор статьи подготовлен командой AI VK
#обзорстатьи #RecSys

Please open Telegram to view this post

VIEW IN TELEGRAM

❤8👍5🔥3🤝11

932 viewsedited 08:00

Media is too big

VIEW IN TELEGRAM

🔹 Делимся записью второй части разбора OneRec.

На ридинг-группе обсудили следующие статьи:

🔸

Large Scale Product Graph Construction for Recommendation in E-commerce

🔸

QARM: Quantitative Alignment Multi-Modal Recommendation at Kuaishou

🔸

Tokenizer OneRec

🔹 Запись первой части можно посмотреть тут

#ридинггруппа #aivk

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥20👍6❤5💅11

912 viewsedited 13:05

Задачи, в которых необходимо одновременно учитывать данные разных модальностей (текст, изображение, звук и прочее), встречаются регулярно. Поэтому разработка моделей машинного обучения, способных эффективно решать такие задачи, имеет очевидную практическую ценность. На практике они решаются с помощью мультимодальных нейросетей (VLM), которым для обучения требуются качественные датасеты.

Существуют крупные англоязычные мультимодальные датасеты, но их использование в русскоязычном контексте не является идеальным решением. Во-первых, при переводе теряется часть смысла и возникают неточности. Во-вторых, в таких наборах данных почти не встречается контекст, значимый для другой культуры. Например, российские исторические деятели или культурные особенности в них встречаются крайне редко.

Мы подготовили статью, в которой представлен русскоязычный мультимодальный датасет MARKER, собранный под руководством Александра Рогачёва (AI VK) в рамках работы с Инженерно-математической школой НИУ ВШЭ.

В качестве основы были выбраны материалы школьной и университетской программ — это обеспечило структурированность и качество данных (текст хорошо соотносится с изображениями). Так как ручная работа заняла бы слишком много времени, применялись методы частичной автоматизации:

🔸выгрузка данных через буфер обмена со специализированными инструментами (ускоренный «copy-paste»);
🔸парсинг сайтов с помощью BeautifulSoup и Scrapy;
🔸имитация действий пользователя (для сложных сайтов с динамической подгрузкой контента).

Данные были разделены на несколько сплитов по предметным областям: история, искусство, география, физика, математика.
🔸В большинстве случаев задания имеют формат multiple-choice (картинка + вопрос с вариантами ответа).
🔸Для физики добавлен отдельный блок с задачами со свободным развернутым ответом.

На датасете протестировали 16 современных VLM (InternVL, Gemma, Qwen, Llava и другие):

🔸

маленькие модели (<2B параметров) показали слабые результаты и склонность к «галлюцинациям»;
🔸средние (3–4B) уже корректно распознавали авторов и факты, но часто путались в деталях;
🔸крупные модели (7–12B) давали наиболее уверенные и развернутые ответы. Особенно выделились Gemma и Qwen: первая демонстрировала высокое качество рассуждений, а вторая — при сопоставимом уровне была заметно компактнее.

MARKER — это объёмный русскоязычный мультимодальный датасет, на котором можно объективно тестировать современные VLM. В дальнейшем планируется расширение: увеличение объёма данных, добавление новых предметных областей и внедрение аудиомодальности наряду с текстом, изображениями и видео.

🔹 Читайте статью полностью на Хабре.

#MARKER #AIVK

Please open Telegram to view this post

VIEW IN TELEGRAM

❤18🔥14👍92✍1

867 views10:45

🔹

VK Security Confab — ИИ в безопасности, безопасность ИИ

Приглашаем инженеров и архитекторов ИБ, специалистов по AI Security, и всех, кто уже работает с ИИ в безопасности! Обсудим современные угрозы, методы защиты и технологии.

Вместе со специалистами AppSec, DevSecOps и Data Security посмотрим на возможности текущих инструментов и реальные кейсы применения ИИ, а также погрузимся в задачи MLSecOps – разберемся, как проверить безопасность моделей и обеспечить их защиту.

После докладов — традиционный нетворкинг: пообщаемся в неформальной обстановке и обменяемся идеями.

🔹

Когда: 1 октября, сбор с 18:15

🔹

Где: Москва, Ленинградский проспект, 39, стр. 79. БЦ Skylight

🔹

Как попасть: бесплатно, регистрация по ссылке до 26 сентября включительно

Please open Telegram to view this post

VIEW IN TELEGRAM

❤17👍6🔥62💅1

918 views15:05

Всем привет!
Сегодня рассмотрим статью про модель рекомендаций фильмов на основе трансформеров с Mixture of Experts с RecSys 2025.

Несмотря на значительный прогресс в рекомендательных технологиях за последние десятилетия, остаются нерешённые вопросы: как лучше обрабатывать взаимодействие пользователей с платформой, как корректно формировать негативные примеры для обучения и как учитывать сразу несколько задач при рекомендациях.

В своей работе исследователи из Amazon представили модифицированный подход к коллаборативной фильтрации, который одновременно решает эти вопросы.

Детали

1. Персонализированные сэмплы
Ключевая идея — использовать показатель досмотра (долю ролика, просмотренную пользователем). На его основе формируются позитивные и негативные примеры:

🔸строго негативные персональные (контент, который пользователь явно отверг);
🔸популярные видео, которые человек проигнорировал;
🔸 наименее популярные ролики в датасете.

2. Mixture-of-Experts
Для расчёта скоров применяется ансамбль экспертов:

🔸каждый эксперт обрабатывает историю действий пользователя, закодированную трансформером;
🔸эксперты отвечают за разные временные масштабы взаимодействия;
🔸итоговое предсказание получается через взвешивание результатов экспертов отдельной моделью.

3. Функция потерь
Используется комбинированный лосс:

🔸бинарная кросс-энтропия для CTR;
🔸лосс для ранжирования;
🔸регуляризационные члены.
Особенность — взвешивание пар «пользователь–контент» в зависимости от доли досмотра: чем выше показатель, тем больше вес пары в функции потерь.

Результаты

Метод протестирован на датасете Prime Video (7,2 млн последовательностей, собранных с ноября 2024). Новая модель показала прирост качества примерно на 2–2.5% по метрикам NDCG@1, NDCG@5 и Recall@5 по сравнению с сильными бейзлайнами (SASRec, GRU4Rec, BST).

Отдельные эксперименты подтвердили значимость каждого из четырёх компонентов алгоритма: даже небольшие вклады (от десятых долей до единиц процента) оказались критичны, учитывая, что общий выигрыш над бейзлайном составляет всего пару процентов.

Авторы подчёркивают, что их метод усиливает уже устоявшийся двухэтапный подход к построению рекомендательных систем:

1. Предобучение с учётом нескольких метрик (CTR, досмотры, удовлетворённость).
2. Дальнейшая персонализация под онлайн-поведение пользователей.

По их мнению, именно такой подход остаётся наиболее масштабируемым и практически применимым.

Предыдущий обзор статьи с RecSys от команды AI VK:

🔸

Про рекомендации Netflix для прямых эфиров

#обзорстатьи #RecSys

Please open Telegram to view this post

VIEW IN TELEGRAM

👍16❤9🔥53🤓1

957 viewsedited 08:01

Ещё одна статья из нашей серии обзоров будет про то, как просмотры, комментарии и языковые модели помогают улучшать рекомендации.

Классический коллаборативный подход к рекомендациям строится на идее: пользователи с похожей историей взаимодействия должны получать схожие рекомендации. Сегодня этот метод обогащают дополнительными сигналами — от контентных признаков до учёта последовательности действий.

Исследователи из Kuaishou Technology предложили ещё один шаг вперёд: использовать не только историю просмотров, но и активность пользователя в комментариях.

Детали

1. Модельная архитектура
В основе лежит вычислительно недорогая модель последовательных рекомендаций (SR), применяемая в продукте. Её задача — предсказать следующий элемент последовательности.

Для обучения SR используется более тяжёлая LLM-модель, которая решает расширенную задачу: рекомендации как для видео, так и для комментариев. Хотя эта модель не применяется в продакшене, она задаёт «эталон», с которым согласуется SR через контрастивную функцию потерь. После этого SR-модель дообучается классическими методами.

2. Сравнение с другими подходами
Алгоритм протестировали против целого спектра моделей:

🔸для видео — от коллаборативной фильтрации до современных последовательных и мультимодальных алгоритмов (Caser, GRU4Rec, SASRec, BERT4Rec, NARM, DMT, MBHT, FDSA, S3-Rec, UniSRec, VQ-Rec);
🔸для комментариев — DSSM, GRU, ATT, MHA, UniSRec, ZAM, TEM.

На внутреннем датасете (собранном с 31 октября 2023 года) новая модель уверенно превзошла аналоги по метрикам NDCG и Recall. Более того, на стороннем датасете Amazon, где доступны только названия товаров и история взаимодействий, алгоритм также показал улучшения.

Результаты

1. Оффлайн-эксперименты: рост качества по NDCG и Recall относительно всех бейзлайнов.

2. A/B-тесты:

🔸для видео — +0.36% к времени просмотра и +0.78% к числу взаимодействий;
🔸для комментариев — +4.12% и +1.35% соответственно.
Даже такие, казалось бы, небольшие приросты в масштабах платформы имеют серьёзное значение.

Авторы считают, что подход легко переносим на другие домены. В будущем они планируют:

🔸оптимизировать производительность, особенно LLM-блока;
🔸расширить модель мультимодальными LLM, чтобы учитывать не только сигналы взаимодействия, но и контентные характеристики видео.

Это исследование подтверждает важность интеграции разных источников пользовательской активности. Использование сигналов из комментариев открывает новые перспективы для построения персонализированных рекомендаций.

Предыдущие обзоры статей с RecSys 2025 от команды AI VK:

🔸

Про рекомендации Netflix для прямых эфиров

🔸

Amazon о том, как просмотры и комментарии улучшают рекомендации с помощью LLM

#обзорстатьи #RecSys

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥12❤10👍6✍11

993 views08:00

Разбор one-rec продолжится на ридинг-группе AI VK 2 октября. В программе следующие статьи:

🔹TWIN V2: Scaling Ultra-Long User Behavior Sequence Modeling for Enhanced CTR Prediction at Kuaishou
🔹OneRec Technical Report (часть про энкодер и декодер)

🔹 Ждём всех желающих проникнуться большими рекомендательными нейросетями 2 октября в 18.00.

Зум: ссылка
ID: 313 292 5940
Код: 473906

Параллельно запустим стрим прямо в канале AI VK Hub.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤14🔥8👍7💅22

1.13K views12:15

Готовы к выходным? Есть интересное предложение на уикенд в Москве и Питере!

🔹 У нас в VK стартует Weekend Offer — возможность для опытных ML-экспертов и бэкенд-разработчиков быстро присоединиться к команде.

Отправляйте заявку, и мы свяжемся с вами для короткого звонка на 15-30 минут. Во время разговора познакомимся, коротко расскажем о командах и подберём удобное время для персонального онлайн-интервью.

🔹 Спешите зарегистрироваться, чтобы стать частью команды! Первые собеседования пройдут уже 4–5 октября.

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥20❤12👍74🤔2

1.5K viewsedited 14:48

За последнее время истории Вконтакте сильно изменились — мы сделали рекомендации более персонализированными.

Всё начиналось с обычного MVP, когда пользователь видит просто самые свежие истории. Сейчас же это сложная ML-система, где каждый сигнал и каждый клик пользователя имеют значение. Листайте карточки — в них мы рассказали, как шаг за шагом строили рекомендательную систему.

🔹 За подробностями — в нашу статью на Хабре.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤20👍12🔥8👏11

943 views09:21