Yandex for Analytics
7.22K subscribers
358 photos
22 videos
133 links
Канал для аналитиков от Яндекса. Рассказываем о событиях, обсуждаем кейсы, знакомимся с командами и внимательно смотрим на данные.

Чат: t.me/YandexDataDriven
Вопросы: @Ekaterina_Lyagina

Все каналы Яндекса по стекам: https://xn--r1a.website/addlist/Hrq31w2p1vUyOGZi
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🧑‍💻 Прощай, фича: как понять, что пора отказаться от функциональности, если A/B-тесты не работают

Привет, это Алексей Чубуков, аналитик группы поиска и назначения водителей в Яндекс Такси. В этом посте я расскажу, как наша команда на 13% снизила нагрузку на сервис.

Что случилось

В 2023 году мы запустили в прод ML-модель, которая прогнозировала вероятность заказа на этапе пина (когда пользователь уже ввёл адрес, но ещё не нажал «Заказать»). Если показатель был высокий, система заранее начинала искать водителя, чтобы ускорить подачу.

В своё время эта фича доказала эффективность на экспериментах, но с тех пор рынок такси сильно изменился. У нас были сомнения насчёт того, сколько пользы модель приносит теперь и не стоит ли выделить эти вычислительные ресурсы на что-то другое.

При этом мы не могли поставить обычный А/B-тест

Допустим, у нас есть два пользователя: Таня (попала в тестовую группу) и Саша (попал в контрольную группу). Они работают в одном бизнес-центре и вечером после работы хотят уехать домой. Ребята одновременно нажимают на кнопку «Заказать», но Таня получает водителя чуть быстрее, потому что находится в тестовой группе, и ей назначается ближайший исполнитель. А Саше достаётся ближайший оставшийся исполнитель, который может быть далеко. Саша недоволен, он отменяет такси и едет домой на метро.

Это хороший пример сетевого эффекта, когда одна группа влияет на другую и меняет результаты исследования.

Поэтому мы использовали свитчбэк

Нам не подходит рандомизация на уровне пользователя, поэтому мы начали делить группы по зоне и времени. Например, в Казани с 08:00 до 09:00 мы раскатывали на 100% пользователей контрольный алгоритм, а с 09:00 до 10:00 — тестовый. И так далее, чередуя периоды. Таким образом, внутри одного временного окна все пользователи находились в одинаковых условиях, и сетевые эффекты были сведены к минимуму.

Что показал обратный эксперимент

🔵 Без фичи нагрузка на сервис снизилась на 13% (как мы и планировали)

🔵 При этом, что удивительно, время подачи (наша царь-метрика) только улучшилось

🔵 А бизнес-метрики остались без изменений

Если вы тоже думаете использовать свитчбэк-эксперимент — смотрите полную версию моего доклада на YouTube и VK Видео. Там я рассказываю, как выбрать правильную единицу наблюдений и избежать ошибки первого рода, а ещё отвечаю на вопросы из зала.

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2611👍10❤‍🔥2😢1👾1
😏 Закулисье разработки на big tech night

Уже 12 сентября в Москве состоится главный IT-ивент года — big tech night. Яндекс, Сбер, X5, Т-Банк и Lamoda откроют двери своих офисов для тех, кто любит технологии.

💠 Приходите, чтобы увидеть новые разработки, обменяться экспертизой, найти единомышленников и просто хорошо провести время.

Расписание докладов и все новости будем публиковать в телеграм-канале мероприятия.

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
11🔥4👀2
🍫 Разметка в Яндекс Лавке: как выстроить процессы сбора данных

Привет! На связи Николай Олигеров. Сейчас я работаю в Яндекс Путешествиях, а до этого был продуктовым аналитиком в Лавке — именно про неё будет моя история. Однажды мы с командой поняли, что больше не можем доверять своей событийной аналитике: параметры терялись, обсуждения затягивались, триггеры срабатывали не тогда, когда это было нужно.

👳 В карточках я расскажу, как мы полностью пересобрали систему разметки приложения Лавки: с автотестами, документацией, мониторингами и прозрачным процессом, в котором аналитики и разработка действуют бок о бок.

На верхнем уровне всё устроено довольно просто:

🔵 Пользователь взаимодействует с интерфейсом
🔵 Фронт собирает данные и формирует лог
🔵 Лог отправляется в Яндекс AppMetrica
🔵 DWH Лавки переносит события в свой контур

Почему выбрали Яндекс AppMetrica: по сути, это self-service-аналитика с минимальным порогом входа для менеджеров. Параметры приходят в JSON-структуре, легко парсятся, а события покрывают весь пользовательский путь. Это сильно ускоряет скоринг фич и любые продуктовые исследования.

Историю целиком ищите в статье на Хабре. Там я рассказываю, как ставить грамотное ТЗ к разработке и о чём не стоит забывать в процессе контроля качества.

💎 Статья будет полезна аналитикам, которые хотят наладить диалог с разработчиками и выстроить процессы сбора данных в своём сервисе.

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
10🔥5👏4👍2
🧑‍💻 Data Driven в Яндексе: приходите и посмотрите сами, как у нас всё устроено

Привет! Это важный пост для аналитиков: мы зафиналили список выступлений и спикеров на Data Driven 2025. Это большая конференция от бизнес-группы Поиск и Рекламные технологии: обсудим, как аналитику влиять на бизнес, искать новые точки роста и определять цифровое будущее нашего мира.

Собираемся 20 сентября в Москве и онлайн. Будут доклады наших экспертов, игры, нетворкинг и воркшоп. Для самых активных участников мы уже приготовили подарки: станции с Алисой и радиоуправляемых роботов.

🔢 А вот программа конференции

Доклады для продуктовых, data-аналитиков и Data Scientists:

🔵 Мария Акопян, руководитель команды end-to-end-качества AI-ассистента Алисы. Расскажет про end-to-end-оценку качества Алисы как универсального AI-ассистента

🔵 Владислав Немиро, руководитель группы аналитики рободоставки. Заглянет под капот рободоставки и покажет, как аналитика и метрики помогают достичь общей цели

🔵 Тимофей Струнков, руководитель группы аналитики Справочника в Яндекс Картах. Объяснит, как в Яндекс Картах построили интегральные метрики качества и эффективности

🔵 Роман Васильев, руководитель аналитики международного Поиска. Расскажет про аналитику для Яндекс Поиска на рынках Казахстана и Турции, а также про подходы к масштабированию

Доклады для data-инженеров, системных и BI-аналитиков:

🔵 Марина Нестерук, руководитель команды Датакаталога и Meta DWH. Расскажет, как ребята делают из Датакаталога полноценный продукт, не ограничиваясь его инфраструктурной составляющей

🔵 Владимир Дмитриев, BI-аналитик из команды визуализации данных и дашбордов. Рассмотрит дашборд как средство коммуникации разработчика с пользователем

🔵 Лера Терова, руководитель команды аналитической инфраструктуры. Объяснит, что такое дата-контракты и как они помогают навести порядок даже в самой запутанной экосистеме

🔵 Марат Сацкевич, разработчик в отделе подготовки и анализа больших данных. Расскажет про РитмМастер — реалтайм-процессинг для нового сервиса

💎 А офлайн-воркшоп проведёт Максим Стаценко, руководитель службы подготовки и анализа больших данных. Он покажет, как создать собственного агента для работы с данными. Важно: для участия в воркшопе вам понадобится ноутбук 💻

Зарегистрироваться на Data Driven 2025

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥115👍3
Как ML помогает победить неопределённость (и уверенно нажать на кнопку заказа)

Об этом нам рассказали ребята из Яндекс Такси: старший ML-разработчик Михаил Суворов и аналитик группы поиска и назначения водителей Алексей Чубуков.

💎 Для начала определим, в чём проблема. А если вы и так всё знаете про ETA, сразу переходите к карточкам — там только ML.

🈂️ Что такое ETA

Когда вы выбираете точку назначения в Яндекс Такси, вы сразу же видите примерное время подачи по каждому тарифу. Это и есть estimated time of arrival, или просто ETA. А от того, насколько корректно мы его посчитаем, зависит, какой тариф вы выберете. И поедете ли на такси вообще.

🈂️ Почему рассчитать ETA так сложно

🔵 Это всегда прогноз. Когда пользователь смотрит на список тарифов, ни один водитель ещё не взял его заказ
🔵 Мы работаем с очень динамичной системой. На дороге всё меняется ежесекундно. Кто-то берётся за заказы, кто-то их заканчивает, а другие успевают далеко уехать
🔵 Даже водители по соседству не всегда доступны. Возможно, у них включён режим, по которому они получают заказы только в направлении дома (мы называем это «репозишен»)
🔵 У нас высокая нагрузка на систему. Это сотни тысяч сессий/прогнозов, которые должны обновляться за доли секунды
🔵 Мы двусторонний маркетплейс. У водителя есть выбор, и он может не взять ваш заказ, а мы продолжим искать другую машину

🈂️ Почему бы не решить эти проблемы без ML

Действительно, можно использовать эвристики. Например, брать последние статистики времени подачи по району и времени суток или оценивать время по ближайшему к пользователю водителю.

Эвристики дают неплохую оценку, но ML помогает нам сделать её ещё точнее, так как мы лучше учитываем актуальное состояние маркетплейса. А нам важно, где именно окажутся свободные водители через 30 секунд и какие заказы они перехватят.

👳 Поэтому мы и внедрили ML для предсказания ETA. Об этом в карточках

Подписывайтесь:
💬 @Yandex4Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥155👍21😍1🆒1