Почему среднее значение не всегда имеет смысл?
Мы все привыкли усреднять, это очень удобный инструмент для обобщения, но не всегда среднее имеет смысл, а иногда усреднение и вовсе может вводить в заблуждение.
В статистике есть понятие меры центральной тенденции, обычно к ним относят среднее, медиану и моду.
Давайте подумаем над тем, что такое центральная тенденция - тенденция это некоторое направление, куда стремятся большинство наблюдений выборки.
Т.е. это такая мера, которая бы хорошо описывал большинство данных в выборке и позволяла бы нам обобщать на основе этой меры и делать какие-то общие выводы.
✅ Когда среднее не имеет смысла?
К примеру мы измерили средний рост животных. В выборку взяли 10 ежиков, 5 слонов, 3 крокодила, 1 медведь и получили какое-нибудь число, например 70 сантиметров.
Что характеризует это число? Бывают ли ежики ростом 70 см, кажется нет, бывают ли слоны высотой 70 см, даже новорожденные слоны около 1 м высотой, кажется что медведь может быть высотой 70 см, но он всего 1 в нашей выборке.
Т.е. получается, что вроде мы посчитали средний рост животных, но он не описывает никакую реальную тенденцию в данных, т.к. у нас почти нет животных с ростом близким к 70 см.
Если мы на основе этой цифры захотим сделать вывод о каком-то среднем росте животных, то это ничего не даст, в реальности таких животных будет мало. Т.е. в данном случае среднее скорее запутает, чем внесет какую-то ясность.
Чтобы среднее при изучении животных имело смысл нужно считать его в рамках каждого вида животных, а возможно даже бить виды еще на подклассы по возрасту и считать среднее для каждого вида животного в зависимости от возраста животного, т.к. взрослые особи выше, чем молодые.
✅ Бизнес пример
Перейдем от нашей программы "в мире животных" к бизнес примеру.
Например у нас есть оптовые покупатели и розничные, у оптовых средний чек 100 000 р, а у розничных 5000 р. К примеру если усреднить по всем клиентам, то получим средний чек 25000 р, это в 5 раз больше чем в рознице и в 4 раза меньше чем в опте.
Соответственно это число ничего не характеризует, усредненный общий показатель будет иметь большую дисперсию вызванную межгрупповыми отличиями.
Тут как и в примере с животными нужно смотреть на показатели в разрезе типа покупателя, потому что усредненный показатель имеет в себе мало смысла, т.к. не отражает реальность, а следовательно сложно сделать вывод о причинах его изменения и понять какие решения на его основе нужно принимать.
На первый взгляд работа с метриками кажется очень простой задачей, но даже такая простая и заезжанная метрика как среднее может иметь в себе разные подводные камни при её применении
Мы все привыкли усреднять, это очень удобный инструмент для обобщения, но не всегда среднее имеет смысл, а иногда усреднение и вовсе может вводить в заблуждение.
В статистике есть понятие меры центральной тенденции, обычно к ним относят среднее, медиану и моду.
Давайте подумаем над тем, что такое центральная тенденция - тенденция это некоторое направление, куда стремятся большинство наблюдений выборки.
Т.е. это такая мера, которая бы хорошо описывал большинство данных в выборке и позволяла бы нам обобщать на основе этой меры и делать какие-то общие выводы.
✅ Когда среднее не имеет смысла?
К примеру мы измерили средний рост животных. В выборку взяли 10 ежиков, 5 слонов, 3 крокодила, 1 медведь и получили какое-нибудь число, например 70 сантиметров.
Что характеризует это число? Бывают ли ежики ростом 70 см, кажется нет, бывают ли слоны высотой 70 см, даже новорожденные слоны около 1 м высотой, кажется что медведь может быть высотой 70 см, но он всего 1 в нашей выборке.
Т.е. получается, что вроде мы посчитали средний рост животных, но он не описывает никакую реальную тенденцию в данных, т.к. у нас почти нет животных с ростом близким к 70 см.
Если мы на основе этой цифры захотим сделать вывод о каком-то среднем росте животных, то это ничего не даст, в реальности таких животных будет мало. Т.е. в данном случае среднее скорее запутает, чем внесет какую-то ясность.
Чтобы среднее при изучении животных имело смысл нужно считать его в рамках каждого вида животных, а возможно даже бить виды еще на подклассы по возрасту и считать среднее для каждого вида животного в зависимости от возраста животного, т.к. взрослые особи выше, чем молодые.
✅ Бизнес пример
Перейдем от нашей программы "в мире животных" к бизнес примеру.
Например у нас есть оптовые покупатели и розничные, у оптовых средний чек 100 000 р, а у розничных 5000 р. К примеру если усреднить по всем клиентам, то получим средний чек 25000 р, это в 5 раз больше чем в рознице и в 4 раза меньше чем в опте.
Соответственно это число ничего не характеризует, усредненный общий показатель будет иметь большую дисперсию вызванную межгрупповыми отличиями.
Тут как и в примере с животными нужно смотреть на показатели в разрезе типа покупателя, потому что усредненный показатель имеет в себе мало смысла, т.к. не отражает реальность, а следовательно сложно сделать вывод о причинах его изменения и понять какие решения на его основе нужно принимать.
На первый взгляд работа с метриками кажется очень простой задачей, но даже такая простая и заезжанная метрика как среднее может иметь в себе разные подводные камни при её применении
👍17❤1
Придумал аналитическо-блогерский анекдот
Что думает обычный блогер когда только выложил новый материал и он имеет мало лайков и низкую конверсию из просмотра в лайк: "О нет, этот материал плохой"
Что думает блогер-аналитик: Этот материал просмотрело еще мало людей, оценка конверсии еще не стабильна и доверительные интервалы широкие.
По мере набора просмотров конверсия в лайки будет стремиться к истинному среднему согласно закону больших чисел. Можно расслабиться и подождать пока показатель станет стабильным
Что думает обычный блогер когда только выложил новый материал и он имеет мало лайков и низкую конверсию из просмотра в лайк: "О нет, этот материал плохой"
Что думает блогер-аналитик: Этот материал просмотрело еще мало людей, оценка конверсии еще не стабильна и доверительные интервалы широкие.
По мере набора просмотров конверсия в лайки будет стремиться к истинному среднему согласно закону больших чисел. Можно расслабиться и подождать пока показатель станет стабильным
👍20❤1
This media is not supported in your browser
VIEW IN TELEGRAM
Опрос аналитиков
Тут NewHR запустили своё ежегодное исследование рынка продуктовых аналитиков, давайте поможем им собрать данных чтобы они могли проанализировать нас, а мы могли узнать ситуацию на рынке. Ниже оригинальный текст сообщения.
Что происходит на рынке продуктовых и дата-аналитиков?
Мы в NEWHR очень любим аналитиков и регулярно проводим полезные исследования: 2019г, 2020г, 2022г.
Профессии продуктового и дата-аналитика — среди самых востребованных на рынке. Мы хотим узнать, как они изменились за последнее время и в том числе — как поменялись зарплаты и за счёт чего. А ещё мы хотим выяснить, чего сейчас аналитики хотят от работодателей.
🕒 Анкета рассчитана на 20-25 минут. Ответив на простые вопросы, вы сможете рассказать про себя и позже узнать, как обстоят дела у других.
Специалисты выскажутся + работодатели узнают честное мнение = никто не пострадает!
Кстати, нам неважно, как называется ваша должность. Если вы считаете себя продуктовым или дата-аналитиком, мы ждём вас в нашем исследовании!
Пройдите опрос сами и скиньте коллегам 🙌 Будет суперактуально и тем, кто в найме, и тем, кто нанимает сам.
Всем, кто заполнит анкету до конца, мы сделаем скидку на карьерные консультации и курсы Hello New Job!
👉 Пройти опрос
Тут NewHR запустили своё ежегодное исследование рынка продуктовых аналитиков, давайте поможем им собрать данных чтобы они могли проанализировать нас, а мы могли узнать ситуацию на рынке. Ниже оригинальный текст сообщения.
Что происходит на рынке продуктовых и дата-аналитиков?
Мы в NEWHR очень любим аналитиков и регулярно проводим полезные исследования: 2019г, 2020г, 2022г.
Профессии продуктового и дата-аналитика — среди самых востребованных на рынке. Мы хотим узнать, как они изменились за последнее время и в том числе — как поменялись зарплаты и за счёт чего. А ещё мы хотим выяснить, чего сейчас аналитики хотят от работодателей.
🕒 Анкета рассчитана на 20-25 минут. Ответив на простые вопросы, вы сможете рассказать про себя и позже узнать, как обстоят дела у других.
Специалисты выскажутся + работодатели узнают честное мнение = никто не пострадает!
Кстати, нам неважно, как называется ваша должность. Если вы считаете себя продуктовым или дата-аналитиком, мы ждём вас в нашем исследовании!
Пройдите опрос сами и скиньте коллегам 🙌 Будет суперактуально и тем, кто в найме, и тем, кто нанимает сам.
Всем, кто заполнит анкету до конца, мы сделаем скидку на карьерные консультации и курсы Hello New Job!
👉 Пройти опрос
👍7
Целеполагание и годовое планирование
Смотрю, что многие сейчас пишут о том какие личные цели ставят на следующий год.
Наверное многие слышали идею, что правильные цели рождают правильные действия. Т.е. такие действия которые приведут к цели.
Но мало кто задумывается о том, а что рождает правильные цели?
?? → правильные цели → правильные действия
Одно время я увлекался практиками цигун и оттуда узнал следующую схему:
правильные состояния → правильные цели → правильные действия.
Практика цигун как раз направлена на работу с состояниями человека. Под "правильным" я имею в виду то, что важно для конкретного человека, у каждого правильное будет своё.
Идея в том что для того чтобы выбрать правильные цели вы должны сначала войти в правильное состояние сознания, убрав лишнее.
Согласны с такой мыслью или у вас другой взгляд?
Смотрю, что многие сейчас пишут о том какие личные цели ставят на следующий год.
Наверное многие слышали идею, что правильные цели рождают правильные действия. Т.е. такие действия которые приведут к цели.
Но мало кто задумывается о том, а что рождает правильные цели?
?? → правильные цели → правильные действия
Одно время я увлекался практиками цигун и оттуда узнал следующую схему:
правильные состояния → правильные цели → правильные действия.
Практика цигун как раз направлена на работу с состояниями человека. Под "правильным" я имею в виду то, что важно для конкретного человека, у каждого правильное будет своё.
Идея в том что для того чтобы выбрать правильные цели вы должны сначала войти в правильное состояние сознания, убрав лишнее.
Согласны с такой мыслью или у вас другой взгляд?
👍17🤔6🥰1🎉1
🎏 Прокси метрики в АБ тестах
Сегодня предлагаю провести дискуссию по способам поиска и валидации прокси-метрик для экспериментов, у меня нет большого опыта в этом направлении, поэтому буду рад если читатели поделятся своими наработками в этом вопросе.
✅ Что такое прокси метрики?
Это метрики, которые более чувствительны и могут показать стат. значимый результат раньше чем целевая метрика. Например, как вариант, прокси метрикой для коэффициента конверсии в интернет магазине может быть коэффициент конверсии добавления товара в корзину или просмотр 3 карточек товара или добавление товара в избранное.
Как правило для эксперимента с прокси метриками требуется меньше трафика, что позволяет ускорить экспы и увеличить их количество. Но также с прокси метриками может быть много проблем. Они менее точные чем целевая, не все кто добавляет товары в корзину в итоге их купит.
В некоторых случаях целевая и прокси метрика могут вообще показывать противоположные результаты. Прокси улучшилась, а целевая ухудшилась.
Ниже я собрал несколько способов поиска и валидации прокси метрик, которые мне кажется заслуживают внимания, если у вас есть дополнения или критика вэлком в комментарии.
✅ Как искать кандидатов на роль прокси метрик?
1. Здравый смысл и понимание причинно-следственной связи. Метрика должна быть связана с целями бизнеса и целевой метрикой (NSM), входить в иерархию метрик бизнеса.
2. Прокси метрика должна быть со направлена и иметь корреляцию с целевой метрикой
3. Разработка прокси метрик на основе фичей ml модели которые имеют большой вес при прогнозировании целевой метрики.
✅ Как валидировать выбранные метрики?
1. Ухудшающие эксперименты. Ухудшенный вариант должен показывать падение целевой и прокси метрики относительно контрольного варианта.
2. Анализ прошедших экспериментов. Берем эксперименты связанные с целевой метрикой и проверяем, что в тестовом варианте целевая и прокси метрика изменяются со направлено.
✅ Дополнительные материалы
Ниже 3 статьи о том как retail rocket искали и разрабатывали прокси метрики
Часть 1
Часть 2
Часть 3
Сегодня предлагаю провести дискуссию по способам поиска и валидации прокси-метрик для экспериментов, у меня нет большого опыта в этом направлении, поэтому буду рад если читатели поделятся своими наработками в этом вопросе.
✅ Что такое прокси метрики?
Это метрики, которые более чувствительны и могут показать стат. значимый результат раньше чем целевая метрика. Например, как вариант, прокси метрикой для коэффициента конверсии в интернет магазине может быть коэффициент конверсии добавления товара в корзину или просмотр 3 карточек товара или добавление товара в избранное.
Как правило для эксперимента с прокси метриками требуется меньше трафика, что позволяет ускорить экспы и увеличить их количество. Но также с прокси метриками может быть много проблем. Они менее точные чем целевая, не все кто добавляет товары в корзину в итоге их купит.
В некоторых случаях целевая и прокси метрика могут вообще показывать противоположные результаты. Прокси улучшилась, а целевая ухудшилась.
Ниже я собрал несколько способов поиска и валидации прокси метрик, которые мне кажется заслуживают внимания, если у вас есть дополнения или критика вэлком в комментарии.
✅ Как искать кандидатов на роль прокси метрик?
1. Здравый смысл и понимание причинно-следственной связи. Метрика должна быть связана с целями бизнеса и целевой метрикой (NSM), входить в иерархию метрик бизнеса.
2. Прокси метрика должна быть со направлена и иметь корреляцию с целевой метрикой
3. Разработка прокси метрик на основе фичей ml модели которые имеют большой вес при прогнозировании целевой метрики.
✅ Как валидировать выбранные метрики?
1. Ухудшающие эксперименты. Ухудшенный вариант должен показывать падение целевой и прокси метрики относительно контрольного варианта.
2. Анализ прошедших экспериментов. Берем эксперименты связанные с целевой метрикой и проверяем, что в тестовом варианте целевая и прокси метрика изменяются со направлено.
✅ Дополнительные материалы
Ниже 3 статьи о том как retail rocket искали и разрабатывали прокси метрики
Часть 1
Часть 2
Часть 3
👍11
❤7👏1🎉1
This media is not supported in your browser
VIEW IN TELEGRAM
тут кот Бендер попросил пояснить за твои АБ тесты
😁11👍1
Отзыв о консультации от Виктора
Помогаю не только начинающим аналитикам, но и ребятам с опытом погрузиться в отдельные темы.
У Виктора уже был опыт работы дата аналитиком в нескольких компаниях, но работать с задачами по настройке систем веб-аналитики не приходилось.
На консультации показал основные инструменты GTM, GA, ЯМ, обсудили как данные с сайта попадают в базы данных. Виктор получил роадмэп и список конкретных шагов и материалов для того чтобы быстро получить практический опыт в веб-аналитике. Также успели разобрать несколько вопросов связанных с АБ тестами.
Если у вас тоже есть желание бустануть какие-то направления работы аналитика, то приходите на консультацию. Подробные условия здесь
#консультации_отзывы
Помогаю не только начинающим аналитикам, но и ребятам с опытом погрузиться в отдельные темы.
У Виктора уже был опыт работы дата аналитиком в нескольких компаниях, но работать с задачами по настройке систем веб-аналитики не приходилось.
На консультации показал основные инструменты GTM, GA, ЯМ, обсудили как данные с сайта попадают в базы данных. Виктор получил роадмэп и список конкретных шагов и материалов для того чтобы быстро получить практический опыт в веб-аналитике. Также успели разобрать несколько вопросов связанных с АБ тестами.
Если у вас тоже есть желание бустануть какие-то направления работы аналитика, то приходите на консультацию. Подробные условия здесь
#консультации_отзывы
👍9
🫨 Почему отчеты в системах веб-аналитики не отражают точную ситуацию?
Некоторые аналитики, которые не работали с настройкой системами веб-аналитики могут думать, что сырые данные, которые они видят в БД или данные в интерфейсе системы являются валидными и полными, но зачастую это не так. Давайте обсудим, какие могут быть проблемы.
1. Кривая разметка сайта
У сайта может быть несколько шаблонов для разных страниц и в какие-то из них могли забыть воткнуть код счетчика и вы не собираете данные с этих страниц
Либо для части форм не настроено отслеживание отправки или отправка формы трекается при клике по кнопке, а не при валидной отправке формы.
Это лишь некоторые из проблем с разметкой.
2. Кривая utm разметка
utm метки используются для определения источника трафика. Кто-то из трафик менеджеров может забыть их поставить или заполнить не правильно и вот вы уже не можете понять откуда пришел трафик.
3. Серверные редиректы удаляющие utm метки
Иногда на сайтах не правильно настроены перенаправления между страницами. Например я встречал сайты где при открытии сайта происходил редирект и все get параметры удалялись из url, соответственно utm метки тоже.
4. Блокировки
Некоторые системы для блокировки рекламы, например adblock могут блокировать отправку запросов на сервера яндекс метрики. Соответственно таких пользователей вы просто не увидите в статистике систем веб-аналитики.
5. Удаление кук
Часть пользователей периодически чистят куки своих браузеров. При заходе на сайт система веб-аналитики проверяет наличие нужной куки и если её нет, то дает новую. По факту человек один и тот же, а кука новая и соответственно в статистику запишут 2 разных пользователей
6. Один пользователь использует несколько браузеров, устройств
Человек может посещать сайт с разных устройств или браузеров. Как и в примере с куками для счетчика веб-аналитики это 2 разных пользователя, хотя человек 1 и тот же.
7. Сетевые потери
Запрос, который отправляется из браузера пользователя на сервер системы аналитики проходит по сети, через разные узлы связи, на которых могут быть сбои и часть из отправленных запросов может просто не дойти до сервера системы аналитики.
8. Боты
Как правило ваш сайт посещают не только люди, но и боты. Это могут быть боты поисковых систем, которые индексируют сайт. Боты нечестных веб мастеров, которые скликивают вашу рекламу и имитируют действия на вашем сайте.
9. Медленный сайт
Если ваш сайт грузится медленно, то есть часть пользователей, которые не готовы ждать долгой загрузки сайта и покидают сайт до того как загрузится страница, а также до того как счетчик отправит данные на сервер системы веб-аналитики.
10. SPA сайты
Есть специальные библиотеки на которых пишут сайты Single Page Application. У таких сайтов не происходит перезагрузки страницы.
Для того чтобы корректно отслеживать все страницы на таких сайтах нужно применять специальные настройки систем веб-аналитики
11. Сэмплирование
Для снижения нагрузки на сервера систем веб аналитики при построении отчетов в интерфейсе может включаться сэмплирование, т.е.отчет строится не на полной выборке данных, а лишь на некоторой части данных.
Ставь🔥 , если инфа полезная
Пишите ваши дополнения в комменты👇
Некоторые аналитики, которые не работали с настройкой системами веб-аналитики могут думать, что сырые данные, которые они видят в БД или данные в интерфейсе системы являются валидными и полными, но зачастую это не так. Давайте обсудим, какие могут быть проблемы.
1. Кривая разметка сайта
У сайта может быть несколько шаблонов для разных страниц и в какие-то из них могли забыть воткнуть код счетчика и вы не собираете данные с этих страниц
Либо для части форм не настроено отслеживание отправки или отправка формы трекается при клике по кнопке, а не при валидной отправке формы.
Это лишь некоторые из проблем с разметкой.
2. Кривая utm разметка
utm метки используются для определения источника трафика. Кто-то из трафик менеджеров может забыть их поставить или заполнить не правильно и вот вы уже не можете понять откуда пришел трафик.
3. Серверные редиректы удаляющие utm метки
Иногда на сайтах не правильно настроены перенаправления между страницами. Например я встречал сайты где при открытии сайта происходил редирект и все get параметры удалялись из url, соответственно utm метки тоже.
4. Блокировки
Некоторые системы для блокировки рекламы, например adblock могут блокировать отправку запросов на сервера яндекс метрики. Соответственно таких пользователей вы просто не увидите в статистике систем веб-аналитики.
5. Удаление кук
Часть пользователей периодически чистят куки своих браузеров. При заходе на сайт система веб-аналитики проверяет наличие нужной куки и если её нет, то дает новую. По факту человек один и тот же, а кука новая и соответственно в статистику запишут 2 разных пользователей
6. Один пользователь использует несколько браузеров, устройств
Человек может посещать сайт с разных устройств или браузеров. Как и в примере с куками для счетчика веб-аналитики это 2 разных пользователя, хотя человек 1 и тот же.
7. Сетевые потери
Запрос, который отправляется из браузера пользователя на сервер системы аналитики проходит по сети, через разные узлы связи, на которых могут быть сбои и часть из отправленных запросов может просто не дойти до сервера системы аналитики.
8. Боты
Как правило ваш сайт посещают не только люди, но и боты. Это могут быть боты поисковых систем, которые индексируют сайт. Боты нечестных веб мастеров, которые скликивают вашу рекламу и имитируют действия на вашем сайте.
9. Медленный сайт
Если ваш сайт грузится медленно, то есть часть пользователей, которые не готовы ждать долгой загрузки сайта и покидают сайт до того как загрузится страница, а также до того как счетчик отправит данные на сервер системы веб-аналитики.
10. SPA сайты
Есть специальные библиотеки на которых пишут сайты Single Page Application. У таких сайтов не происходит перезагрузки страницы.
Для того чтобы корректно отслеживать все страницы на таких сайтах нужно применять специальные настройки систем веб-аналитики
11. Сэмплирование
Для снижения нагрузки на сервера систем веб аналитики при построении отчетов в интерфейсе может включаться сэмплирование, т.е.отчет строится не на полной выборке данных, а лишь на некоторой части данных.
Ставь
Пишите ваши дополнения в комменты
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥30
Вакансия продуктового аналитика в Альфу ❤️
Помогаю центру продуктовой аналитики найти клевых людей в команду
Требования
- Уверенное владение SQL и опыт работы с базами данных (Oracle/Postgres/MySQL, Google BigQuery, Hadoop, Vertica, SQL Server).
- Опыт работы с системами визуализации (Power BI, Tableau, Datalens, Superset, Google Data Studio, QlikView/QlikSense)
- Опыт построения автоматизированной отчетности: от сбора, хранения, подготовки данных до построения отчетов/дашбордов и проведения анализа данных.
- Владение Excel (сводные таблицы, формулы)
- Опыт работы с одной или несколькими системами аналитики: Appsflyer, Amplitude, Firebase, Mixpanel, Google Analytics, Яндекс.Метрика, AppMetrica или аналогами (не обязательно).
- Знание инструментов для автоматизации сбора, статистической обработки сырых данных (Python/R)
ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ?
- Организовать и автоматизировать сбор данных для отчетности, объединить данные систем-источников и строить регулярную отчетность/дашборды по клиентской активности.
- Принимать участие в исследованиях эффективности коммуникаций и точек входа, путей пользователей при совершении операций, помогать командам в генерации гипотез и проведении экспериментов.
- Погрузиться в процессы и текущие потребности продуктовых команд, наборы необходимых метрик и методик их расчета для оценки путей клиентов.
- Обеспечить регулярный аудит качества и полноты данных о поведении клиентов, а также матчинга онлайн и офлайн данных.
- Активно участвовать в разметке действий пользователей для системы продуктовой аналитики, в т.ч. взаимодействовать с продуктовыми командами в рамках этого процесса (от формирования набора метрик, до написания ТЗ и тестирования разметки)
Писать сюда https://xn--r1a.website/FleurDeLysss
Помогаю центру продуктовой аналитики найти клевых людей в команду
Требования
- Уверенное владение SQL и опыт работы с базами данных (Oracle/Postgres/MySQL, Google BigQuery, Hadoop, Vertica, SQL Server).
- Опыт работы с системами визуализации (Power BI, Tableau, Datalens, Superset, Google Data Studio, QlikView/QlikSense)
- Опыт построения автоматизированной отчетности: от сбора, хранения, подготовки данных до построения отчетов/дашбордов и проведения анализа данных.
- Владение Excel (сводные таблицы, формулы)
- Опыт работы с одной или несколькими системами аналитики: Appsflyer, Amplitude, Firebase, Mixpanel, Google Analytics, Яндекс.Метрика, AppMetrica или аналогами (не обязательно).
- Знание инструментов для автоматизации сбора, статистической обработки сырых данных (Python/R)
ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ?
- Организовать и автоматизировать сбор данных для отчетности, объединить данные систем-источников и строить регулярную отчетность/дашборды по клиентской активности.
- Принимать участие в исследованиях эффективности коммуникаций и точек входа, путей пользователей при совершении операций, помогать командам в генерации гипотез и проведении экспериментов.
- Погрузиться в процессы и текущие потребности продуктовых команд, наборы необходимых метрик и методик их расчета для оценки путей клиентов.
- Обеспечить регулярный аудит качества и полноты данных о поведении клиентов, а также матчинга онлайн и офлайн данных.
- Активно участвовать в разметке действий пользователей для системы продуктовой аналитики, в т.ч. взаимодействовать с продуктовыми командами в рамках этого процесса (от формирования набора метрик, до написания ТЗ и тестирования разметки)
Писать сюда https://xn--r1a.website/FleurDeLysss
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10👏2
Как в яндекс метрике создать когорту и посчитать для неё конверсию на основе пользователей, а не сеансов?
Перед новым годом я немного затрагивал проблему, которую может создавать конверсия рассчитанная на основе сеансов.
Если коротко, она может показывать падение, в то время как в реальности конверсия рассчитанная по людям(пользователя) дает рост.
Базис для расчета метрики
Еще один важный момент при расчете любых показателей это выборка на которой мы считаем показатель.
Например мы можем взять и посчитать метрику для всех пользователей которые заходили в наш продукт.
Такая метрика при усреднении может вводить в заблуждение из-за того что поведение новых и старых пользователей может сильно отличаться.
Для того чтобы понять как именно ведут себя новые пользователи, необходимо в качестве базиса для расчета метрик использовать когорту.
Когорта — группа людей объединенных первой датой посещения продукта. Например, когорта пользователей 1-7 мая, означает что они пришли в продукт впервые в период с 1 по 7 мая.
Создаем когорту в ЯМ
Давайте посмотрим, как в яндекс метрике построить когорту и посчитать поюзерную конверсию.
Для примера возьмем период анализа 1 апреля - 30 мая 2023 года.
Чтобы создать когорту идем в сегменты и создаем сегмент пользователей, в параметрах выбираем "дата первого визита" - 1-7 мая. Мы создали когорту.
Настройка поюзерной конверсии
Теперь идем в настройку "метрики" и выбираем для нужной цели метрики "Целевые посетители" и "Конверсия посетителей"
Теперь у вас есть отчет по когорте с метриками рассчитанными на основе пользователей, а не сеансов.
Обратите внимание на график. Мы задали период апрель-май 2023, но на графике нет данных до начала мая, т.к. когорта у нас 1-7 мая, но при этом у нас после 7 мая есть данные, потому что пользователи из когорты возвращаются и в последующие дни.
Перед новым годом я немного затрагивал проблему, которую может создавать конверсия рассчитанная на основе сеансов.
Если коротко, она может показывать падение, в то время как в реальности конверсия рассчитанная по людям(пользователя) дает рост.
Базис для расчета метрики
Еще один важный момент при расчете любых показателей это выборка на которой мы считаем показатель.
Например мы можем взять и посчитать метрику для всех пользователей которые заходили в наш продукт.
Такая метрика при усреднении может вводить в заблуждение из-за того что поведение новых и старых пользователей может сильно отличаться.
Для того чтобы понять как именно ведут себя новые пользователи, необходимо в качестве базиса для расчета метрик использовать когорту.
Когорта — группа людей объединенных первой датой посещения продукта. Например, когорта пользователей 1-7 мая, означает что они пришли в продукт впервые в период с 1 по 7 мая.
Создаем когорту в ЯМ
Давайте посмотрим, как в яндекс метрике построить когорту и посчитать поюзерную конверсию.
Для примера возьмем период анализа 1 апреля - 30 мая 2023 года.
Чтобы создать когорту идем в сегменты и создаем сегмент пользователей, в параметрах выбираем "дата первого визита" - 1-7 мая. Мы создали когорту.
Настройка поюзерной конверсии
Теперь идем в настройку "метрики" и выбираем для нужной цели метрики "Целевые посетители" и "Конверсия посетителей"
Теперь у вас есть отчет по когорте с метриками рассчитанными на основе пользователей, а не сеансов.
Обратите внимание на график. Мы задали период апрель-май 2023, но на графике нет данных до начала мая, т.к. когорта у нас 1-7 мая, но при этом у нас после 7 мая есть данные, потому что пользователи из когорты возвращаются и в последующие дни.
👍6❤4
Доктор, у меня АА тест прокрасился. Это норма?
Давайте поговорим про АА тесты. Это такой вид тестов когда в качестве вариантов(контроля и теста) запускаем 2 абсолютно одинаковых варианта.
Соответственно раз варианты одинаковые, а механизм распределения пользователей это рандом, то мы ожидаем, что наши целевые метрики в обоих вариантах будут одинаковые, ну или очень сильно похожи.
Но иногда в АА тестах вы получаете стат. значимые отличия метрик, хотя разницы-то в вариантах нет.
В таких случаях обычно сразу начинают искать проблему в механизме рандомизации или в имплементации самого эксперимента в продукте.
Как понять это норма или нет?
Давайте обратимся к идеи стат. тестов. Нулевая гипотеза — это гипотеза о том, что в вариантах нет разницы.
P value — это вероятность получить отличия в метрике, при условии, что отличий в вариантах нет.
Т.е. сам стат критерий устроен так, что он не дает вам точный ответ отличаются ли варианты или нет.
Он лишь дает некоторую вероятностную оценку того, что полученные отличия в метрике могут существовать при верности нулевой гипотезы.
Для проведения АБ теста мы задаем некоторый уровень альфа, с которым будем сравнивать p value и в случае если p val< альфа отвергать нулевую гипотезу.
Если мы проводим 1000 АА тестов при уровне альфа 5%, то примерно в 50 АА тестах мы получим стат значимые отличия в метрике, хотя никаких отличий в вариантах нет. Это так называемые ошибки первого рода и это нормально
Если вы проводите один АА тест и получили стат. значимые отличия, то тут нельзя говорить о том, что есть какие-то проблемы в рандомизации или имплементации эксперимента.
Для того чтобы оценить ситуацию более объективно вам нужно провести большее число АА тестов. Например провели вы 10 АА тестов и получили во всех 10 стат значимые отличия, то тут повод крепко задуматься о том что вы где-то косячите, т.к. получить стат. значимые отличия во всех 10 АА тестах маловеротяно.
Кроме этого есть подход когда мы на основе имеющихся данных проведенного АА теста, проводим множество искусственных симуляций и проверяем долю ложно положительных срабатываний критерия, она должна быть близка к альфе.
Если эта доля ложно положительных срабатываний на симуляциях сильно отклоняется от альфы, то это повод поискать проблемы.
Кроме этого завышенную долю ложных срабатываний на симуляцих могут давать ratio метрики, т.к. к ним зачастую нельзя применить стандартные стат. тесты в лоб.
Резюме
1. Если в рамках одного АА теста вы получили стат значимые отличия, то нельзя сделать вывод о не корректности работы вашей системы сплитования.
2. Проводите больше АА тестов, чтобы понять ситуацию точнее.
3. Используйте симуляции АА тестов.
4. Не всегда большая доля прокрасов на АА тестах это проблемы сплитования. Возможно вы просто используете ratio метрики без специальной обработки результатов теста.
Давайте поговорим про АА тесты. Это такой вид тестов когда в качестве вариантов(контроля и теста) запускаем 2 абсолютно одинаковых варианта.
Соответственно раз варианты одинаковые, а механизм распределения пользователей это рандом, то мы ожидаем, что наши целевые метрики в обоих вариантах будут одинаковые, ну или очень сильно похожи.
Но иногда в АА тестах вы получаете стат. значимые отличия метрик, хотя разницы-то в вариантах нет.
В таких случаях обычно сразу начинают искать проблему в механизме рандомизации или в имплементации самого эксперимента в продукте.
Как понять это норма или нет?
Давайте обратимся к идеи стат. тестов. Нулевая гипотеза — это гипотеза о том, что в вариантах нет разницы.
P value — это вероятность получить отличия в метрике, при условии, что отличий в вариантах нет.
Т.е. сам стат критерий устроен так, что он не дает вам точный ответ отличаются ли варианты или нет.
Он лишь дает некоторую вероятностную оценку того, что полученные отличия в метрике могут существовать при верности нулевой гипотезы.
Для проведения АБ теста мы задаем некоторый уровень альфа, с которым будем сравнивать p value и в случае если p val< альфа отвергать нулевую гипотезу.
Если мы проводим 1000 АА тестов при уровне альфа 5%, то примерно в 50 АА тестах мы получим стат значимые отличия в метрике, хотя никаких отличий в вариантах нет. Это так называемые ошибки первого рода и это нормально
Если вы проводите один АА тест и получили стат. значимые отличия, то тут нельзя говорить о том, что есть какие-то проблемы в рандомизации или имплементации эксперимента.
Для того чтобы оценить ситуацию более объективно вам нужно провести большее число АА тестов. Например провели вы 10 АА тестов и получили во всех 10 стат значимые отличия, то тут повод крепко задуматься о том что вы где-то косячите, т.к. получить стат. значимые отличия во всех 10 АА тестах маловеротяно.
Кроме этого есть подход когда мы на основе имеющихся данных проведенного АА теста, проводим множество искусственных симуляций и проверяем долю ложно положительных срабатываний критерия, она должна быть близка к альфе.
Если эта доля ложно положительных срабатываний на симуляциях сильно отклоняется от альфы, то это повод поискать проблемы.
Кроме этого завышенную долю ложных срабатываний на симуляцих могут давать ratio метрики, т.к. к ним зачастую нельзя применить стандартные стат. тесты в лоб.
Резюме
1. Если в рамках одного АА теста вы получили стат значимые отличия, то нельзя сделать вывод о не корректности работы вашей системы сплитования.
2. Проводите больше АА тестов, чтобы понять ситуацию точнее.
3. Используйте симуляции АА тестов.
4. Не всегда большая доля прокрасов на АА тестах это проблемы сплитования. Возможно вы просто используете ratio метрики без специальной обработки результатов теста.
❤12👍5
За вчерашний день из канала Job for Analysts & Data Scientists добавилось около 100 человек.
Предлагаю познакомиться. Расскажите кто вы, чем заинтересовал мой канал?
Старички, тоже могут присоединяться к беседе.
Начну с себя
Please open Telegram to view this post
VIEW IN TELEGRAM
❤19👍3
Какое условие должно выполняться, чтобы мы могли использовать t test для оценки АБ теста?
Final Results
31%
Данные выборок должны иметь нормальное распределение
69%
Выборочные средние должны иметь нормальное распределение
😁6
Как проверить корректность системы сплитования трафика для АБ тестов? 😵
1. Определите тестовые сценарии
Определите наиболее массовые и важные сценарии настроек АБ тестов и таргетингов. Например возьмите десктоп и мобилку и в каждом по 5 сценариев настройки.
Под сценарием настройки я имею в виду: долю пользователей попадающих в эксп, число вариантов теста, баланс выборок, таргетинги(гео, источники и прочее)
2. Выберите целевую метрику
При выборе метрик выбирайте такую метрику, чтобы единица рандомизации и единица анализа совпадали. Большинство сплит систем рандомизирует пользователей, значит нужно выбирать пользовательские метрики.
Если вы возьмете сессионные метрики, то велика вероятность поймать дисбаланс выборок(SRM) и множество ложных прокрасов FPR. По сессионным метрикам будет сложно оценить работу сплитовалки.
3. Запустите АА тесты и соберите данные
Какой-то формулы для расчета размера выборок для АА тестов я не знаю.
Руководствуйтесь 2 идеями. Выборки должны быть репрезентативны, т.е. в них должны попасть пользователи из разных источников с разными характеристиками, чтобы они отражали вашу ГС.
По возможности собирайте больше наблюдений. По закону больших чисел, с увеличением выборок выборочные метрики будут стремиться к истинным показателям ГС, а шум и смещение метрик будут минимизироваться.
1. Определите тестовые сценарии
Определите наиболее массовые и важные сценарии настроек АБ тестов и таргетингов. Например возьмите десктоп и мобилку и в каждом по 5 сценариев настройки.
Под сценарием настройки я имею в виду: долю пользователей попадающих в эксп, число вариантов теста, баланс выборок, таргетинги(гео, источники и прочее)
2. Выберите целевую метрику
При выборе метрик выбирайте такую метрику, чтобы единица рандомизации и единица анализа совпадали. Большинство сплит систем рандомизирует пользователей, значит нужно выбирать пользовательские метрики.
Если вы возьмете сессионные метрики, то велика вероятность поймать дисбаланс выборок(SRM) и множество ложных прокрасов FPR. По сессионным метрикам будет сложно оценить работу сплитовалки.
3. Запустите АА тесты и соберите данные
Какой-то формулы для расчета размера выборок для АА тестов я не знаю.
Руководствуйтесь 2 идеями. Выборки должны быть репрезентативны, т.е. в них должны попасть пользователи из разных источников с разными характеристиками, чтобы они отражали вашу ГС.
По возможности собирайте больше наблюдений. По закону больших чисел, с увеличением выборок выборочные метрики будут стремиться к истинным показателям ГС, а шум и смещение метрик будут минимизироваться.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥8
Как проверить корректность системы сплитования трафика для АБ тестов? Часть 2 😵
4. Оцените результаты АА тестов
4.1 Доля пользователей попавших в АА тест
Проверьте, что все пользователи, которые должны были попасть в АА тест попали в него. Например если в точке входа в эксперимент за неделю было 10000 пользователей, то все они должны иметь метку эксперимента
4.2 Корректность работы таргетингов
Проверьте, что в АА тест попадают только пользователи соответствующие таргетингу. Если вы запустили тест с Гео Москва, то в выборке пользователей попавших в эксп не должно быть пользователей из Твери.
4.3 Доля пользователей попавших в АА тест с первого раза
Проверьте, что пользователи, которые попали в АА тест получили вариант сразу при первом попадании в точку входа в эксперимент.
Например может быть баг, что часть пользователей почему то не попадают в эксперимент с 1 раза и видят сначала просто дефолтный вариант продукта, а потом получают тестовый вариант. Получается, что у пользователя будет 2 разных опыта, с 2 разными версиями продукта, что не корректно.
4.4 Пересечения. Доля пользователей, которые получили 2 варианта
Доля пользователей, которые получили разные варианты в рамках одного эксперимента. Эта проблема похожа на предыдущую. Но тут пользователю явно присваивается 2 варианта в ходе эксперимента, в то время как в предыдущем пункте это происходит не явно.
4.5 Баланс раскатки в соответствии с дизайном
Если вы заложили в эксперимента, что будете использовать для эксперимента 70% трафика, то важно чтобы система сплитования правильно деражала этот баланс.
4.6 Баланс веток АА теста в соответствии с дизайном
Здесь мы проверяем SRM (simple ratio mismatch) - несоответствие баланса выборок. Если мы заложили в настройки деление трафика 60/40%, то система сплитования должна выдавать очень близкий результат. Иначе результаты АБ тестов могут быть невалидными.
4.7 Баланс параметров внутри веток
Внутри выборок пользователи имеют разные параметры (гео, источники, браузеры и прочее). Если мы сплитуем 50%:50%, то в обоих вариантах доли этих параметров должны быть очень близки.
Важно помнить, что если мы захотим проверить баланс по множеству параметров при помощи стат. критерия, то скорее всего где-то найдем дисбаланс, т.к. возникнет ситуация множественных сравнений. Если хотите использовать стат. критерии, то занижайте альфу или используйте корректировки на множественное сравнение.
4.8 Число АА тестов со стат значимым результатом
Посмотрите в скольких из ваших АА тестов вы получили стат. значимое отличие метрик. Если вы запустили 10 АА тестов и например в 7 получили стат значимые отличия, то тут скорее всего есть проблемы сплитования. Если прокрасов нет или их 1-2, то такая ситуация может быть просто случайность.
4.9 Распределение p value
Распределение p value должно стремиться к равномерному. Как правило для того чтобы судить о распределении метрики нужно много наблюдений. Но даже если у вас есть всего 10 наблюдений, т.е. 10 АА тестов где вы считали p value, то вы ожидаете что какая -то часть будет иметь p-value близкое к 1, какая-то часть около 0,5, какая-то часть будет стремиться к 0. Если все p value сосредоточены только в нижнем или только в среднем или только в высоком диапазоне значений, то это тоже повод задуматься.
4.10 Оцените FPR на симуляциях АА тестов
Можно сгенерировать 10000 подвыборок из наших данных по эксперименту и провести искусственные АА тесты, чтобы понять корректно ли удерживается уровень ложно положительных срабатываний FPR. Мы ожидаем, что доля FPR на симуляциях АА тестов будет стремиться к уровню альфа, если выборки сформированы рандомно и не имеют серьезных дисбалансов.
4.11 Оцените распределение p-value полученное на симуляциях АА тестов
Здесь как и в пункте 3.9 нам нужно обратить внимание на форму распределения p value. Т.к. у нас есть много данных по симуляциям, то можно построить распределение. Если данные получены из корректного механизма рандомизации, то распределение p value будет стремиться к равномерному.
P.S.
Делитесь своими дополнениями к алгоритму проверки системы сплитования
4. Оцените результаты АА тестов
4.1 Доля пользователей попавших в АА тест
Проверьте, что все пользователи, которые должны были попасть в АА тест попали в него. Например если в точке входа в эксперимент за неделю было 10000 пользователей, то все они должны иметь метку эксперимента
4.2 Корректность работы таргетингов
Проверьте, что в АА тест попадают только пользователи соответствующие таргетингу. Если вы запустили тест с Гео Москва, то в выборке пользователей попавших в эксп не должно быть пользователей из Твери.
4.3 Доля пользователей попавших в АА тест с первого раза
Проверьте, что пользователи, которые попали в АА тест получили вариант сразу при первом попадании в точку входа в эксперимент.
Например может быть баг, что часть пользователей почему то не попадают в эксперимент с 1 раза и видят сначала просто дефолтный вариант продукта, а потом получают тестовый вариант. Получается, что у пользователя будет 2 разных опыта, с 2 разными версиями продукта, что не корректно.
4.4 Пересечения. Доля пользователей, которые получили 2 варианта
Доля пользователей, которые получили разные варианты в рамках одного эксперимента. Эта проблема похожа на предыдущую. Но тут пользователю явно присваивается 2 варианта в ходе эксперимента, в то время как в предыдущем пункте это происходит не явно.
4.5 Баланс раскатки в соответствии с дизайном
Если вы заложили в эксперимента, что будете использовать для эксперимента 70% трафика, то важно чтобы система сплитования правильно деражала этот баланс.
4.6 Баланс веток АА теста в соответствии с дизайном
Здесь мы проверяем SRM (simple ratio mismatch) - несоответствие баланса выборок. Если мы заложили в настройки деление трафика 60/40%, то система сплитования должна выдавать очень близкий результат. Иначе результаты АБ тестов могут быть невалидными.
4.7 Баланс параметров внутри веток
Внутри выборок пользователи имеют разные параметры (гео, источники, браузеры и прочее). Если мы сплитуем 50%:50%, то в обоих вариантах доли этих параметров должны быть очень близки.
Важно помнить, что если мы захотим проверить баланс по множеству параметров при помощи стат. критерия, то скорее всего где-то найдем дисбаланс, т.к. возникнет ситуация множественных сравнений. Если хотите использовать стат. критерии, то занижайте альфу или используйте корректировки на множественное сравнение.
4.8 Число АА тестов со стат значимым результатом
Посмотрите в скольких из ваших АА тестов вы получили стат. значимое отличие метрик. Если вы запустили 10 АА тестов и например в 7 получили стат значимые отличия, то тут скорее всего есть проблемы сплитования. Если прокрасов нет или их 1-2, то такая ситуация может быть просто случайность.
4.9 Распределение p value
Распределение p value должно стремиться к равномерному. Как правило для того чтобы судить о распределении метрики нужно много наблюдений. Но даже если у вас есть всего 10 наблюдений, т.е. 10 АА тестов где вы считали p value, то вы ожидаете что какая -то часть будет иметь p-value близкое к 1, какая-то часть около 0,5, какая-то часть будет стремиться к 0. Если все p value сосредоточены только в нижнем или только в среднем или только в высоком диапазоне значений, то это тоже повод задуматься.
4.10 Оцените FPR на симуляциях АА тестов
Можно сгенерировать 10000 подвыборок из наших данных по эксперименту и провести искусственные АА тесты, чтобы понять корректно ли удерживается уровень ложно положительных срабатываний FPR. Мы ожидаем, что доля FPR на симуляциях АА тестов будет стремиться к уровню альфа, если выборки сформированы рандомно и не имеют серьезных дисбалансов.
4.11 Оцените распределение p-value полученное на симуляциях АА тестов
Здесь как и в пункте 3.9 нам нужно обратить внимание на форму распределения p value. Т.к. у нас есть много данных по симуляциям, то можно построить распределение. Если данные получены из корректного механизма рандомизации, то распределение p value будет стремиться к равномерному.
P.S.
Делитесь своими дополнениями к алгоритму проверки системы сплитования
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥2