Борзило
5.8K subscribers
525 photos
26 videos
5 files
242 links
⇨ Про аналитику, продукты, маркетинг
⇨ Автор курса по АБ тестам
⇨ Смело пиши - @borzilo_y


ИНН 026702638983
Download Telegram
Попал в список 500 людей, блогов, ресурсов, которых читают аналитики.

По данным исследования от NewHR

Полный список тут

Приятно, что вы меня читаете😻
🔥4510🎉2
🗂 Мои посты про АБ тесты

1. Минус АБ теста с триалом
2. Анализ АБ тестов с помощью Retentioneering
3. Почему не стоит выкатывать тестовый вариант, если был получен статистически не значимый результат в АБ тесте?
4. Что влияет на размер выборки и длительность  АБ теста?
5. Где брать сильные гипотезы для роста конверсии?
6. Выбор метрик для АБ теста воронки
7. SRM(sample ratio mismatch) - несоответствие соотношения выборок
8. Почему важно учитывать недельную сезонность при планировании срока проведения АБ теста?
9. 5 направлений в которых вы можете накосячить при запуске АБ тестов
10. Интересное исследование от optimizely (платформа АБ тестов)
11. Часть 1. Почему метрики посчитанные на основе сеансов плохо подходят для оценки АБ тестов?
12. Часть 2. Почему метрики посчитанные на основе сеансов плохо подходят для оценки АБ тестов?
13. Часть 3. Почему метрики посчитанные на основе сеансов плохо подходят для оценки АБ тестов?
14. Айсберг АБ тестов
15. Прокси метрики в АБ тестах
16. Доктор, у меня АА тест прокрасился. Это норма?
17. Часть 1. Как проверить корректность системы сплитования трафика для АБ тестов?
18. Часть 2. Как проверить корректность системы сплитования трафика для АБ тестов?
19. Условие применимости t testа
20. Выбросы в АБ тестах. Удалять или нет?
21. Вкалывают роботы, а не человек. Как chat GPT мне АБ тест посчитал?
22. Две крайности АБ тестирования
23. Проверка валидности результатов АБ тестирования
24. Как подобрать уровень значимости α и мощность для АБ теста?
25. Метрики для АБ тестов
26. Peeking problem - проблема подглядывания в АБ тестах или почему не стоит стопать эксп раньше времени
27. Ошибка первого рода, альфа, p-value. В чем разница?
28. 4 подхода к работе с защитными метриками в АБ тесте
29. SRM. Калькулятор и обсуждение
30. Как проводить больше успешных АБ тестов в единицу времени? Часть 1
31. Как проводить больше успешных АБ тестов в единицу времени? Часть 2
32. Число пользователей страницы не равно числу пользователей, которые попадут под экспериментальное воздействие
33. Почему дисбаланс выборок считается серьезной проблемой?
34. Чем отличается хорошая гипотеза от плохой?
35. Проверка гипотез ≠ АБ тесты
36. Почему не корректно брать для расчета результатов АБ теста только пользователей взаимодействовавших с фичей?
37. Анализ результата АБ теста
38. Чек- лист: 30 ошибок, которые можно допустить при проведении АБ теста
39. Чек- лист: проблемы, которые могут вызывать SRM(дисбаланс выборок)
40. Мысль про односторонний/двусторонний тест
41. Почему важен размер выборки в АБ тестах?
42. Связь гипотеза - аудитория в АБ тесте
43. Что такое экспериментальная культура?
44. 10 вопросов про метрики, которые стоит задать себе при дизайне АБ теста
45. Чек-лист для проверки валидности платформы АБ тестирования
46. Как начать делать АБ тесты в компании, если вы их еще не делаете?
47. Базовые требования к модулю сплитования АБ тестов
48. Базовые требования к модулю сплитования АБ тестов. Часть 2
49. Платформа АБ тестов - основные модули
50. Схемы проведения АБ тестов
51. АА тесты какие и когда применять
52. Список вопросов для диагностики АБ тестов в командах
53. Эффекты первичности и новизны в АБ тестах
54. Как понять, что пора делать АБ тесты и понять, что это даст ценность для бизнеса?
55. Да как разобраться в этих стат критериях?
56. Наглядно про ошибку первого рода
57. Стоит ли смотреть на устойчивость p-value во времени
58. Ухудшающие АБ тесты
59. Что такое АБ тест
60. Чем плох анализ эффекта до/после релиза фичи?
61. 30% стат значимых АБ ложноположительные, но у меня же альфа 5%?
62. Давайте увеличим трафик на период проведения эксперимента?
63. Ошибки при оценке SRM
64. 5 реальных причин SRM с которыми я сталкивался на практике
65. Чем отличается АБ тест и пилотный эксперимент?
66. Дисперсия -священная корова АБ тестов
67. Стоит ли использовать пятерочка-дни?
68. Почему АБ тест - это НЕ идеальный инструмент оценки изменений
69. 7 мифов про АБ
70. 6 советов как учить статистику
71. Мифы про АБ ч2
🔥10513👍3👎1
⚖️ Как подобрать уровень значимости α и мощность для АБ теста?

По умолчанию рекомендуют использовать α = 5%, power = 80%.

α = 5% означает, что в случае если нулевая гипотеза истинно верна, то в 5% случаев мы будем её отклонять и считать что она не верна, т.к. стат критерий обнаружит значимую разницу.

power = 80% означает, что в случае если нулевая гипотеза истинно не верна и между вариантами действительно есть значимые отличия, то в 80% случаев мы будем эти отличия обнаруживать, а в 20% нет, т.е. допускать ошибку второго рода β.

Надеюсь текст выше был вам понятен. Зачастую встает вопрос, а какие именно параметры α и мощность брать. Чтобы в этом разобраться давайте рассмотрим 2 примера.

1. Планируем запуск нового сервиса.
Компания планирует запуск рекомендательного сервиса в продукте и ожидает, что это даст прирост дохода на пользователя.

Разработка рекомендательного сервиса дело не быстрое и дорогое, нужна команда, отдельные сервера под сервис и прочее.

Бизнес хочет понять, а действительно ли для пользователей важны рекомендации и они могут дать значимый прирост метрики, перед тем как делать рекомендательный сервис.

Чтобы оценить перспективность идеи решают для отдельных выборок пользователей подготовить ручные рекомендации, собранные людьми или например каким-то простым алгоритмом и потом привязать их к определенным пользователям.

В этой ситуации у нас еще нет рекомендательного сервиса, его разработка стоит дорого и нам важно убедиться, что он действительно даст значимый прирост arpu.

В такой ситуации я бы постарался взять α < 5%, например 1% или 0,01%. Т.к. нам нужно точно знать, что сервис будет приносить рост дохода и что наш результат АБ теста это не ложноположительный результат.

Не приятно потратить пол года разработки, кучу денег, а потом обнаружить, что сервис рекомендаций не дает прироста, т.к. на АБ тесте мы получили ложноположительный результат.

2. Мы уже запустили новый сервис
Допустим все тот же рекомендательный сервис. Но мы перед тем как его делать не проводили АБ тест, чтобы оценить перспективность идеи.

Полгода разработки прошли, куча денег потрачена, все очень верят и хотят результат.

Здесь бы я постарался максимизировать мощность АБ теста и вместо 80% взял бы например 95%.

Все затраты на разработку уже произведены и для нас очень важно найти стат. значимый прирост.

Потому что жалко просто выкинуть результат работы за пол года по причине того, что тест имел недостаточную мощность и не сумел найти прирост, хотя он на самом деле есть.

Максимизируя мощность, мы уменьшаем вероятность ошибки второго рода. Если мы берем мощность 95%, то ожидаем, что обнаружим стат значимое изменение в 95%, а не 80% случаев, как при стандартном уровне мощности.
🔥21👍8
❤️ Сегодня у меня 3 месяца в Альфа Банке

Первые 2 месяца был погружен в аудит системы АБ тестирования и решения точечных проблем веб-аналитики + проработку общего пайплайна АБ тестирования сайта.

В этом месяце я наконец-то вышел к коллегам, рассказал о результатах аудита.

Провел 2 семинара, где поделился своим опытом и знаниями.

В планах сделать мини-курс с базой АБ тестирования и мат.статистики, на примере работы с коэффициентом конверсии, для внутренних слушателей.

Сейчас интегрируюсь в работу с продуктовыми командами, помогаю продактам проводить АБ тесты, вроде ребята довольны =)

Есть потенциал у направления поиска точек роста при помощи продуктовых исследований, но меня пока на это не хватает, т.к. много задач в АБ тестах. Надеюсь в будущем доберемся и до этого.
Please open Telegram to view this post
VIEW IN TELEGRAM
🎉44👍15🔥121👏1
Поражаюсь возможностям ChatGPT

Я ему написал: "Просимулируй групповую ошибку первого рода для АА теста в котором контрольный вариант сравнивается с 5 тестовыми. Какой уровень групповой ошибки будет при альфа 0.05"

Он понял, что я от него хочу, написал теоретическое пояснение к FWER, написал код для симуляции, провел симуляции и выдал подходящий ответ.
🔥24
🕹 Оффтоп. Давайте обсудим компьютерные игры для ПК.

Какую игру вы считаете самой выдающейся и легендарной?

Для меня это WarCraft 3 (не дота). Я даже когда-то, в 2004, мечтал стать киберспортсменом.
👍10
Как ваши дела? Меня, что-то завалило. Дизайны АБ тестов, укрощение трекинга веб-аналитики, подготовка учебных материалов по АБ тестированию и еще тележка задач, которые в очереди
🎉133👍1
Хотите пост 5 бесплатных курсов по АБ тестированию на русском языке?
Final Results
15%
Нет
85%
Да
9 бесплатных курсов по АБ тестированию на русском языке и 1 гайд на английском
1. Курс Архангельского Введение в эксперименты
2. АБ тесты от Глеба
3. Курс АБ от Филлип Ульянкин
4. АБ тесты ЯП
5. Перевод курса от dynamic yeld
6. АБ тесты в играх
7. Курс по статистике(проверка гипотез) от Авито
8.Курс ВШЭ Нерсес Багиян (репозиторий)
9. Курс по АБ DilemmaLab
10.AB test guide от growth book
Всегда включайте критическое мышление, фильтруйте что вам говорят на курсах и перепроверяйте. Перепроверка самого себя и других - это 50% времени работы аналитика😄
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥51👍7❤‍🔥1🤝1
🕹 Оффтоп. На прошлой неделе обсуждали компьютерные игры.

Сегодня давайте обсудим игры для консолей, в частности PS(у меня ps4).

Пишите ваши любимые игры. У меня любимая god of war, буду рад если порекомендуете что-то такое же крутое, где можно кромсать врагов секирами 🪓
👍3
Пришли новые книжечки, читать я их конечно же не буду😂(когда-нибудь буду)
😁23👍53🔥1
Открыл книгу по математике, словил флешбеки из 10 класса. Вы с формулами и всякими обозначениями дружите? Я не особо)) У меня вообще должна была быть 3 по математике в школе, но я ЕГЭ хорошо написал, пришлось 4 поставить😁
👏7🤔2🤯2
ВКонтакте открывает набор на бесплатный курс "Введение в анализ данных".

Успевайте запрыгнуть https://education.vk.company/program/217
👏13🔥6
А вам не кажется, что продуктовый аналитик это тот же самый экономист?

Только вместо реальных активов, ему дали цифровой продукт, вместо экселя модный SQL и python.

Но задачи остались те же самые, анализировать экономику предприятия, оптимизировать процессы, искать точки роста, только все это в цифровой среде.
🤝19👍2👎1
В этом году уже 9 лет как работаю удаленно.

Получается, я после универа только 3 года работал в офисе, а потом только удаленно.

Вообще в офисах классно, я бы ходил...
13😁8
Корреляция между переменными, не означает наличие причинно-следственной связи.

Она может быть обусловлена какой-то другой переменной, также не всегда ясно какая именно переменная является зависимой, а какая оказывает влияние.

Есть такое направление в аналитике, как Causal Inference. Это направление как раз пытается решить вопрос причинно следственных связей, т.е. определенные методы, которые помогают делать обоснованные выводы.

В продуктовой аналитике, да и в любом анализе крайне важно отличать что есть следствие, а что причина и уметь находить причины падения выручки, роста трафика, оттока клиентов и прочего.

Наткнулся на интересную книгу по теме причинного вывода, она находится на гитхабе автора в открытом доступе.https://matheusfacure.github.io/python-causality-handbook/landing-page.html

P.S. Только не говорите, что вы ещё вчерашние 6 курсов по АБ тестам не прошли😁
🔥6😁41
Метрики для АБ тестов

Предлагаю сегодня затронуть тему важности и неоднозначности выбора метрик для АБ тестирования

Базово я предлагаю отталкиваться от того, что в веб-аналитике есть 3 сущности: событие, сессия, пользователь, можно придумать что-то еще, но пока так. Все эти сущности могут быть использованы в качестве базиса для расчета метрик. Но одна и та же метрика рассчитанная на основе разных базисов будет иметь разный смысл, разные значения и потребует разные подходы для оценки размера выборки и подведения результатов АБ теста.

Представим, что у нас есть сайт, а на нем баннеры и мы хотим в качестве метрики для оценки взять CTR

У нас есть 3 варианта посчитать CTR
1. CTR_event = число кликов / число показов.
Для 1 пользователя может быть множество показов и кликов. Она хорошо подойдет когда нам важно учитывать не только факт клика отдельного пользователя, но и интенсивность кликов. Такая метрика, считается метрикой отношения. Для неё необходимо вычислять дисперсию особым образом(дельта-метод) и на основе этой дисперсии можно считать выборки и подводить результаты АБ теста.

2. CTR_user = число пользователей у которых был хотя бы 1 клик / число пользователей у которых бы 1 просмотр баннера.
Это в целом нормальный подход, но он никак не учитывает интенсивность кликов у пользователей. Такая метрика считается поюзерной. Размер выборки и расчет результатов легко провести при помощи калькуляторов.

3. CTR_sessions = число сессий в которых был хотя бы 1 клик по баннеру / число сессий в которых был хотя бы 1 показ баннера.
Для 1 пользователя может быть множество сессий. Здесь в отличии от ctr_users мы уже можем учитывать интенсивность кликов, хотя и ограничиваясь рамками сессий. Такая метрика, считается метрикой отношения. Для неё необходимо вычислять дисперсию особым образом(дельта-метод) и на основе этой дисперсии можно считать выборки и подводить результаты АБ теста.


4. Среднее число кликов на пользователя.
Считается как число кликов / Число пользователей. Эта метрика похожа на CTR, но в числители и знаменателе разные базисные единицы. В числители - клики, в знаменателе - пользователи. Такая метрика учитывает интенсивность кликов. Эта метрика считается поюзерной, но её распределение не является биномиальным в отличии от CTR_user, поэтому тут тоже не подойдут калькуляторы, которые рассчитаны для конверсии. Тут также необходимо будет вычислить сначала дисперсию метрики, а потом отталкиваясь от дисперсии рассчитать размер выборки. Для подведения результатов необходимо будет использовать t test

Этим постом я еще раз хотел подчеркнуть особую важность выбора метрик и важность четко понимать как именно метрика должна считаться. Потому что когда говорят “конверсия” или “ctr”, то могут иметь совершенно разные вещи. Например выше самые распространенные варианты того что имеют в виду когда говорят ctr. Но все это разные метрики:

- которые будут иметь разные значения,
- будут отвечать на разные вопросы
- для планирования и оценки АБ тестов на основе этих метрик потребуются разные подходы
🔥15👍21
Месяц с CHAT GPT 🤖
Прошел месяц как я стал активным пользователем chat gpt. Хочу рассказать для каких задач я его использую.

1.Картинки
Картинки, которые вы видели в этом чате последний месяц это дело рук gpt. К этому посту картинка тоже создана при помощи chat gpt

2. Обучение
Мне нравится как он объясняет разные темы и генерирует разные примеры. Например недавно chat gpt объяснял мне байесовскую статистику и регрессионные модели.

Конечно иногда он может ошибаться в деталях, но в целом для погружения в новую тему достаточно удобный инструмент, мне кажется обучение с gpt ускоряется в 2-3 раза по сравнению с обычным нагугливанием и поиском статей.

Еще мне нравится, что можно ему написать, что то вроде "я не понял как интерпретировать коэффициенты у конфаундеров в регресии, объясни понятно на конкретном примере " и он быстро сделает понятный пример и даст интерпретацию, т.е. такая имитация работы с учителем.

3. Генерация симуляций
Я уже писал пост где рассказывал как gpt мне симуляции генерировал. Симуляции это отличный способ понять как работают какие-то механики и сущности в АБ тестах.

Например при помощи симуляций можно на практическом примере понять, что такое мощность АБ теста. Обычно симуляции делаются при помощи python. Можно попросить GPT написать код для какой-то симуляции или даже сразу выдать результаты по этой симуляции.

4. Написание SQL и python кода
Иногда пишешь какой-нибудь код и на тебя нападает тупняк, можно пару часов просидеть и думать как реализовать какую-то трансформацию или функцию.

Теперь я не туплю, а иду в gpt и описываю ему, что я хочу посчитать и он мне пишет подходящий код, который я потом проверяю и обычно он работает правильно. Т.е. я могу экономить время за счет того что теперь не надо тупить над кодом.

P.S. Делитесь вашими кейсами использования gpt и других ИИ
🔥23👍11
😢18😁4🔥21🌚1
Картинка старая, но все ещё актуальная
👍37😁14
🌋 Peeking problem - проблема подглядывания в АБ тестах или почему не стоит стопать эксп раньше времени

На прошлой неделе в комментах попросили объяснить проблему подглядывания и ранней остановки АБ тестов. Решил, что это будет полезно многим. Поэтому вынесу в отдельный пост и даже подготовил симмуляцию в коллабе.

Что такое подглядывание?
Например вы каждый день ходите и смотрите результат АБ теста, считаете p value и готовы как только АБ тест покажет стат значимое изменение p_val<0.05, признать его завершенным.

Такой подход увеличивает ошибку первого рода. Т.е. вы будете часто находить стат значимые изменения в экспериментах в которых в реальности разницы между вариантами нет.

А мы хотим минимизировать ошибки, а такой подход их увеличивает. Чтобы понять эту тему, нужно понять что такое ошибка первого рода и как она возникает и как работают статистические критерии для проверки гипотез - их идею.

Про симуляции
Симуляция демонстрирует, как влияет досрочная остановка эксперимента на уровень ошибки первого рода.

Первый вариант оценивает ошибку первого рода на 1000 АА тестов при фиксированном размере выборки.

Второй вариант оценивает ошибку первого рода на 1000 АА тестов при подглядывании, когда мы каждый день дособираем по +100 пользователей в выборки и каждый раз рассчитываем p value при помощи t test
👍14😁2