Статистика и R в науке и аналитике
5.31K subscribers
54 photos
124 links
Всем привет!
Подробнее о канале со списком самого интересного: https://xn--r1a.website/stats_for_science/108
Чат канала: https://xn--r1a.website/chat_stats_for_science
По всем вопросам - @lena_astr
Download Telegram
Округлые кнопки увеличивают конверсию на 55% (или нет 🤓)

В 2024 году в Journal of Consumer Research вышло исследование, что более скругленные кнопки на сайтах увеличивают конверсию в клик. В одном из тестов конверсия выросла с 7.2% до 11.2% – рост на 55%, с p-value 0.037 🚀
Аргументация авторов: округлые углы приятнее глазу, ассоциируются с безопасностью и меньшей жесткостью. Звучит как легкий способ поднять метрики без регистрации и смс)

Ну как, вы уже пошли проверять форму кнопок в своём продукте?

Но не торопимся скруглять кнопки – Рон Кохави (босс A/B тестов, автор книги "Trustworthy Online Controlled Experiments") с коллегами попытался воспроизвести эти результаты на реальном трафике. И вот что показали масштабные A/B тесты в 4 разных компаниях:

🟡SeaWorld Orlando – 2.9 млн пользователей, эффект +0.16%, p-value=0.20, незначимо
🟡Obs (норвежский ритейл) – 1.8 млн пользователей, эффект 0.73, p-value=0.09, незначимо
🟡Obs-BYGG (норвежский ритейл) – 2.2 млн пользователей, эффект +0.3%, p-value=0.29, незначимо
🟡Metro Russia – 7.4 млн пользователей, эффект -0.07%, p-value=0.83, незначимо. Пример скругленных и квадратных кнопок прикреплен к посту.

Каждая репликация была в тысячи раз масштабнее оригинала, но ни одна не подтвердила такую ракету роста.
В эксперименте от Metro Russia было еще интересное о правильном выборе ключевой метрики, подробнее можно почитать в посте Андрея Андреева (Head of eMerchandising). Коротко: разница между бинарной метрикой (добавил в корзину – да/нет) и счетчиком (количество добавлений) увеличивает нужный размер выборки в 8 раз – для счетчика выборка нужна больше. Вместо 1 млн пользователей вам нужно 8 млн и крутить тест 16 недель. Но в любом случае отсутствие эффекта было показано как на бинарной метрике, так и на счетчике.

А почему в исходном исследовании был показан рост на +55%?

Это классическое проклятие победителя (winner's curse) – когда публикуют только значимые результаты, причем самые успешные, с завышением истинной оценки эффекта. Часто в A/B тестировании можно обнаружить эффект больше, чем реально существующий (как посчитать реальный эффект рассказывал Сергей Матросов на прошлом матемаркетинге).
В оригинальном тесте было всего по ~450 человек на группу. На такой маленькой выборке рост конверсии по случайным причинам может превратиться в статистически значимый результат. Кохави применил метод Small Telescopes – суть в том, что если эффект, обнаруженный на малой выборке, действительно существует, то на миллионах пользователях мы его тем более обнаружим. Однако реального эффекта обнаружено не было, мощность оригинального исследования была недостаточной и есть серьезные основания думать, что рост конверсии на 55% был получен по случайным причинам.

Круто, а есть еще подобное?

История с круглыми кнопками это часть большого проекта: Кохави с коллегами запустили проект Trustworthy A/B Patterns – независимую проверку популярных UX-паттернов, которые считаются рабочими. Эксперты работают бесплатно, помогают компаниям правильно спроектировать и провести эксперименты, а взамен получают право публиковать результаты (тут самое сложное согласовать это со своим PR-отделом 🤓).
В очереди на проверку – открытие ссылок в новой вкладке, анализ размера поля купона, подчеркивание ссылок и не только, буду писать здесь о новых интересных результатах.

А вам больше нравятся круглые или квадратные кнопки?

#analytics #AB_tests
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥57237😱4👍3😁3👎1🙏1
Ускорение A/B тестов: Variance Weighted Estimator (осторожно много формул)

Снижение дисперсии – основной способ повысить чувствительность теста, а значит ускорить его без увеличения выборки. Классика жанра: CUPED, стратификация, последовательное тестирование.

Сегодня хочу рассказать про менее известный метод уменьшения дисперсии: Variance Weighted Estimator (VWE). Он похож на CUPED, тоже использует данные предпериода и ковариаты, но устроен немного иначе.

🟡Как работает CUPED

CUPED – это можно сказать ANCOVA (Analysis of covariance). Мы подбираем на предпериоде (до проведения теста) такую ковариату X, которая была бы скоррелирована с нашей метрикой Y:

Y_adj = Y − θ(X − E[X]), где θ = Cov(Y,X) / Var(X)

Мы вычитаем из Y ту часть вариативности, которую объясняет X. Ковариата должна измеряться на предпериоде и не зависеть от разбиения на группы. Работает тем лучше, чем выше корреляция X и Y.

Пример:

Вы тестируете новый дизайн корзины, где целевая метрика ARPPU. В качестве ковариаты X вы берете доход от того же пользователя за 2 недели до теста.
Результат: Те, кто много тратил раньше, скорее всего, много потратят и сейчас. CUPED «вычитает» этот вклад, оставляя влияние вашего изменения. Это резко уменьшает дисперсию и увеличивает мощность теста.


🟡Как работает VWE

VWE – это взвешенный линейный оцениватель, в котором каждому наблюдению назначается вес, обратно пропорциональный его условной дисперсии: w_i ∝ 1/Var(Y|X_i).
На практике Var(Y|X) неизвестна и оценивается по данным, поэтому нам нужны исторические данные хорошего качества.
По сути это WLS (Weighted least squares) регрессия, которая больше доверяет наблюдениям с низкой дисперсией.

Пример:
Вы анализируете время сессии в мобильном приложении. У вас есть два сегмента: «старички» (время на сервисе > 1 года) и «новички». У старичков поведение стабильно (низкая дисперсия), а новички ведут себя хаотично: кто-то закрывает через секунду, кто-то изучает всё подряд.

Результат: VWE присвоит более высокий вес данным стабильных пользователей. Это позволяет снизить итоговую дисперсию.


Мне еще понравилась аналогия от ребят из exp-tools: 10 человек оценивают стоимость квартиры — девять говорят уверенно «12–13 млн», один говорит «5–30 млн». Умный агрегатор меньше доверяет неуверенному.

🟡Ключевые отличия от CUPED:

– Гетероскедастичность: VWE эффективнее CUPED, когда дисперсия метрики неоднородна (например, сильно отличается между сегментами или типами пользователей).
– Множественные ковариаты: VWE естественным образом обобщается на несколько признаков через матрицу весов (но multi-cuped тоже можно делать).

VWE может хорошо зайти при большой частоте повторных действий (повторные покупки, взаимодействия с карточками товара и тп).

🟡VWE vs CUPED: что использовать

CUPED это база. Если подобрать хорошую ковариату, такую что корреляция X и Y высокая, то можно хорошо снизить дисперсию довольно простым способом.

VWE — более гибкий, но и сложнее. Выигрывает, когда дисперсия неоднородна между пользователями или сегментами. Если данные однородны, то преимущества перед CUPED особо нет. При использовании VWE нужно быть осторожнее: в некоторых случаях после подбора весов математическое ожидание может не сохраниться, и оценка станет смещенной. VWE требует более строгого контроля качества данных.

🟡Критически важные условия

Оба метода корректны только при соблюдении:
1. Ковариаты строго на предпериоде
2. Ковариаты не зависят от назначения в группы
3. Нет утечек информации из эксперимента

Важный нюанс: если веса или ковариаты оценены плохо, выигрыш в дисперсии может исчезнуть или обернуться проигрышем.

🟡Можно ли комбинировать?

Да, будет просто WLS-регрессия с ковариатами. Гарантии дополнительного снижения дисперсии нет, но при сильно неоднородных данных такая модель может выигрывать у каждого метода по отдельности.

🟡Попробовать на практике

Интерактивная симуляция, где можно посмотреть, как меняется дисперсия при разной корреляции и уровне шума. Чекайте канал Вита за обновлениями.

🟡Что еще почитать:

Статья от фейсбука с подробным математическим обоснованием

#AB_tests #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥2853👍2👎2❤‍🔥1👏1
🎲 Какая вероятность встретить динозавра на улице?
50/50: либо встречу, либо нет

🎲 Статистик утонул, переходя реку, средняя глубина которой составляла один метр

🎲 Летят два статистика в самолёте. Один другому говорит:
— Последнее время я очень боюсь летать самолётом, так как я рассчитал, что вероятность того, что на борту бомба, даже выше, чем вероятность погибнуть в автокатастрофе. Второй статистик отвечает:
— Да, я тоже проделал эти же вычисления и пришёл к такому же результату. Но я пошёл дальше. Вероятность того, что в самолёте две бомбы ничтожно мала, поэтому я теперь одну всегда вожу с собой.

🎲 Охотились как-то вместе три статистика. Видят — стоит олень. Первый БАХ. И попал на метр левее. Второй БАБАХ и попал на метр правее. А третий и стрелять не стал:
— Все! По статистике мы его уже подстрелили!

🎲 Один статистик 40 лет проработал в самой успешной биотех компании. Долго, хорошо работал, тимлидом стал.
И была у него всю жизнь одна привычка: каждое утро он открывал левый верхний ящичек стола, заглядывал в него, а потом закрывал на ключик. Когда он ушел на пенсию, сотрудники бросились к столу и вскрыли этот ящик – там лежала старая-старая, потрепанная бумажка, на которой было написано: "p-value это вероятность получить такое же или еще более экстремальное значение тестовой статистики при условии верности нулевой гипотезы"


😏 😏 😏

Ну вы поняли, с 1 апреля 😎

#stat_fun
Please open Telegram to view this post
VIEW IN TELEGRAM
1😁119🔥1210❤‍🔥7💯3🐳2
Ребрендинг канала: пора или нет

В это воскресенье хочу немного поностальгировать и посоветоваться с вами.

Немного истории: я создала этот канал еще в аспирантуре, почти 5 лет назад. Идея была рассказывать про статистику простыми словами, так появились первые посты про бутстреп (сейчас они мне кажутся слабыми, но все не доходят руки переписать). Писать только про статистику было сложно (да и сейчас так), и тематика естественно расширилась на 🖥, так как в академической среде это был наш основной язык программирования.

3.5 года назад я ушла из аспирантуры и перекатилась в аналитику данных (можно почитать подробнее здесь), глобально база осталась той же, но фокус сместился.

Сейчас мне кажется плавно тематика съехала в совсем специфически аналитические вещи, и похоже, что название канала не совсем уже отражает суть: не то чтоб пишу про науку и R теперь тоже нечастый гость в постах.

И поэтому дорогие подписчики, у меня к вам есть пара вопросов.

🟡Из какой вы сферы: наука, аналитика или что-то еще, опрос запилю ниже
🟡Как думаете, надо ли привести название канала в большее соответствие содержанию или оставить на память об истоках? Если есть идеи нового названия, велком в комментарии! 👇
Please open Telegram to view this post
VIEW IN TELEGRAM
230👎5🤯4🔥2👌2
Please open Telegram to view this post
VIEW IN TELEGRAM
13👎2
А почему конверсия больше 100% у тебя на дашборде?

Или немного о вечном: качестве данных.

Представьте ситуацию: приходит продакт и спрашивает, почему на дашборде какая-то ерунда, например конверсия в определенный способ оплаты больше 100%. Меня всегда забавляет этот вопрос, потому что в его основе лежит предположение, что дашборд обманывает. В то время как дашборд показывает только то, что лежит в источнике данных, и если на графиках что-то странное, то в большинстве случаев проблема в источнике, значит надо искать, что изменилось в сырых данных.
Например, в случае конверсии выше 100% очень похоже, что в каких-то случаях перестали отправляться события начала оплат, поэтому успешных оплат больше чем начатых. Сходите в разработку с этим пожалуйста))

Также этот вопрос может встретиться на собеседовании, обычно в формулировке: у нас упали продажи за вчера на 20%, аларм, ужас, что будем делать?
В большинстве случаев тут ожидают продуктового решения, но на практике в 70% случаев проблема оказывается в данных: упал пайплайн, сломался трекинг событий, не обновился источник и так далее. Поэтому и на собеседовании, и в жизни стоит начать с проверки целостности и качества данных, а потом уже закапываться в продуктовые причины.

Это актуально для всех, кто работает с данными, не только для аналитиков. Например, в биоинформатике тоже нередко были ситуации, когда для RNA-seq была плохо проведена пробоподготовка, тогда тоже хоть как ни старайся провести анализ, скорее всего ничего путного не получится. Конечно, в определенных случаях можно пытаться это исправить, например есть пакеты для выявления батч эффекта, но если на входе совсем мусор, то самые крутые методы анализа уже не помогут.

В общем сегодня немного базы: garbage in – garbage out.
Уважаемые подписчики, пожалуйста следите за качеством данных, мониторинги и алертинги наши друзья, без этого никакого дата дривен и технологической сингулярности не случится 😏

#analytics
136💯17🔥11👍5🤯1🙏1👌1
Считаем размер выборки без регистрации и смс

Ребята из experiment hub разработали приятный калькулятор для расчета размера выборки и длительности A/B теста. В основе стандартные параметры: MDE, alpha, мощность, трафик, а также можно наоборот: на основе трафика, то есть зная размер выборки, оценить величину возможного эффекта.

Что понравилось:
- есть простой режим аналогичный калькулятору Эвана-Миллера (это база, это знать надо)
- в продвинутом режиме можно использовать взвешенный Бонферрони в качестве поправки, это новая фишка
- есть возможность использовать конверсионные и непрерывные метрики
- крутой импорт отчетов в markdown и в виде готовой картинки, очень вайбово

Я сама в Литрес запилила подобный инструмент, но на основе своих БД, поэтому он чисто для внутреннего использования, а здесь можно применить всем, зная значения конверсии и трафика.

Заходите https://abntester.ru/

А также заглядывайте на канал к Роме, который это создал, там много всего крутого на тему АБ
26👍10🔥8❤‍🔥1🥰1👏1😁1
Как прокачивать продуктовое мышление?

Чтобы улучшить продуктовое мышление нужно думать как продукт
Шучу! Или нет.

Давайте сразу договоримся о терминологии, что в рамках этого поста продукт – это решение задачи определённого сегмента потребителей в конкретном контексте (определение честно взяла отсюда). Примеры продуктов – маркетплейс, музыкальный стриминг, сервис такси, даже телеграм-канал можно воспринимать как продукт.

А еще здесь могли быть ваши шутки про продукты в пятерочке 🤓

Зачем мыслить как продукт?

Для продуктового аналитика одним из ключевых скиллов является "продуктовое мышление", наравне с остальными хард скиллами: SQL, A/B тесты, дашборды и так далее, потому что аналитик полноценный партнер бизнесу, а не выгружатель данных по запросу.
Поскольку это требуется в работе, то и на собеседованиях очень часто спрашивают на продуктовой/бизнесовой секции.
Я сама раньше писала, что невозможно прокачать продуктовое мышление кроме как непосредственно на работе продуктовым аналитиком. Сейчас согласна с этим частично, потому что так развивается лучше всего, но все-таки можно подготовиться и не будучи продуктовым аналитиком. Хотя конечно это чуть сложнее, чем учить SQL и питон, и даже статистику, но возможно.

Как мыслить как продукт?

Когда я сама переходила в продуктовую аналитику, мне помогло разгонять знакомые мне продукты с точки зрения воронки AARRR, ключевых метрик и моделей монетизации. Глобально идея понять как продукт привлекает пользователей и зарабатывает, какая у него может быть North Start Metric. Можно валидировать свои ответы с помощью нейросети, конечно нейросеть может обмануть, но тут важно скорее мыслить в правильном направлении, детали важны меньше.
Такое упражнение очень хорошо помогает повышать насмотренность и не впадать в ступор при вопросах на собеседовании/в работе. Из побочных эффектов – утомила всех рассуждениями про модели монетизации и рекламу 😁

На собеседованиях могут спросить следующее:
🟡прикинуть дерево метрик для конкретного продукта (может быть тот продукт куда собеседуетесь или наоборот НЕ тот куда общаетесь и точно не тот, где работаете). Здесь можно заранее подготовить продукт, которым пользуетесь каждый день и примерно разложить дерево метрик.
🟡описать, на каком этапе развития находится продукт, какие ключевые метрики и вызовы перед ним могут стоять.
🟡упала метрика, что делать
🟡запускаем новую фичу, как оценить эффективность внедрения. Это может быть кейс на A/B, но необязательно

Это далеко не все возможные примеры вопросов, но чтобы разобрать детальнее нужен отдельный пост. Ставьте реакции 🔥, в следующий раз могу написать, какие типы вопросов бывают, как к ним готовиться и отвечать 💪


#analytics #собес_PA
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥3594😁1
Погнали на AHA’26

22 мая в Москве будет AHA’26 – крутая конференция для продуктовых аналитиков, A/B-тестеров, DS/ML-щиков и не только. Я очень люблю такой формат конфы, потому что он наиболее сбалансирован – много интересных докладов, и самого ценного - нетворкинга.

Из докладов мне наиболее интересен трек про ускорение проверки гипотез, туда даже сама подавалась спикером, но к сожалению не взяли. Но я все равно приеду на конференцию слушателем, так что приходите тоже, буду рада встретиться и подушнить про A/B тесты)

Чеклист, что сделать на конференции:

🟡Пообщаться на стендах и выиграть мерч
🟡Познакомиться с ребятами из разных компаний, поспрашивать где разработка меньше косячит и данные чище (спойлер: нигде 😁)
🟡Развиртуализироваться с коллегами и знакомыми из аналитических чатиков
🟡Сходить на несколько самых интересных докладов, программа здесь (в этот раз даже есть более короткая версия таблицы, учли наши пожелания)

По промокоду SFS10 будет скидка 10%, а еще чуть позже анонсирую розыгрыш 2 онлайн и 1 офлайн билета, так что stay tuned!

Подробная информация о конференции на сайте, всех жду)

#analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍17🔥86👎3
Материалы для подготовки к продуктовой секции

Выше писала как прокачивать продуктовое мышление самостоятельно, а сегодня будет список источников, что почитать и послушать на эту тему.

Книги:

🟡Lean Analytics, это классика, но написана немного тяжелым языком и есть только на английском, сама тоже читаю сейчас.
🟡Доверительное АБ тестирование, больше про тесты, но для общего понимания тоже полезно. Я писала даже небольшой обзор на нее
🟡Спроси маму (Роб Фитцпатрик) – небольшая книга про эмпатию и правильные вопросы пользователям, есть кстати у нас на Литрес. Я прочитала, интересно, хотя и напрямую на собеседовании не факт что поможет)

Фреймворки для структурирования метрик:

🟡AARRR – пиратские метрики. Фреймворк описывает путь пользователя через воронку: Acquisition → Activation → Retention → Revenue → Referral. Помогает понять, какой этап воронки самый проблемный и где может быть наибольший рост. Подробнее почитать можно здесь и здесь.

🟡HEART – фреймворк от Google для продуктов, больше про пользовательский опыт. Расшифровывается как Happiness, Engagement, Adoption, Retention, Task Success. Неплохая статья тут, а оригинальная статья от гугл по этой ссылке.

🟡CJM (Customer Journey Map) – карта пути пользователя. Помогает разложить метрики с точки зрения юзера. Шаблон в Miro

🟡Дерево метрик, иерархия метрик – декомпозиция North Star Metric на составляющие. Это довольно часто спрашивают на собеседованиях, могут попросить накидать дерево метрик для конкретного продукта. Ознакомиться подробнее можно здесь.

Я считаю, что классификации и фреймворки выше не охватывают все многообразие метрик с точки зрения философии 😁 (а точнее правил деления, писала здесь).
Однако перефразируя классику, все классификации неверные, но некоторые полезные. Поэтому рекомендую ознакомиться с источниками выше, для всех интересующихся продуктовой аналитикой.

База по юнит экономике:

Лекция Ильи Красинского. Материал топ, но признаться честно с первого раза не осилила, смотрела в несколько подходов.

Еще очень рекомендую статьи на gopractice, много всего полезного по теме продуктового мышления. Например, статья про метрики роста и метрики продукта.

#analytics #собес_PA
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥2591👍1😁1
А вот и обещанный розыгрыш билетов на AHA-26

Напомню основную информацию: конференция будет в Москве 22 мая, по промокоду SFS10 будет скидка 10%.

Объявляю розыгрыш 1 офлайн и 2 онлайн билетов.

На этот раз для участия в розыгрыше нужно быть подписчиком канала и написать комментарий по одной из трех тем, и готовы ли вы приехать на конференцию лично:

🟡Битва мнений: Напишите одну вещь в аналитике/DS, с которой многие не согласны, но вы точно знаете, что это правильно (раньше тут можно было написать про тест Стьюдента и нормальное распределение данных, но сейчас этим уже никого не удивить). Накидывайте тут ваши любимые холиварные топики

🟡Ваш профессиональный «факап»: расскажите о самой эпичной ошибке на работе. Упавший прод, перепутанные группы в A/B тесте, кривые данные, на которых построили стратегию компании... Как поняли, что всё пошло не так, и как исправляли?

🟡Полезная находка года: книга, статья, инструмент или метод (может, доклад на матемаркетинге?), который изменил ваш подход к работе в этом году. Можете сюда присылать полезные посты с телеграм-каналов, но не со своего)

Победителя буду выбирать генератором случайных чисел🎲
Механика простая: один счастливец заберет офлайн-билет (выбираю среди тех, кто готов быть в Москве), а еще два билета в онлайн-формате разыграем между всеми остальными.

Подведение итогов будет 7 мая в 19.00 МСК

Жду ваши кулстори и темы для холиваров в комментариях!
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥11👍5👏1
Статистические факты: найди ложные

Я собрала несколько занимательных фактов про статистиков и анализ данных, однако один или несколько из них ложные. Сможете найти неверный? 👀
Поехали 👇

Преподобный Байес. Томас Байес, чьим именем названа одна из главных теорем вероятности, был пресвитерианским священником. Свою главную работу он не опубликовал при жизни – её нашёл и издал друг Байеса уже после смерти автора.

Пиво и t-test. Знаменитый t-критерий Стьюдента был разработан Уильямом Госсетом для контроля качества пива в компании Guinness. Псевдоним пришлось взять, чтобы не раскрывать корпоративные секреты.

Наполеон и смертельная инфографика. Считается, что график наступления Наполеона на Москву, созданный Шарлем Минаром – это лучшая визуализация в истории. Говорят, что сам Наполеон, увидев её в старости, был впечатлен, так как график наглядно показал: его армию погубили не пули, а мороз и логистика.

Темная сторона Фишера. Рональд Фишер, отец современной статистики, автор ANOVA и много чего еще, был ярым сторонником евгеники и не отказался от своих взглядов даже после Второй мировой войны.

p < 0.05 как порог значимости – не строгий математический факт, а личное мнение Фишера. Он сам писал, что это просто удобное значение.

Пишите комментарии, какие факты точно ложные или точно истинные, правильный ответ будет через несколько дней!

#stats #stat_fun
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥23👏8👍3
А вот и правильные ответы про статистические факты

Многие в комментариях ответили правильно – ложный факт про Наполеона. Шарль Минар создал свою знаменитую карту в 1869 году. Наполеон умер в 1821-м, за 48 лет до этого, поэтому не мог увидеть лучшую визуализацию эвер (по версии Эдварда Тафти).

Все остальное – реальные факты:

 Байес – да, священник. Его работа «An Essay towards solving a Problem in the Doctrine of Chances» опубликована посмертно Ричардом Прайсом в 1763 году (здесь могли быть ваши шутки про байесианство 😏)

 Госсет и пиво – действительно работал в Guinness, при публикации взял псевдоним Student в силу политики компании. Думаю, самый общеизвестный факт

 Фишер и евгеника – к сожалению, правда. Как подметили в комментариях, “интересные” высказывания у него были и после войны. Сейчас даже есть дискуссия об отмене датасета iris в связи с этим, хотя данные собирал не сам Фишер, только использовал их. Тем не менее, многие рекомендуют использовать датасет Palmer Penguins на замену ирисам, и его недавно добавили в список датасетов base R.

p < 0.05 – Фишер продвигал эту границу в книге «Statistical Methods for Research Workers» 1925 года как удобный рабочий стандарт, но сам предупреждал против механического применения (то есть не рекомендовал сравнивать полученное p-value с 0.05, многое может зависеть от задачи). А потом Нейман и Пирсон формализовали α = 0.05 в своей системе как вероятность ошибки первого рода – и вот мы здесь)

Спасибо всем кто участвовал, но кажется для вас это было слишком легко 😎. В следующий раз подумаю над чем-то менее очевидным

#stats #stat_fun
🔥27👍126😱1
Отзыв о курсе “Осмысленные дашборды” от Симулейтив

Примерно месяц назад закончился курс, хочу поделиться впечатлениями. Я прошла все лекции и практические занятия, все четко, даже удалось ускорить дашборды (Алёна, подтверди в комментах плиз 👇).

Для меня многое на курсе было повторением того, что я знаю, но все равно актуально для максимизации пользы дашбордов/графиков для бизнеса. Полезно задавать себе вопросы, с какими задачами могут приходить заказчики на дашборд и выводить нужные графики и сочетания фильтров, даже если конкретно этого графика не было в ТЗ. Также повторила базу о правилах Тафти и гештальт-принципах (правило близости, сходства, границы и тд). Из побочных эффектов теперь испытываю грусть при взгляде на некоторые графики и дашборды 😁.
В общем курс рекомендую, отлично подходит для начинающих в датавизе, чтобы узнать что-то новое, а для продолжающих для структурирования информации.

А совсем скоро анонсирую еще кое-что интересное на тему датавиза, даже затронем известный холивар R vs Python, так что оставайтесь на связи!

#analytics #data_vis
Please open Telegram to view this post
VIEW IN TELEGRAM
18🔥7👍6🙏1
Как прокачаться до синьора в АБ тестах?

Курсов по A/B сейчас существует много, но большинство из них для старта в профессии, мало курсов для миддлов и выше. На большинстве курсов разбирают базу, что такое p-value, MDE, как сделать дизайн теста и почему нельзя подглядывать в A/B тест 😉. Не спорю, это важно и нужно знать, но что делать, если продакты постоянно просят ускорить АБ тесты, базовых z-теста конверсий и t-теста им уже не хватает. Где-то читали про то, что можно подглядывать в A/B тест, если это сдизайнить правильно, но нет понимания, как это делать на практике.

В таком случае приходите на курс от ExperimentHub. Авторы крутые ребята, которые строили A/B-платформы в Т-банке и других бигтехах (и кстати заглядывайте на канал Ромы). В программе курса достаточно продвинутые штуки, все что нужно, когда база уже есть: сетевые эффекты, последовательное тестирование, CUPED/Multi-CUPED, аплифт-моделирование.
Понравился еще фокус на бизнес, как приложить это на практику сразу же. Во многих курсах нет понимания, как формулы применить на практике, здесь подкупила большая связь с задачами.

Я вроде про все это читала, но хотелось бы научиться это все применять на практике, поэтому иду на курс, программа оч крутая, надеюсь после этого вывести на новый уровень культуру экспериментов в Литрес)

Как устроен курс:

Длительность 6 месяцев
Каждую неделю открывается запись лекции, конспект лекции и домашка. А еще каждую неделю тест и каждые 2 недели домашка с кодом для проверки знаний и мотивации.

Курс стартует 15 июня, погнали тоже! Записаться здесь
🔥18👍9👏2🎉2😁1
Про необходимость знаний статистики

Наверное, вы заметили, что в последнее время на канале стало меньше экспертных постов по статистике.
Причин тут несколько:
🟡В первую очередь на написание качественного лонгрида уходит просто кратно (в десятки раз) больше времени, чем на обычные посты. Например, пост про тест Велча занял месяца полтора активного написания, когда на обычные посты уходит 2-3 дня. При этом не хочется полностью исчезать на недели в процессе написания лонгрида, поэтому стараюсь писать что-то не менее полезное, хоть и не настолько фундаментальное.
🟡Второй момент – я сейчас в фазе приступа синдрома самозванца, и не чувствую в себе достаточно компетентности писать сложные посты, про это раскрою чуть дальше.
🟡В последнюю очередь и не сильно всерьез еще пожалуюсь, что с точки зрения реакций и перепостов статистические лонгриды хуже заходят аудитории чем например подборки полезных материалов. Я понимаю, что долгосрочно качественный пост с разбором стат хардкора все равно будет полезнее и ценнее для аудитории, но в моменте меньшая вовлеченность огорчает, думаю меня можно понять)

Мне кажется, через это проходят все авторы, но это не значит, что надо перейти только к постингу мемов и полезных материалов (не значит же?) 🤔

Отдельно хотелось бы поговорить подробнее про второй пункт. Мне кажется, что как и со многими вещами, знание статистики и уверенность в том, что ты ее знаешь подчиняется примерно такой кривой (прикрепила к посту).
После старта изучения в какой-то момент наступает тот самый момент, когда ты думаешь, что понял статистику. Именно в этот момент обычно начинают вести свои курсы и открывать телеграм-каналы. И это правильно, потому что если не сделать этого сейчас, то потом возможно это уже никогда не сделаешь)
Я про то, что рано или поздно этот момент просветления уходит и приходит осознание, что в статистике очень много деталей и подводных камней и упрощенное объяснение перестает устраивать. На этом моменте пропадает желание вести курсы и писать посты, потому что есть ощущение, что все намного сложнее и простые и понятные объяснения могут быть не совсем правильными.
Если честно, я уже давно в этом состоянии, поэтому надо начинать писать посты, когда тебе еще кажется что ты все понял, иначе потом есть риск не начать никогда. 

Но это все лирика про ведение телеграм канала и написание экспертных постов. А в заголовке я написала про знание статистики в более широком смысле: на практике в науке, аналитике данных и тд. Будет ли достаточно быть на первом пике осознания того, что ты все знаешь, чтобы решать большинство задач? На мой взгляд, для большинства задач этого действительно достаточно, и еще осторожно намекну что некоторые не доходят и до этого этапа, что не мешает быть успешными учеными. 

И тем не менее, в науке многообразие тестов обычно больше, чем только t-тесты и z-тесты конверсий, поэтому не повредит еще знать ANOVA, линейные модели в целом, для множественной регрессии о методах отбора предикторов. Я выше уже писала, почему считаю что в науке статистика сложнее, можем еще раз обсудить это в комментариях.
Но думаю все согласятся, что потенциальное многообразие методов явно выше, хотя и можно найти примеры, когда тоже ничего сложнее t-теста и не надо, а есть научные области в которых статистика в принципе не нужна.

В общем мораль такая, что для 90-95% задач в науке и аналитике достаточно выйти на первый уровень просветления о знаниях статистики и только в редких случаях нужно углубляться дальше, чтобы решать более сложные задачи. В аналитике к сложным задачам я бы отнесла все методы снижения дисперсии, квазиэксперименты, и все остальное, что могут спросить на собеседовании на синьора в бигтехе)

#stat_hard
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍4224🔥5
Как отвечать на продуктовые кейсы на собесе: фреймворк PACE

Продолжаю тему подготовки к продуктовой секции на собеседовании. В прошлых частях разобрала, как прокачивать продуктовое мышление и какие материалы использовать для подготовки к собесу.

Сегодня разберем, как правильно выстроить ответ на практически любой продуктовый кейс. Основная сложность продуктового кейса не в том, чтобы ответить правильно, так как правильного ответа (единственного) может просто не быть. Важно, как построен ответ и проверены ли основные направления поиска. Я сама раньше хаотично накидывала гипотезы, но это неудобно для себя и для интервьюера, сложно отследить мысль, понять что ничего не пропущено.

Для структурирования ответа удобно использовать фреймворк PACE: Plan – Analyse – Construct – Execute

🟡P – Plan: уточнить контекст, прежде чем отвечать

Это самый важный и часто пропускаемый шаг. На работе вы никогда не идете анализировать падение метрики без понимания контекста, а на собеседовании тем более.

Примеры того, что стоит уточнить:

→ Это разовый скачок или плавный тренд?
→ За какой период смотрим: день, неделя, месяц?
→ Это сезонная история? Как выглядит тот же период в прошлом году?
→ Были ли недавно изменения в продукте или релизы?
→ Были ли изменения в маркетинге – новые кампании, смена каналов?
→ Не было ли внешних событий – праздники, новости, действия конкурентов?

Несколько уточняющих вопросов в начале сразу ограничивают пул гипотез и упрощают дальнейшие шаги. А еще показывают, что вы перед погружением в задачу обязательно выясняете детали.

🟡A – Analyse: построить дерево гипотез – от общего к частному

Мой любимый подход тут сразу разделить два больших блока: проблемы с данными и проблемы не с данными. Проблемы с данными включают сбои в логировании, падение пайплайнов, изменение названий событий и много чего еще. Но обычно интервьюер отвечает, что с данными всё в порядке, тогда уже можно погружаться в продуктовые причины.

Продуктовые причины тоже разбиваем на блоки по формуле метрики.

Например, кейс «конверсия выросла, а выручка упала»:

Выручка = конверсия × средний чек × трафик

→ Трафик: изменился объём или состав (микс каналов)?
А вдруг это боты или левый трафик?
→ Средний чек: упал из-за промо, скидок, изменения ассортимента?
→ Конверсия: на каком шаге воронки выросла? Может, просто привлекаем более дешёвых покупателей с меньшим средним чеком.

Кейс: «упал DAU»
DAU = новые пользователи + вернувшиеся пользователи

→ Новые: упало привлечение? Какой канал просел?
Изменился бюджет на маркетинг?
→ Вернувшиеся: упал retention? На каком дне?
Что изменилось в продукте за последнее время? Были ли запуски A/B тестов в этой части продукта или раскатки на 100%?
→ Отток: вырос churn? Были ли жалобы, негативные отзывы?
Появился новый конкурент?

Логика дерева помогает не пропустить целые ветки и не зациклиться на первой пришедшей в голову гипотезе.

🟡C – Construct: приоритизировать гипотезы

Когда дерево построено, объясните, с чего начнёте проверку и почему. Здесь нужно из всего многообразия гипотез выбрать несколько самых перспективных. Критерии приоритизации:

Вероятность – что из этого случается чаще всего?
Влияние – какая гипотеза объясняет наибольшую часть эффекта?
Стоимость проверки – что можно проверить быстро по имеющимся данным?

Можно не проверять всё подряд, нужно объяснить логику выбора, в итоге прийти к наиболее вероятной причине.

🟡E – Execute: сформулировать вывод и следующий шаг

Здесь нужно предложить дальнейшие шаги:
→ если проблемы в данных: починить логгирование, добавить события
→ если проблемы в трафике: разбираться с маркетингом
→ если проблема в новом A/B тесте, рассмотреть вариант экстренной остановки теста

И так далее, руководствуемся здравым смыслом, предлагаем реалистичные шаги.

Фреймворк PACE помогает не паниковать, когда кейс кажется сложным – просто идёте по пункта и не пропускаем ничего важного.

Пишите в комментариях, используете ли этот фреймворк или другие, а также какие кейсы попадались вам на собесах – разберём 👇

#собес_PA #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥2576👍2
Отзыв на конфу AHA-2026

Чуть раньше я рекомендовала конференцию AHA-2026, были большие ожидания от нее: мне очень нравились конференции Aha и матемаркетинг, и с 2024 года хожу на каждую. В этот раз тоже не пропустила, прилетела издалека и сходила в прошлую пятницу офлайн. 
Ну что ж, напишу свои впечатления как есть 🍿(осторожно многобукв). 

🟡Программа 

Начну с того, что конференция была всего один день, и по наполнению программы заметен сильный перекос в сторону AI, ML, агентов и всего около. В итоге было мало докладов на нашу любимую тему продуктовой аналитики в целом и A/B тестов в частности, хотя они были заявлены одним из треков конференции (направление системного снижения стоимости проверки гипотез).
Понимаю, что каждый год слушать только про A/B было бы неинтересно, но на самом деле на каждой конференции удавалось узнать что-то новое. Некоторые идеи с прошлого матемаркетинга мы даже смогли применить на практике в Литрес. Поэтому в этот раз буквально 4 доклада про продуктовую аналитику немного не попало в мой фокус интересов, хотя стоило это предположить раньше.

И еще я сама в этот раз подавалась как спикер с докладом на вечную тему про ускорение A/B, CUPED, процессы и все прочее, но к сожалению не взяли. Понимаю, что тема не новая, но на предыдущих конференциях каждый раз хотя бы один доклад был про это. Надо было добавить в тему ускорение A/B и процессов с помощью AI, тогда бы точно взяли) 

Отдельно лайк организаторам, что подготовили бумажный вариант программы и более удобный электронный, в прошлые годы были проблемы с этим. Ну правда программу стало удобнее читать, а вот интересных докладов стало меньше, но тем не менее, расскажу что мне понравилось. 

🟡Интересные доклады 

Было прикольно послушать про внедрение агента в A/B платформу в дзене, здорово, что есть уже практические кейсы применения. Правда, в нашем случае нам пока рано добавлять агентов, надо бы сначала наладить базовую автоматизацию АБшек за счет новой платформы.
Еще любопытное было про diff-in-diff и синтетический контроль, но это скорее для расширения кругозора, так как офлайн эксперименты для нас не очень актуальны.
Андрей Андреев хайпово рассказал про воспроизведение популярных UX-паттернов на больших выборках. В общем-то это все я знала, потому что писала про круглые кнопки здесь, но все равно было интересно послушать про сотрудничество с Кохави из первых уст. А еще в докладе Андрея есть небольшая отсылка на меня, чекайте)

🟡Стендовые активности 

Активностей на стендах было очень мало по сравнению с прошлыми конференциями, почти никто из бигтехов не вписались в активности, выглядит это как тревожный звоночек. Не было моего любимого стенда райфайзена 💳, без него совсем не вайб. Даже если сравнивать с прошлой Aha, не с матемаркетингом, стало намного меньше стендов и участников в целом. 

🟡Нетворкинг

Но что на конфе удалось, это нетворкинг, встретила и развиртуализировалась со многими старыми знакомыми (привет, Юра, Влад). Обсудили, что происходит с рынком аналитики в целом (про это не напишут в исследовании newhr). 

Еще кажется, что немного не оправдан ценник конференции, так как всего один день и и даже особого желания досматривать пропущенные доклады нет. Знакомые сходили на ODS на следующий день, говорят было не менее интересно, и бесплатно. Поэтому немного не уверена, приеду ли в следующий раз, но если и приеду, то скорее на матемаркетинг, как будто там больше фокус на продуктовую аналитику. 

Пишите в комментариях 👇, кто тоже был, согласны ли с моими впечатлениями, что понравилось/не понравилось больше всего? 

#analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
129👍7🔥4👏1
Иду на топовый курс по A/B тестированию 😎

А зачем еще один курс?
На экзамене по АБшкам я немного споткнулась на линеаризации ratio-метрик и sequential testing, так как не работала на практике с этим. Вообще у нас в Литресе большинство тестов закрываются классическими z- и t-тестами, но все же иногда нужно сделать что-то посложнее, например применить свитчбек или постстратификацию. Конечно, про все эти методы можно почитать на хабре самостоятельно, посмотреть доклады с конференций, но если есть курс, где это все разбирается, то я иду на курс 👇

Мне удалось подглядеть в расширенную программу курса 👀, вот что интересное подсвечу оттуда:

🟡 Сплитование – в общем-то, это база. Но при этом немалая часть зафейленных тестов именно по причине сплитования: неправильный hash+salt, наивный сплит по последней цифре ID, кривой стратифицированный сплит. Конечно, вы можете сказать, что у вас это все делает правильно A/B платформа, но этого не всегда бывает достаточно + всегда приятно разбираться в том, как оно работает.

🟡CUPED и Multi-CUPED – у нас в Литресе это постепенно внедряется, но хотелось бы избежать типичных ошибок (а их там не меньше четырёх), и сделать все четко

🟡Ratio-метрики – тема, которую хочу детально разобрать. Вот эти все дельта-методы, линеаризация, бакетизация. Всё это я знаю теоретически, но хочу разобрать именно с кодом и на синтетических данных, чтобы закрепить и применить на практике.

🟡Метод Монте-Карло это для моделирования экспериментов. A/A-тесты через симуляцию, оценка мощности, верификация критериев. Тоже база, но полезно уметь делать.

🟡Множественное сравнение: поправки Бонферрони, алгоритм Холма, FDR. Писала про это здесь, но в курсе, судя по описанию, есть ещё «размазывание поправки» как метод ускорения экспериментов — интересно посмотреть.

Курс стартует с 15 июня, еще буду делиться впечатлениями в процессе (ожидайте роста хардовых постов по статистике). Если тоже интересно разобраться в АБшках лучше среднего – залетайте, по этой ссылке для всех кто оформил, будет скидка 10% 🔥

UPD: Если что, есть рассрочка

#recommendation
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥20👍84
Тест Стьюдента, Велча и непараметрика на малых выборках

Возвращение долгожданных лонгридов по статистике! В прошлый раз я сравнивала тест Стьюдента и тест Велча на больших выборках и обещала разобрать отдельно, что происходит на малых выборках. Не прошло и года (или прошло), но лонгриды возвращаются в новом интерактивном формате:

https://ubogoeva.github.io/R4Analytics/posts/small_samples_simulation.html

Теперь можно самостоятельно накликать разные варианты размеров выборок, дисперсий, распределений и посмотреть на ошибку первого рода и мощность. Помимо наших любимых тестов Стьюдента, Велча и Манна-Уитни, бонусом разобрала еще тест Бруннера-Мюнцеля, грубо говоря аналог теста Манна-Уитни для неравных дисперсий. И не забыла про статью от X5 про тест Велча (Серега, респекты 💪).

Не буду здесь долго расписывать, все самое интересное разобрано в посте, заходите!

#stats #stat_hard
4🔥5816❤‍🔥8👍7
Баттл по датавизу: R vs Python 📊

Не так давно я обещала анонсировать кое-что интересное, связанное с датавизом, пора раскрыть карты:

23 июня
в 19:00 МСК проводим стрим в новом формате: кто быстрее и лучше визуализирует одни и те же данные – на 🖥 или 💻?

На R пишу я - @stats_for_science
На Python будет кодить Рома - Kotelok

Формат простой: один датасет, есть вопрос, на который нужно ответить визуализацией. Всего будет три раунда, каждый следующий сложнее предыдущего. Ориентировочно займет полтора-два часа.

Зрители увидят:
- атмосферу баттла как на соревнованиях по геогессеру/тетрису
- холивар ggplot2 vs matplotlib
- что быстрее и проще кастомизировать
- величие грамматики графики (или нет)

Оценивать красоту и функциональность чартов будет приглашенный эксперт - Анастасия из настенька и графики 🔥

Ссылку на трансляцию пришлю незадолго до начала сюда.

Присоединяйтесь, будет интересно!

#data_vis #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
141🔥30👍5🎉3👌1