ВКонтакте открывает набор на бесплатный курс "Введение в анализ данных".
Успевайте запрыгнуть https://education.vk.company/program/217
Успевайте запрыгнуть https://education.vk.company/program/217
👏13🔥6
А вам не кажется, что продуктовый аналитик это тот же самый экономист?
Только вместо реальных активов, ему дали цифровой продукт, вместо экселя модный SQL и python.
Но задачи остались те же самые, анализировать экономику предприятия, оптимизировать процессы, искать точки роста, только все это в цифровой среде.
Только вместо реальных активов, ему дали цифровой продукт, вместо экселя модный SQL и python.
Но задачи остались те же самые, анализировать экономику предприятия, оптимизировать процессы, искать точки роста, только все это в цифровой среде.
🤝19👍2👎1
В этом году уже 9 лет как работаю удаленно.
Получается, я после универа только 3 года работал в офисе, а потом только удаленно.
Вообще в офисах классно, я бы ходил...
Получается, я после универа только 3 года работал в офисе, а потом только удаленно.
Вообще в офисах классно, я бы ходил...
❤13😁8
Корреляция между переменными, не означает наличие причинно-следственной связи.
Она может быть обусловлена какой-то другой переменной, также не всегда ясно какая именно переменная является зависимой, а какая оказывает влияние.
Есть такое направление в аналитике, как Causal Inference. Это направление как раз пытается решить вопрос причинно следственных связей, т.е. определенные методы, которые помогают делать обоснованные выводы.
В продуктовой аналитике, да и в любом анализе крайне важно отличать что есть следствие, а что причина и уметь находить причины падения выручки, роста трафика, оттока клиентов и прочего.
Наткнулся на интересную книгу по теме причинного вывода, она находится на гитхабе автора в открытом доступе.https://matheusfacure.github.io/python-causality-handbook/landing-page.html
P.S. Только не говорите, что вы ещё вчерашние 6 курсов по АБ тестам не прошли😁
Она может быть обусловлена какой-то другой переменной, также не всегда ясно какая именно переменная является зависимой, а какая оказывает влияние.
Есть такое направление в аналитике, как Causal Inference. Это направление как раз пытается решить вопрос причинно следственных связей, т.е. определенные методы, которые помогают делать обоснованные выводы.
В продуктовой аналитике, да и в любом анализе крайне важно отличать что есть следствие, а что причина и уметь находить причины падения выручки, роста трафика, оттока клиентов и прочего.
Наткнулся на интересную книгу по теме причинного вывода, она находится на гитхабе автора в открытом доступе.https://matheusfacure.github.io/python-causality-handbook/landing-page.html
P.S. Только не говорите, что вы ещё вчерашние 6 курсов по АБ тестам не прошли😁
🔥6😁4❤1
Метрики для АБ тестов
Предлагаю сегодня затронуть тему важности и неоднозначности выбора метрик для АБ тестирования
Базово я предлагаю отталкиваться от того, что в веб-аналитике есть 3 сущности: событие, сессия, пользователь, можно придумать что-то еще, но пока так. Все эти сущности могут быть использованы в качестве базиса для расчета метрик. Но одна и та же метрика рассчитанная на основе разных базисов будет иметь разный смысл, разные значения и потребует разные подходы для оценки размера выборки и подведения результатов АБ теста.
Представим, что у нас есть сайт, а на нем баннеры и мы хотим в качестве метрики для оценки взять CTR
У нас есть 3 варианта посчитать CTR
1. CTR_event = число кликов / число показов.
Для 1 пользователя может быть множество показов и кликов. Она хорошо подойдет когда нам важно учитывать не только факт клика отдельного пользователя, но и интенсивность кликов. Такая метрика, считается метрикой отношения. Для неё необходимо вычислять дисперсию особым образом(дельта-метод) и на основе этой дисперсии можно считать выборки и подводить результаты АБ теста.
2. CTR_user = число пользователей у которых был хотя бы 1 клик / число пользователей у которых бы 1 просмотр баннера.
Это в целом нормальный подход, но он никак не учитывает интенсивность кликов у пользователей. Такая метрика считается поюзерной. Размер выборки и расчет результатов легко провести при помощи калькуляторов.
3. CTR_sessions = число сессий в которых был хотя бы 1 клик по баннеру / число сессий в которых был хотя бы 1 показ баннера.
Для 1 пользователя может быть множество сессий. Здесь в отличии от ctr_users мы уже можем учитывать интенсивность кликов, хотя и ограничиваясь рамками сессий. Такая метрика, считается метрикой отношения. Для неё необходимо вычислять дисперсию особым образом(дельта-метод) и на основе этой дисперсии можно считать выборки и подводить результаты АБ теста.
4. Среднее число кликов на пользователя.
Считается как число кликов / Число пользователей. Эта метрика похожа на CTR, но в числители и знаменателе разные базисные единицы. В числители - клики, в знаменателе - пользователи. Такая метрика учитывает интенсивность кликов. Эта метрика считается поюзерной, но её распределение не является биномиальным в отличии от CTR_user, поэтому тут тоже не подойдут калькуляторы, которые рассчитаны для конверсии. Тут также необходимо будет вычислить сначала дисперсию метрики, а потом отталкиваясь от дисперсии рассчитать размер выборки. Для подведения результатов необходимо будет использовать t test
Этим постом я еще раз хотел подчеркнуть особую важность выбора метрик и важность четко понимать как именно метрика должна считаться. Потому что когда говорят “конверсия” или “ctr”, то могут иметь совершенно разные вещи. Например выше самые распространенные варианты того что имеют в виду когда говорят ctr. Но все это разные метрики:
- которые будут иметь разные значения,
- будут отвечать на разные вопросы
- для планирования и оценки АБ тестов на основе этих метрик потребуются разные подходы
Предлагаю сегодня затронуть тему важности и неоднозначности выбора метрик для АБ тестирования
Базово я предлагаю отталкиваться от того, что в веб-аналитике есть 3 сущности: событие, сессия, пользователь, можно придумать что-то еще, но пока так. Все эти сущности могут быть использованы в качестве базиса для расчета метрик. Но одна и та же метрика рассчитанная на основе разных базисов будет иметь разный смысл, разные значения и потребует разные подходы для оценки размера выборки и подведения результатов АБ теста.
Представим, что у нас есть сайт, а на нем баннеры и мы хотим в качестве метрики для оценки взять CTR
У нас есть 3 варианта посчитать CTR
1. CTR_event = число кликов / число показов.
Для 1 пользователя может быть множество показов и кликов. Она хорошо подойдет когда нам важно учитывать не только факт клика отдельного пользователя, но и интенсивность кликов. Такая метрика, считается метрикой отношения. Для неё необходимо вычислять дисперсию особым образом(дельта-метод) и на основе этой дисперсии можно считать выборки и подводить результаты АБ теста.
2. CTR_user = число пользователей у которых был хотя бы 1 клик / число пользователей у которых бы 1 просмотр баннера.
Это в целом нормальный подход, но он никак не учитывает интенсивность кликов у пользователей. Такая метрика считается поюзерной. Размер выборки и расчет результатов легко провести при помощи калькуляторов.
3. CTR_sessions = число сессий в которых был хотя бы 1 клик по баннеру / число сессий в которых был хотя бы 1 показ баннера.
Для 1 пользователя может быть множество сессий. Здесь в отличии от ctr_users мы уже можем учитывать интенсивность кликов, хотя и ограничиваясь рамками сессий. Такая метрика, считается метрикой отношения. Для неё необходимо вычислять дисперсию особым образом(дельта-метод) и на основе этой дисперсии можно считать выборки и подводить результаты АБ теста.
4. Среднее число кликов на пользователя.
Считается как число кликов / Число пользователей. Эта метрика похожа на CTR, но в числители и знаменателе разные базисные единицы. В числители - клики, в знаменателе - пользователи. Такая метрика учитывает интенсивность кликов. Эта метрика считается поюзерной, но её распределение не является биномиальным в отличии от CTR_user, поэтому тут тоже не подойдут калькуляторы, которые рассчитаны для конверсии. Тут также необходимо будет вычислить сначала дисперсию метрики, а потом отталкиваясь от дисперсии рассчитать размер выборки. Для подведения результатов необходимо будет использовать t test
Этим постом я еще раз хотел подчеркнуть особую важность выбора метрик и важность четко понимать как именно метрика должна считаться. Потому что когда говорят “конверсия” или “ctr”, то могут иметь совершенно разные вещи. Например выше самые распространенные варианты того что имеют в виду когда говорят ctr. Но все это разные метрики:
- которые будут иметь разные значения,
- будут отвечать на разные вопросы
- для планирования и оценки АБ тестов на основе этих метрик потребуются разные подходы
🔥15👍2❤1
Месяц с CHAT GPT 🤖
Прошел месяц как я стал активным пользователем chat gpt. Хочу рассказать для каких задач я его использую.
1.Картинки
Картинки, которые вы видели в этом чате последний месяц это дело рук gpt. К этому посту картинка тоже создана при помощи chat gpt
2. Обучение
Мне нравится как он объясняет разные темы и генерирует разные примеры. Например недавно chat gpt объяснял мне байесовскую статистику и регрессионные модели.
Конечно иногда он может ошибаться в деталях, но в целом для погружения в новую тему достаточно удобный инструмент, мне кажется обучение с gpt ускоряется в 2-3 раза по сравнению с обычным нагугливанием и поиском статей.
Еще мне нравится, что можно ему написать, что то вроде "я не понял как интерпретировать коэффициенты у конфаундеров в регресии, объясни понятно на конкретном примере " и он быстро сделает понятный пример и даст интерпретацию, т.е. такая имитация работы с учителем.
3. Генерация симуляций
Я уже писал пост где рассказывал как gpt мне симуляции генерировал. Симуляции это отличный способ понять как работают какие-то механики и сущности в АБ тестах.
Например при помощи симуляций можно на практическом примере понять, что такое мощность АБ теста. Обычно симуляции делаются при помощи python. Можно попросить GPT написать код для какой-то симуляции или даже сразу выдать результаты по этой симуляции.
4. Написание SQL и python кода
Иногда пишешь какой-нибудь код и на тебя нападает тупняк, можно пару часов просидеть и думать как реализовать какую-то трансформацию или функцию.
Теперь я не туплю, а иду в gpt и описываю ему, что я хочу посчитать и он мне пишет подходящий код, который я потом проверяю и обычно он работает правильно. Т.е. я могу экономить время за счет того что теперь не надо тупить над кодом.
P.S. Делитесь вашими кейсами использования gpt и других ИИ
Прошел месяц как я стал активным пользователем chat gpt. Хочу рассказать для каких задач я его использую.
1.Картинки
Картинки, которые вы видели в этом чате последний месяц это дело рук gpt. К этому посту картинка тоже создана при помощи chat gpt
2. Обучение
Мне нравится как он объясняет разные темы и генерирует разные примеры. Например недавно chat gpt объяснял мне байесовскую статистику и регрессионные модели.
Конечно иногда он может ошибаться в деталях, но в целом для погружения в новую тему достаточно удобный инструмент, мне кажется обучение с gpt ускоряется в 2-3 раза по сравнению с обычным нагугливанием и поиском статей.
Еще мне нравится, что можно ему написать, что то вроде "я не понял как интерпретировать коэффициенты у конфаундеров в регресии, объясни понятно на конкретном примере " и он быстро сделает понятный пример и даст интерпретацию, т.е. такая имитация работы с учителем.
3. Генерация симуляций
Я уже писал пост где рассказывал как gpt мне симуляции генерировал. Симуляции это отличный способ понять как работают какие-то механики и сущности в АБ тестах.
Например при помощи симуляций можно на практическом примере понять, что такое мощность АБ теста. Обычно симуляции делаются при помощи python. Можно попросить GPT написать код для какой-то симуляции или даже сразу выдать результаты по этой симуляции.
4. Написание SQL и python кода
Иногда пишешь какой-нибудь код и на тебя нападает тупняк, можно пару часов просидеть и думать как реализовать какую-то трансформацию или функцию.
Теперь я не туплю, а иду в gpt и описываю ему, что я хочу посчитать и он мне пишет подходящий код, который я потом проверяю и обычно он работает правильно. Т.е. я могу экономить время за счет того что теперь не надо тупить над кодом.
P.S. Делитесь вашими кейсами использования gpt и других ИИ
🔥23👍11
🌋 Peeking problem - проблема подглядывания в АБ тестах или почему не стоит стопать эксп раньше времени
На прошлой неделе в комментах попросили объяснить проблему подглядывания и ранней остановки АБ тестов. Решил, что это будет полезно многим. Поэтому вынесу в отдельный пост и даже подготовил симмуляцию в коллабе.
Что такое подглядывание?
Например вы каждый день ходите и смотрите результат АБ теста, считаете p value и готовы как только АБ тест покажет стат значимое изменение p_val<0.05, признать его завершенным.
Такой подход увеличивает ошибку первого рода. Т.е. вы будете часто находить стат значимые изменения в экспериментах в которых в реальности разницы между вариантами нет.
А мы хотим минимизировать ошибки, а такой подход их увеличивает. Чтобы понять эту тему, нужно понять что такое ошибка первого рода и как она возникает и как работают статистические критерии для проверки гипотез - их идею.
Про симуляции
Симуляция демонстрирует, как влияет досрочная остановка эксперимента на уровень ошибки первого рода.
Первый вариант оценивает ошибку первого рода на 1000 АА тестов при фиксированном размере выборки.
Второй вариант оценивает ошибку первого рода на 1000 АА тестов при подглядывании, когда мы каждый день дособираем по +100 пользователей в выборки и каждый раз рассчитываем p value при помощи t test
На прошлой неделе в комментах попросили объяснить проблему подглядывания и ранней остановки АБ тестов. Решил, что это будет полезно многим. Поэтому вынесу в отдельный пост и даже подготовил симмуляцию в коллабе.
Что такое подглядывание?
Например вы каждый день ходите и смотрите результат АБ теста, считаете p value и готовы как только АБ тест покажет стат значимое изменение p_val<0.05, признать его завершенным.
Такой подход увеличивает ошибку первого рода. Т.е. вы будете часто находить стат значимые изменения в экспериментах в которых в реальности разницы между вариантами нет.
А мы хотим минимизировать ошибки, а такой подход их увеличивает. Чтобы понять эту тему, нужно понять что такое ошибка первого рода и как она возникает и как работают статистические критерии для проверки гипотез - их идею.
Про симуляции
Симуляция демонстрирует, как влияет досрочная остановка эксперимента на уровень ошибки первого рода.
Первый вариант оценивает ошибку первого рода на 1000 АА тестов при фиксированном размере выборки.
Второй вариант оценивает ошибку первого рода на 1000 АА тестов при подглядывании, когда мы каждый день дособираем по +100 пользователей в выборки и каждый раз рассчитываем p value при помощи t test
👍14😁2
😵💫 Ошибка первого рода, альфа, p-value. В чем разница?
Заметил, что иногда возникает путаница между этими понятиями. Они близки, но имеют разный смысл. Давайте разберемся.
Ошибка первого рода
Возникает когда стат критерий выдает нам стат значимые отличия метрики в АБ тесте, но в реальности ГС не имеет таких отличий.
Как правило мы не можем знать получили ли мы в рамках отдельного АБ теста реальный эффект или это ошибка первого рода, потому что мы не знаем реальных параметров ГС, если бы мы их знали то нам и АБ тест не нужен был.
Альфа(Уровень значимости)
Это теоретический параметр, который мы вводим на этапе дизайна АБ теста. С его помощью мы определяем какой p value мы будем признавать значимым, а какой нет. С помощью альфа мы определяем в каком проценте АБ тестов в которых нет реального эффекта мы его все таки найдем и допустим ошибку первого рода.
Если у нас уровень альфа 5%, то в 50 АБ тестах из 1000 в которых нет никакого реального эффекта стат критерий покажет нам стат значимые отличия и мы совершим ошибку первого рода.
p-value
Вероятность получить такие или еще большие отличия в метрике при условии, что H0 верна в конкретном эксперименте. Т.е. p-value это оценка вероятности получить дельту в метриках между вариантами А и Б при условии что выборки А и Б происходят из одной и той же ГС.
Заметил, что иногда возникает путаница между этими понятиями. Они близки, но имеют разный смысл. Давайте разберемся.
Ошибка первого рода
Возникает когда стат критерий выдает нам стат значимые отличия метрики в АБ тесте, но в реальности ГС не имеет таких отличий.
Как правило мы не можем знать получили ли мы в рамках отдельного АБ теста реальный эффект или это ошибка первого рода, потому что мы не знаем реальных параметров ГС, если бы мы их знали то нам и АБ тест не нужен был.
Альфа(Уровень значимости)
Это теоретический параметр, который мы вводим на этапе дизайна АБ теста. С его помощью мы определяем какой p value мы будем признавать значимым, а какой нет. С помощью альфа мы определяем в каком проценте АБ тестов в которых нет реального эффекта мы его все таки найдем и допустим ошибку первого рода.
Если у нас уровень альфа 5%, то в 50 АБ тестах из 1000 в которых нет никакого реального эффекта стат критерий покажет нам стат значимые отличия и мы совершим ошибку первого рода.
p-value
Вероятность получить такие или еще большие отличия в метрике при условии, что H0 верна в конкретном эксперименте. Т.е. p-value это оценка вероятности получить дельту в метриках между вариантами А и Б при условии что выборки А и Б происходят из одной и той же ГС.
❤17👍5🔥3
Эмоциональные качели веб-аналитика 😆
У меня с веб-аналитикой было так
1. Сделал сайт для автосервиса узнал, что есть яндекс метрика, поставил счетчик → Капец я аналитик
Прошло время...
2. У всех оказывается на сайтах цели есть и они на них смотрят → Капец я отсталый аналитик
Прошло время
3. Поставил цели на сайт → Капец я классный аналитик
Прошло время...
4. У всех оказывается не только цели есть, они еще и звонки через коллтрекинг отслеживают → Капец я отсталый аналитик
Прошло время...
5. Поставил коллтрекинг на сайт → Капец я классный аналитик
Прошло время...
6. О оказывается заявки и звонки это все фигня, у всех сквозная аналитика, все деньги считают → Капец я отсталый аналитик
Прошло время...
7. Собрал сквозную аналитику → Капец я классный аналитик
Прошло время...
8. О оказывается по сессия не совсем правильно считать метрики, конверсия из-за сессий может быть шумной → Капец я отсталый аналитик
Список можно продолжать долго... Примерно так выглдяит процесс развития в любом деле
У меня с веб-аналитикой было так
1. Сделал сайт для автосервиса узнал, что есть яндекс метрика, поставил счетчик → Капец я аналитик
Прошло время...
2. У всех оказывается на сайтах цели есть и они на них смотрят → Капец я отсталый аналитик
Прошло время
3. Поставил цели на сайт → Капец я классный аналитик
Прошло время...
4. У всех оказывается не только цели есть, они еще и звонки через коллтрекинг отслеживают → Капец я отсталый аналитик
Прошло время...
5. Поставил коллтрекинг на сайт → Капец я классный аналитик
Прошло время...
6. О оказывается заявки и звонки это все фигня, у всех сквозная аналитика, все деньги считают → Капец я отсталый аналитик
Прошло время...
7. Собрал сквозную аналитику → Капец я классный аналитик
Прошло время...
8. О оказывается по сессия не совсем правильно считать метрики, конверсия из-за сессий может быть шумной → Капец я отсталый аналитик
Список можно продолжать долго... Примерно так выглдяит процесс развития в любом деле
😁45👍6🔥2❤1
🫣 Боязнь глупых вопросов
Некоторые аналитики боятся задавать уточняющие вопросы, т.к. боятся выглядеть глупыми. Когда-то я тоже боялся задавать лишние вопросы, но жизнь научила, что вопросы задавать надо, потому что в большинстве случаев вы и собеседник имеете разные установки в головах и вам нужно синхронизироваться.
Например, на первый взгляд, такой простой вопрос как расчет конверсии может иметь много нюансов
- какую базисную единицу брать для расчета конверсии: пользователь, сессия, событие?
- считать по когортам или по всему потоку пользователей?
- что считать фактом конверсии? Заявку только на целевой странице или на любой странице сайта?
- из какой системы аналитики будем брать данные?
- каких пользователей исключать из расчетов? (не подходящее гео, боты, ip команды разработки)
И вот на первый взгляд понятная задача по расчету конверсии превратилась в задачу со множеством переменных.
Поэтому аналитики выглядят нудными и задают много вопросов 😃
Задавайте вопросы и получайте ответы))
Некоторые аналитики боятся задавать уточняющие вопросы, т.к. боятся выглядеть глупыми. Когда-то я тоже боялся задавать лишние вопросы, но жизнь научила, что вопросы задавать надо, потому что в большинстве случаев вы и собеседник имеете разные установки в головах и вам нужно синхронизироваться.
Например, на первый взгляд, такой простой вопрос как расчет конверсии может иметь много нюансов
- какую базисную единицу брать для расчета конверсии: пользователь, сессия, событие?
- считать по когортам или по всему потоку пользователей?
- что считать фактом конверсии? Заявку только на целевой странице или на любой странице сайта?
- из какой системы аналитики будем брать данные?
- каких пользователей исключать из расчетов? (не подходящее гео, боты, ip команды разработки)
И вот на первый взгляд понятная задача по расчету конверсии превратилась в задачу со множеством переменных.
Поэтому аналитики выглядят нудными и задают много вопросов 😃
Задавайте вопросы и получайте ответы))
👍36⚡3🔥3👏2❤1
Интересный вебинар про сausal impact(причинно-следственное воздействие) от курсов Карпова.
Сам ещё не смотрел, но буду, т.к. понемногу копаю в эту тему.
https://www.youtube.com/live/SFN60EDvZTE?si=TI_xkppJ42kscDvC
Есть те кто работает с методиками в этом направлении?
Сам ещё не смотрел, но буду, т.к. понемногу копаю в эту тему.
https://www.youtube.com/live/SFN60EDvZTE?si=TI_xkppJ42kscDvC
Есть те кто работает с методиками в этом направлении?
YouTube
Эксперименты без АБ-тестов: теория и практика метода Causal Impact | Вебинар | karpov.courses
Забронировать скидку на курс «Hard Аналитика»: https://bit.ly/3T3qAZx
Jupyter Notebook: https://bit.ly/4a1z9Lc
На бесплатном вебинаре рассказываем, как проводить эксперименты без классических A/B-тестов и применять метод моделей с псевдо-контролем — Causal…
Jupyter Notebook: https://bit.ly/4a1z9Lc
На бесплатном вебинаре рассказываем, как проводить эксперименты без классических A/B-тестов и применять метод моделей с псевдо-контролем — Causal…
👍11🆒2
Дамы, с праздником! Скажите сегодня анализу - нет, а цветам - да!💐
Please open Telegram to view this post
VIEW IN TELEGRAM
❤36💅5👍4🫡4👏1💩1👌1
Новое исследование зарплат аналитиков за 2024 год https://datalens.yandex/fbivm15f3iya3
Правда выборка не большая
Правда выборка не большая
🥴6👍3
Заметил, такую вещь. Senior вакансии веб-аналитиков как правило требуют таких же навыков как у продуктовых аналитиков.
Т.е. это дашборды, SQL, python, АБ тесты, но помимо этого ещё специалист должен знать системы веб-аналитики, иметь опыт построения сквозной аналитики, знать основы html, js, знать специфику каналов трафика.
Но при этом у сениор позиций продуктовых аналитиков верхняя планка ЗП 300-450 т.р., а у синьер веб-аналитиков 200-250т.р. Почему так? Или я заблуждаюсь?
Т.е. это дашборды, SQL, python, АБ тесты, но помимо этого ещё специалист должен знать системы веб-аналитики, иметь опыт построения сквозной аналитики, знать основы html, js, знать специфику каналов трафика.
Но при этом у сениор позиций продуктовых аналитиков верхняя планка ЗП 300-450 т.р., а у синьер веб-аналитиков 200-250т.р. Почему так? Или я заблуждаюсь?
👍11