Когортный анализ с помощью SQL
Мы делим пользователей на группы, когорты, после чего анализируем поведение групп в отдельности. Признаком, по которому формируется когорта, является выполнение некоторого действия в определенный период времени. Например, регистрация на сайте, покупка и т.п.
Данные по пользователям обычно хранятся в БД, а для работы с ними используется язык SQL. С его помощью можно выполнить когортный анализ.
О том как это сделать можно прочитать в этой статье, которая является одной из глав большой книги "SQL for Data Analysi" от O'Reilly. Статья на английском, объемная, рекомендую к изучению, много интересного от простого к сложному.
Интересно, наберем ли мы пятьдесят 🔥 под этим сообщением?
Мы делим пользователей на группы, когорты, после чего анализируем поведение групп в отдельности. Признаком, по которому формируется когорта, является выполнение некоторого действия в определенный период времени. Например, регистрация на сайте, покупка и т.п.
Данные по пользователям обычно хранятся в БД, а для работы с ними используется язык SQL. С его помощью можно выполнить когортный анализ.
О том как это сделать можно прочитать в этой статье, которая является одной из глав большой книги "SQL for Data Analysi" от O'Reilly. Статья на английском, объемная, рекомендую к изучению, много интересного от простого к сложному.
Интересно, наберем ли мы пятьдесят 🔥 под этим сообщением?
O’Reilly Online Learning
SQL for Data Analysis
Chapter 4. Cohort Analysis In Chapter 3 we covered time series analysis. With those techniques in hand, we will now turn to a related type of analysis with many business and... - Selection from SQL for Data Analysis [Book]
🔥34
Forwarded from BI на практике
Какой основной BI инструмент вы сейчас используете в работе и какой интересен кроме него?
Anonymous Poll
44%
Power BI
12%
Tableau
5%
Qlik
13%
Superset
6%
другие зарубежные BI
8%
Visiology 2
13%
Visiology 3
4%
Analytic Workspace
19%
DataLens
11%
другие российские BI
Типовая схема построения сквозной аналитики 🔥
❗️Оставим за скобками технические аспекты и тонкости, общая схема такова:
Данные лучше объединять не по ClientID. Есть трафик, который характеризуется UTM метками. В них можно передавать динамические значения: id компании, группы объявления и т.п. Система веб аналитики фиксирует факт перехода по некоторой ссылке с набором UTM меток - факт посещения сайта.
Далее на сайте происходят различные действия в рамках визита, значит имея данные об источнике и UTM метках мы можем сопоставить эти действия с тем, что находилось в разметке (id компании, группы объявления и т.п.)
При отправке данных любой формы с сайта она где-то фиксируется (например, CRM). Этот факт с ID созданной записи (ID заявки в CRM) нужно зафиксировать в системе веб аналитики. Можно использовать протокол передачи данных.
В итоге в системе веб аналитики есть все данные по визиту, вплоть до того, какая сделка с ее ID создана в CRM системе.
Следующим шагом можно выгрузить факты создания записей в CRM (переданные протоколом передачи данных) из системы веб-аналитики. Получим ID сделки и UTM метки с ID id компании, группы объявления и т.п. Далее нужно разобрать эти данные на составляющие.
После этого получить данные из рекламных систем и данные по сделке из CRM. В итоге везде одинаковые ID, которые используются как ключи для связи и обогащения данных
Примерно так выглядит система сквозной аналитики, которую можно построить.
❗️Оставим за скобками технические аспекты и тонкости, общая схема такова:
Данные лучше объединять не по ClientID. Есть трафик, который характеризуется UTM метками. В них можно передавать динамические значения: id компании, группы объявления и т.п. Система веб аналитики фиксирует факт перехода по некоторой ссылке с набором UTM меток - факт посещения сайта.
Далее на сайте происходят различные действия в рамках визита, значит имея данные об источнике и UTM метках мы можем сопоставить эти действия с тем, что находилось в разметке (id компании, группы объявления и т.п.)
При отправке данных любой формы с сайта она где-то фиксируется (например, CRM). Этот факт с ID созданной записи (ID заявки в CRM) нужно зафиксировать в системе веб аналитики. Можно использовать протокол передачи данных.
В итоге в системе веб аналитики есть все данные по визиту, вплоть до того, какая сделка с ее ID создана в CRM системе.
Следующим шагом можно выгрузить факты создания записей в CRM (переданные протоколом передачи данных) из системы веб-аналитики. Получим ID сделки и UTM метки с ID id компании, группы объявления и т.п. Далее нужно разобрать эти данные на составляющие.
После этого получить данные из рекламных систем и данные по сделке из CRM. В итоге везде одинаковые ID, которые используются как ключи для связи и обогащения данных
Примерно так выглядит система сквозной аналитики, которую можно построить.
👎20🔥5❤1
Azbuka_vizualizacii_Power_BI.pdf
35.5 MB
Бесплатная книга по визуализации данных в Power BI
Коллеги, эксперты по Power BI, подготовили и выложили в открытый доступ книгу по визуализации даных в Power BI. Описанное в ней можно применять не только в Power BI, но и в других инструментах, т.к. правила визуализации едины
Коллеги, эксперты по Power BI, подготовили и выложили в открытый доступ книгу по визуализации даных в Power BI. Описанное в ней можно применять не только в Power BI, но и в других инструментах, т.к. правила визуализации едины
🔥21👍2❤1
Как устроена работа с DWH в Lamoda
Data Warehouse (DWH) — это централизованное хранилище данных, агрегирующее данные из разных систем-источников, на которых можно проводить анализ исторических и текущих данных.
DWH состоит из пяти слоев:
▫️ Data Layer (DL)
▫️ Intelligence Layer (IL)
▫️ Business Layer (BL)
▫️ Metadata Layer (ML)
▫️ Operational Data Store (ODS Report)
Читать полностью здесь
Data Warehouse (DWH) — это централизованное хранилище данных, агрегирующее данные из разных систем-источников, на которых можно проводить анализ исторических и текущих данных.
DWH состоит из пяти слоев:
▫️ Data Layer (DL)
▫️ Intelligence Layer (IL)
▫️ Business Layer (BL)
▫️ Metadata Layer (ML)
▫️ Operational Data Store (ODS Report)
Читать полностью здесь
Хабр
Хранители данных: как устроена работа с DWH в Lamoda
Всем привет! Меня зовут Юлия Скогорева, я системный аналитик в команде Center of excellence дирекции данных и аналитики Lamoda. Если бизнесу нужны какие-то данные для принятия важных решений, то на...
❤1🔥1
Ранее мой пост про Типовую схему построения сквозной аналитики собрал массу негативных реакций. Нашел среди своих работ пример дашборда, который как раз построен по описанной выше схеме.
Под капотом Google Analytics 3 и рекламные кабинеты. Процесс сбора настроен через ETL сервис, хранилище Big Query. Детализация до ключевого запроса, все показатели в одном месте от показа объявления до ожидаемых сделок.
Под капотом Google Analytics 3 и рекламные кабинеты. Процесс сбора настроен через ETL сервис, хранилище Big Query. Детализация до ключевого запроса, все показатели в одном месте от показа объявления до ожидаемых сделок.
👍8
Как научиться внедрять сквозную аналитику?
У меня была идея сделать свой курс по изучению сквозной аналитики, ее внедрению и построению всей системы от подготовки до использования. Но прошло время, сейчас у меня другие интересы и вектор развития поэтому выполненная мной подготовительная работа оказалась не востребованной и развивать ее я не планирую.
В связи с этим я принял решение поделиться своим учебным планом / планом курса, который по задумке состоит из моделей, а модули из тем. На скриншотах модули и базовые темы. Используя их можно самостоятельно изучить это направление, а можно и подготовить полноценный курс.
Накидайте огонечков если оказалось интересно и полезно
У меня была идея сделать свой курс по изучению сквозной аналитики, ее внедрению и построению всей системы от подготовки до использования. Но прошло время, сейчас у меня другие интересы и вектор развития поэтому выполненная мной подготовительная работа оказалась не востребованной и развивать ее я не планирую.
В связи с этим я принял решение поделиться своим учебным планом / планом курса, который по задумке состоит из моделей, а модули из тем. На скриншотах модули и базовые темы. Используя их можно самостоятельно изучить это направление, а можно и подготовить полноценный курс.
Накидайте огонечков если оказалось интересно и полезно
🔥60❤3👎1
Отход от Airflow: почему Dagster — это оркестратор данных следующего поколения
Dagster позволяет создавать сложные конвейеры обработки данных, управлять зависимостями между задачами и обеспечивать выполнение этих конвейеров. Это может быть полезно для разработчиков и исследователей, работающих с большими объёмами данных.
Dagster и Airflow — это инструменты для управления рабочими процессами и оркестрации задач, но они имеют разные подходы и особенности.
Dagster:
- Ориентирован на управление данными и машинное обучение.
- Позволяет создавать сложные конвейеры обработки данных и управлять зависимостями между задачами.
- Обеспечивает выполнение этих конвейеров.
- Поддерживает воспроизводимость экспериментов и исследований.
- Подходит для разработчиков и исследователей, работающих с большими объёмами данных.
Airflow:
- Более универсальный инструмент, который может использоваться в различных областях.
- Имеет широкий спектр функций для управления задачами и рабочими процессами.
- Предоставляет возможности для планирования, мониторинга и управления задачами.
- Может использоваться для автоматизации рабочих процессов в разных областях, включая данные, DevOps и другие.
Выбор между Dagster и Airflow зависит от конкретных потребностей и целей проекта. Читать подробнее
Dagster позволяет создавать сложные конвейеры обработки данных, управлять зависимостями между задачами и обеспечивать выполнение этих конвейеров. Это может быть полезно для разработчиков и исследователей, работающих с большими объёмами данных.
Dagster и Airflow — это инструменты для управления рабочими процессами и оркестрации задач, но они имеют разные подходы и особенности.
Dagster:
- Ориентирован на управление данными и машинное обучение.
- Позволяет создавать сложные конвейеры обработки данных и управлять зависимостями между задачами.
- Обеспечивает выполнение этих конвейеров.
- Поддерживает воспроизводимость экспериментов и исследований.
- Подходит для разработчиков и исследователей, работающих с большими объёмами данных.
Airflow:
- Более универсальный инструмент, который может использоваться в различных областях.
- Имеет широкий спектр функций для управления задачами и рабочими процессами.
- Предоставляет возможности для планирования, мониторинга и управления задачами.
- Может использоваться для автоматизации рабочих процессов в разных областях, включая данные, DevOps и другие.
Выбор между Dagster и Airflow зависит от конкретных потребностей и целей проекта. Читать подробнее
👍4😱1
Секреты построения Data Vault 2.0: эффективное хранение данных
Data Vault 2.0 - это методология моделирования данных, которая используется для управления и интеграции больших объёмов информации в системах управления данными. Разработана для решения проблем, связанных с управлением данными в сложных и динамичных средах. Обеспечивает целостность и согласованность данных, а также позволяет отслеживать изменения в данных с течением времени. Это достигается за счёт использования трёх основных компонентов:
- Хаб (Hub) - содержит основную информацию о сущностях, таких как люди, места или события.
- Связь (Link) - описывает отношения между сущностями и содержит информацию о том, когда и как эти отношения были установлены.
- Сателлит (Satellite) - хранит дополнительные атрибуты сущностей и связей, такие как даты, идентификаторы и другие метаданные.
Ознакомиться с материалом можно по ссылке
Data Vault 2.0 - это методология моделирования данных, которая используется для управления и интеграции больших объёмов информации в системах управления данными. Разработана для решения проблем, связанных с управлением данными в сложных и динамичных средах. Обеспечивает целостность и согласованность данных, а также позволяет отслеживать изменения в данных с течением времени. Это достигается за счёт использования трёх основных компонентов:
- Хаб (Hub) - содержит основную информацию о сущностях, таких как люди, места или события.
- Связь (Link) - описывает отношения между сущностями и содержит информацию о том, когда и как эти отношения были установлены.
- Сателлит (Satellite) - хранит дополнительные атрибуты сущностей и связей, такие как даты, идентификаторы и другие метаданные.
Ознакомиться с материалом можно по ссылке
👍3
Соскучились по Universal Analytics?
Если вам хочется вернуться в прошлое и работать в системе, которой много лет пользовались с понятиями pageview и event и при этом иметь возможность работать с сырыми данными, посмотрите на Motomo.
Motomo — это сервис веб-аналитики, который помогает отслеживать эффективность рекламных кампаний и улучшать взаимодействие с клиентами. Система аналитики может собирать данные о поведении пользователей на сайте или в приложении, анализировать их и предоставлять отчёты, которые помогают принимать решения.
Основные функции системы аналитики:
1️⃣ Отслеживание источников трафика - Система может определять, откуда приходят посетители сайта или приложения, чтобы понять, какие каналы рекламы наиболее эффективны.
2️⃣ Анализ поведения пользователей - Система анализирует действия пользователей на сайте или в приложении, чтобы понять, как они взаимодействуют с контентом и какие страницы наиболее популярны.
3️⃣ Отчёты и дашборды - Система предоставляет отчёты и дашборды, которые отображают ключевые метрики эффективности, такие как количество посетителей, время на сайте, конверсия и т. д.
4️⃣ Сегментация аудитории - Система позволяет сегментировать аудиторию по различным критериям, таким как возраст, пол, местоположение, поведение и т. п., чтобы лучше понимать потребности и предпочтения разных групп пользователей.
5️⃣ Интеграция с другими сервисами - Система может интегрироваться с другими сервисами, такими как CRM, email-рассылки, платёжные системы и т. д., чтобы получать более полную картину взаимодействия с клиентами.
Развернуть систему можно на своих серверах, что позволит контролировать сбор данных и работать с сырыми данными. Официальный сайт
Если вам хочется вернуться в прошлое и работать в системе, которой много лет пользовались с понятиями pageview и event и при этом иметь возможность работать с сырыми данными, посмотрите на Motomo.
Motomo — это сервис веб-аналитики, который помогает отслеживать эффективность рекламных кампаний и улучшать взаимодействие с клиентами. Система аналитики может собирать данные о поведении пользователей на сайте или в приложении, анализировать их и предоставлять отчёты, которые помогают принимать решения.
Основные функции системы аналитики:
1️⃣ Отслеживание источников трафика - Система может определять, откуда приходят посетители сайта или приложения, чтобы понять, какие каналы рекламы наиболее эффективны.
2️⃣ Анализ поведения пользователей - Система анализирует действия пользователей на сайте или в приложении, чтобы понять, как они взаимодействуют с контентом и какие страницы наиболее популярны.
3️⃣ Отчёты и дашборды - Система предоставляет отчёты и дашборды, которые отображают ключевые метрики эффективности, такие как количество посетителей, время на сайте, конверсия и т. д.
4️⃣ Сегментация аудитории - Система позволяет сегментировать аудиторию по различным критериям, таким как возраст, пол, местоположение, поведение и т. п., чтобы лучше понимать потребности и предпочтения разных групп пользователей.
5️⃣ Интеграция с другими сервисами - Система может интегрироваться с другими сервисами, такими как CRM, email-рассылки, платёжные системы и т. д., чтобы получать более полную картину взаимодействия с клиентами.
Развернуть систему можно на своих серверах, что позволит контролировать сбор данных и работать с сырыми данными. Официальный сайт
Analytics Platform - Matomo
Privacy-first analytics you can trust - Analytics Platform - Matomo
Popular analytics tools can miss up to 40% of traffic. Matomo delivers accurate, GDPR-compliant analytics with full data ownership in a platform teams can set up in minutes.
🔥4👍2😱2🙏2👎1
Этот канал изначально был создан мной в дополнение к личному блогу, который был посвящен веб-аналитике и всему, что с ней связано. Со временем решаемые мной задачи расширялись и сегодня моя работа связана с данными в самом широком смысле.
Я закрываю задачи в области инженерии данных, построении и работе с хранилищами данных, разработке дашбордов. Помимо этого в круг моих интересов входит системная аналитика, а также все, что пересекается или где-то рядом с этими направлениями.
В какой-то момент я перестал уделять этому каналу должное внимание и со временем перестал вообще в нем писать.
Сейчас есть желание вернуться к нему, делиться в нем с вами тем, что знаю и использую в своей работе сам. Основной вопрос, на которой я бы хотел получить ответ:
В этом канале большая аудитория тех, кто, как и я занимался веб-аналитикой. Не уверен, что им будет интересен такой контент.
📌 В связи с этим прошу вашего совета по вопросу выше
Я закрываю задачи в области инженерии данных, построении и работе с хранилищами данных, разработке дашбордов. Помимо этого в круг моих интересов входит системная аналитика, а также все, что пересекается или где-то рядом с этими направлениями.
В какой-то момент я перестал уделять этому каналу должное внимание и со временем перестал вообще в нем писать.
Сейчас есть желание вернуться к нему, делиться в нем с вами тем, что знаю и использую в своей работе сам. Основной вопрос, на которой я бы хотел получить ответ:
Стоит ли вопросы инженерии данных, хранилищ данных, дашбордов освещать в этом канале или лучше завести новый?
В этом канале большая аудитория тех, кто, как и я занимался веб-аналитикой. Не уверен, что им будет интересен такой контент.
📌 В связи с этим прошу вашего совета по вопросу выше
❤6
Стоит ли вопросы инженерии данных, хранилищ данных, дашбордов освещать в этом канале или лучше завести новый?
Anonymous Poll
82%
Да, буду читать этот канал
5%
Заведи новый, подпишусь на него
2%
Мне не интересно, но останусь
2%
Я отпишусь, это не моё
10%
Посмотреть результаты