Datalytics
9.07K subscribers
218 photos
17 videos
5 files
673 links
Канал для аналитиков данных про Python, карьерное развитие в анализе данных, всякое разное

Автор – @ax_makarov

Отдельный канал про ChatGPT и его практическое применение —  @ai_forge

Чат канала — @pydata_chat

Вакансии — @data_hr
Download Telegram
Forwarded from Reveal the Data
🎄Итоги года
Я люблю итоги года, для меня это время выгрузить данные и поиграться. Сделал дашборд про каналы, по которым были данные за год и я знаком с авторами. Они крутые эксперты, спасибо им, что готовы делиться информацией! Рекомендую. Полный список за чем слежу сам тут.

Виз получился аля «bar-chart race на максималках». Прикольно двигать ползунок. Если выбрать скейл «год», то видно топ постов за все время, есть необычные инсайты. Например, топ-1 это этот пост в канале Андрея Дорожного =) А вот связи между каналами можно увидеть в проекте Left Join и Андрея.

📈 Приятно удивлён приросту подписчиков за год. Мне казалось, что потенциальная аудитория сильно меньше. Рад, что вам полезно и интересно!

📊 Самые-самые материалы за год
Матрица компетенций
Зарплаты аналитиков за год
Визуализация городов России
Сериал «Залейтай в BI»
— Статьи про анализ стандрт IBCS и Dashboard Canvas
— Выступления на Матемаркетинге 2020 и DataTalks 3.0

П.С. Спасибо Егору Ларину за помощь с парсингом в Knime
Наткнулся на любопытную статью с описанием 6 трендов в сфере работы с данными, которые будут (а может и не будут) популярны в 2022

Список такой:
1️⃣ Data Mesh
2️⃣ Metrics Layer
3️⃣ Reverse ETL
4️⃣ Active Metadata & Third-Gen Data Catalogs
5️⃣ Data Teams as Product Teams
6️⃣ Data Observability

В целом, видно смещение в область data governance и изменение парадигмы восприятия данных крупными компаниями не как побочного следствия жизнедеятельности продукта/сервиса/системы, а как одного из ключевых элементов — можно сказать топлива для принятия решений и для роста показателей (отсюда вытекает тезис «Data Teams as Product Teams»). Как следствие, увеличивающаяся демократизация данных и сфокусированность на всех сегментах потребителей данных (как менеджерах, так и analysts/data scientists), гибкость в архитектурных решениях (см. Data Mesh), но в то же время унификация для избежания рассогласованности (см. Data Catalogs и Metrics Layer), а также концентрация на качестве и устойчивости сбора данных (см. Data Observability + Data Quality является одной зон отвественности оунеров данных в рамках концепции Data Mesh)

Решил выложить серию постов про каждый из трендов с коротким описанием тренда и почему он значим:
- Пост про Data Mesh
- Пост про Metrics Layer
Тренды в сфере работы с данными 2022. Основной пост

1️⃣ Data Mesh

Признаться честно, меня всегда пугают новые термины, которым нельзя дать конкретное определение. На мой взгляд, такие термины рискуют стать buzzword. Data Mesh как раз такой термин — дать его определение в одном предложении сложно. Это не какая-то конкретная технология/технологический стек или процесс. Правильнее назвать это концепцией хранения данных

Data Mesh появляется в противовес централизованным хранилищам данных. Можно сказать, что это микросервисная архитектура хранения данных, в которой существует некоторое количество разнородных источников данных с высокой атомарностью

У каждого хранилища может быть свой бизнесовый оунер (продуктовая команда, бизнес-юнит, департамент), своя команда дата-инженеров или дата-менеджеров и своя собственная внутренняя архитектура. По сути каждый оунер становится владельцем некоторого куска данных, которым он волен распоряжаться самостоятельно в соответствии с целями, которые стоят перед ним. Такой подход обеспечивает гибкость бизнес-юнитам и позволяет быстрее концентрироваться на стратегических и тактических целях в обход «инфраструктурной бюрократии», которая возникает при централизации. Полная свобода в принятии решении о дата-архитектуре

Но при этом важным моментом является то, что эта свобода налагает ответственность перед любым потребителем данных, например, смежной продуктовой командой или аналитическим отделом любого департамента. Эта ответственность заключается в том, чтобы обеспечить удобный открытый интерфейс к данным, качество данных, их документацию, политики безопасности. То есть любой потребитель должен прийти за данными и получить то, что он хочет с минимумом болей. При этом, потребителем может выступать как менеджер, которому нужен self-service интерфейс, так и data engineer, которому нужен доступ к raw data, так и аналитик, которому необходима некоторая витрина

Как мне кажется, этот подход применим для крупных организаций, где существует несколько бизнес-юнитов или крупных продуктовых команд, но при этом возникает регулярная потребность обмена данными

Почитать про принципы Data Mesh можно вот тут
Тренды в сфере работы с данными 2022. Основной пост

2️ Metrics Layer

Принятие решение в data-driven бизнесах основывается на метриках. При этом для качественного принятия решения различными акторами/юнитами требуется, чтобы метрика могла быть одинаково подсчитываема всеми участниками. То есть не должно быть такого, что в Отделе A метрику считают по одной методологии, а в Отделе B метрика считается совсем по-другому из-за того, что они используют другой BI-инструмент

Другое важное условие — это то, что метрика должна быть рассчитываема в разных срезах, за разный временной срок, разными отделами для разных нужд, с разной точностью. Одна и та же метрика может использоваться по-разному. Аналитическому отделу для оценки результатов A/B-тестирования нужен инструмент получения атомарных данных, на основе которых рассчитывается эта метрика в эксперименте. Отделу Data Science данные по этой метрике могут быть нужны в real-time для использования в алгоритме. А операционному блоку нужна просто агрегированная метрика за последние 30 дней в разрезе регионов. Но с точки зрения бизнес-логики расчетов все эти потребители должны получать одинаковую метрику

Metrics Layer — это технологическое решение, позволяющее обеспечить однозначность метрики, её документированность, вычислимость для различных нужд (с разной скоростью и разной точностью вычислений), качество и стандартизированность получения

Ещё Metrics Layer называют Headless BI (безголовый BI), потому что по сути это такой business intelligence as code, то есть без графического интерфейса. Графический интерфейс в виде BI-платформы с дашбордам уже прикручивается сверху на Headless BI в случае, если для решения бизнес-задачи нужна визуализация метрики, но внутри BI-платформы не зашивается бизнес-логика расчёта метрики

Больше всего мне понравилось описание унифицированной платформы расчёта метрик uMetric от Uber. Они хорошо описали основные вызовы, которые их платформа решает с помощью унификации подсчёта метрик
Тренды в сфере работы с данными 2022. Основной пост

3️ Reverse ETL

ETL – это аббревитуара для Extract-Transform-Load. Извлекаем данные из источников, трансформируем (производим определенную предобработку, строим агрегаты, обогащаем) и затем записываем в некоторое хранилище. Reverse ETL не означает, что мы всё это делаем задом наперём

Reverse ETL – это подход, при котором есть унифицированный процесс/инструмент/регламент, позволяющий извлекать данные из внутреннего хранилища организации и передавать эти данные в сервисы (чаще всего сторонние) с целью операционализировать эти данные. Под «операционализировать» тут понимается практическое применение данных для принятия решений в регулярных операционных процессах управления (клиентской базой, продажами). Надеюсь, не запутал. На примере: вы определели на основе данных, что пользователь давно не заходил в ваше приложение, вам нужно отправить ему пуш, а делаете вы это через стороннее приложение — в этом случае вы «операционализируете» данные о последнем заходе пользователя для принятия решения о его возвращении в приложение

Например, вам нужно передавать в Facebook данные об аудитории, базируясь на поведении пользователей в приложении, передавать данные о клиентах в CRM, передавать офлайн-транзакции в Universal Analytics. Reverse ETL решения позволяют сохранять консистентность данных между разными платформами, а также тратить меньше ресурсов на разработку коннекторов к API, так как уже содержат встроенные.

Хорошо про Reverse ETL описано в статье сервиса Hightouch
Forwarded from LEFT JOIN
💣💥Мы узнали абсолютно все про рынок онлайн-образования в России (и спешим вам рассказать) 🚀
Как вы помните (а если не помните, то кликайте сюда), несколько месяцев назад мы проводили большой опрос по российскому рынку онлайн-образования. Сегодня мы наконец-то можем поделиться с вами результатами, выводами и инсайтами, которые, на наш скромный взгляд, получились весьма крутыми! Но, обо всем по порядку.
В нашем телеграм-канале мы собрали данные с помощью подробного анкетирования. После этого, не без помощи Романа Бунина, наша коллега Олеся структурировала информацию в дашборде Табло. В итоге, для тех, кто хочет быстро посмотреть на результаты на одной странице есть дашборд, а для тех, кому интересно увидеть все подробности, то ниже мы прикрепляем pdf-файл – презентацию результатов исследования, которой призываем делиться.

Короткий How-To к дашборду для самостоятельного изучения:
Дашборд разделен на две части: слева – панель фильтров, справа – результаты опроса.
Панель фильтров содержит информацию об участниках опроса и курсах. Каждая группа участников опроса из панели слева фильтрует данные и графики обновляются. Если вы хотите отменить фильтрацию – щелкните еще раз на ту же строку или обновите страницу для сброса всех фильтров.
На каждом графике (кроме графика с оценками) есть всплывающие подсказки, в которых указано количество участников, в выбранной категории.

Теперь мы с гордостью можем рассказать обо всем, что обнаружили:
◼️ Всего в опросе приняло участие 457 человек. Из них – 90% проходят/проходили онлайн курсы, 7% планируют пройти, 3% не проходили и не планируют. Весьма впечатляет! Но, на самом деле, тут нет ничего неожиданного, мы лишь подтвердили свою гипотезу о широкой распространенности онлайн-курсов.
◼️ Самые популярные направления образования среди участников – Аналитика данных (66%) и Data Science (19%). Самые популярные платформы – Яндекс.Практикум (30%) и KARPOV.COURSES (14%).
◼️ В качестве целей прохождения курсов чаще всего указывали «Получение новой работы» (49,5%) и «Получение новых знаний/навыков» (25%). Что касается достижения поставленных целей, то наши результаты абсолютно совпали с цифрой, которую получили Яндекс и ВШЭ в своем исследовании (учитывая совершенно разные выборки респондентов, это – удивительно!). У них 78% достигли целей после прохождения Практикума и у нас тоже 78%. Мы сильно удивлены и рады, что данные совершеннно репрезентативно описывают опыт прохождения онлайн-курсов в России.
◼️ Все участники, которые не планируют проходить онлайн курсы считают важным для профессионального развития опыт и практику в реальном бизнесе. Такое мнение тоже имеет право на существование, ведь эти два направления – теоретические знания и практический опыт – два столпа, на котором основывается человеческий капитал.
◼️ Подавляющее большинство участников относятся положительно к онлайн-образованию (даже среди тех, кто не планирует проходить онлайн курсы).

В данных еще можно найти множество более узких выводов. Однако, становится понятно, что стереотип о том, что онлайн-образование сильно уступает высшему образованию и “не котируется” в современном обществе постепенно отмирает. И это круто, потому что мир развивается, а онлайн курсы имеют ряд неоспоримых преимуществ, которые давно стоит перестать недооценивать!

Небольшой спойлер: совсем скоро вы также сможете послушать первый эпизод нашего свежего, но все еще секретного подкаста (пока не можем раскрыть всех деталей), в котором мы поговорим об онлайн-образовании с несколькими участниками опроса, а также с ведущими экспертами рынка!
Forwarded from LEFT JOIN
Результаты исследования @leftjoin.pdf
3.9 MB
Результаты исследования рынка онлайн-образования аналитики данных

@leftjoin
Forwarded from Этюды для программистов на Python (Дима Федоров)
🐍 После длительного перерыва вернулся с хорошими новостями.

Разместил свой полный курс видео по Python и анализу данных: https://dfedorov.spb.ru/python3/
У фонда «Нужна помощь» есть проект «Если быть точным» — это единая платформа открытых данных, на которой собраны результаты их собственных исследований, статистические данные и рейтинги регионов по социальным проблемам, каталог НКО и регулярный бенчмаркинг по благотворительным сборам. Участники проекта запускают телеграм-канал, в котором будут рассказывать про внутреннюю кухню работы с данными, публиковать результаты исследований, а также статистику и визуальные материалы. Будет полезно студентам, социологам, дата-журналистам, аналитикам и людям, которые интересуются статистикой по социальным темам.

https://xn--r1a.website/tochno_st
Неплохая статья про SQL от devtodev

В ней рассказывается про использование временных таблиц и вложенных запросов.

Кейс из мобильной аналитики:
• как с помощью временных таблиц считать метрики по отдельным приложениям и суммарно по всем;
• как с помощью вложенных запросов вычислить долю пользователей, совершивших максимальное количество платежей.

https://www.devtodev.com/education/articles/ru/432/sql-dlya-nachinayushtih-vlozhennie-zaprosi-i-vremennie-tablitsi
Datalytics pinned Deleted message
А вы знали, что Delivery Club уже не первый год вещают о полезных фичах и опыте разработки в своем блоге на Хабре? Если нет, вот ссылка на него. В нем лиды, разрабы и аналитики сервиса рассказывают про внедрение платформы А/В-тестирования, эволюцию прогноза времени доставки и отрисовку зон доставки.

Вчера ребята рассказали про эволюцию собственной рекомендательной системы ресторанов. Спойлер: она прошла путь от одной модели и бизнес-логики поверх нее до нескольких моделей, максимизирующих разные метрики. В статье вы узнаете, как в Delivery Club решают проблемы холодного старта, exploitation или exploration. Продолжение следует во второй части.

Да будет пир с доставкой на дом!
SQLpedia - канал про SQL и базы данных, в котором вы найдете:
— Возможность предложить нам статью для перевода;
— Полезные видео;
— Интересные опросы;
— Профессиональный юмор;

Полезности с канала:
Шпаргалка по SQL
Выбор СУБД
Обзор типов и подходов БД

Присоединяйтесь, давайте расти как профессионалы вместе 😉
Подписаться: @sql_wiki
Гайд_по_профессии_аналитика_данных.pdf
27.7 MB
Привет!

Как вы помните, я работаю Senior BI Analyst и знакомлю всех заинтересованных с профессией аналитика, в частности с аналитикой данных и бизнес-аналитикой. Делюсь с подписчиками лучшими практиками работы с данными, полезными ссылками и рассказываю как начать осваивать профессию.

📍Сегодня решил раскрыть чуть больше тему Business Intelligence (BI), как это связано с аналитикой и работой с данными. Смотри обновленный гайд по профессии аналитика:

1. Профессия аналитика данных
2. Задачи аналитика данных
3. Необходимые навыки
4. Business Intelligence и виды аналитики 🔥
5. Уровни аналитиков и компетенции
6. Как составить свое первое резюме
7. Как подготовиться к резюме
8. Вакансии аналитика данных (примеры)
9. Ссылки на полезные ресурсы
Нравится эта общая, но полезная статья про UX дизайна дашбордов, с идеей того, что пользователи в ваших дашбордах должны видеть то же, что и вы и ничего лишнее их не отвлекало. Когда в дэше много цветов, форм, паттернов и данных, получаются дата-джунгли, в которых очень сложно найти нужную информацию.

Что стоит учитывать:
1. Контекст пользователей. Кто они, их цели, мотивация и потребности, какую информацию они хотят получить и на какие вопросы ответить, их бэкграунд знаний.
2. Путь пользователя. В дэшах он часто не линейный, часто итеративный: зашел, потыкал, вышел; зашел, потыкал одно, другое, снова первое и вышел и тд. На это приложила картинку, кажется, хорошо помогает понять суть.
3. Каждая ключевая визуализация отвечает на конкретный вопрос. Она включает в себя 3 важных элемента: что конкретно вы измеряете и на какой вопрос она отвечает, какие данные в себя включает, какую часть данных в ней важнее выделить относительно остальных.
Хорошая статья за авторством Романа Романчука, руководителя аналитики в Сравни, про то как устроена аналитика в их компании. В своей статье Роман рассказывает о структуре отдела, о пути пользователя и как собираются данные на этом пути, про технологический стек и многое другое

На мой взгляд, самая интересная часть именно про сбор данных, где Роман рассказывает об особенностях сбора данных на различных этапах жизненного цикла пользователя — от привлечения до возврата

https://habr.com/ru/company/sravni/blog/658937/
@ozon_tech ML Meetup.

Кого слушаем:
💬 Ван Хачатрян (Ozon), расскажет, как в Ozon заменили потоп на поток в ETL-pipeline матчинга товаров, а также о прозрачном мониторинге такого подхода в production.
💬 Илья Осиновсков (Ozon), расскажет о рекомендациях на Go и зачем переходить от оффлайн рекомендаций к онлайн.
💬 Макар Краснопёров (Яндекс.Маркет), расскажет о развитии инструментария и платформы от MVP в стартапе до зрелого ML сервиса в большой компании.
💬Андрей Рудницкий и Михаил Бочкарев (AliExpress Россия), расскажут, как в компании перестали бояться иероглифов и полюбили китайскую инфраструктуру.

💬Круглый стол на тему: «Взгляд изнутри: процессы и роли в ML-командах крупных IT-компаний» с представителями Яндекс.Маркет, Aliexpress, Циан. Модерирует Юрий Дорн (Ozon).

🔗Запись
Forwarded from Ivan Begtin (Ivan Begtin)
У Bena Stancil'а очередной замечательный текст про то как устроен рынок стартапов в областях data analytics и не только. В The end of Big Data [1] он пишет о том что Databricks в текущем виде - это раздутый пузырь и что главная ценность продуктов в области больших данных - это снимать головную боль у тех кто ими пользуется. У него в тексте хороший пример про "скучную" презентацию Snowflake которые без какого-либо глянца просто позиционировали свой продут как "Redshift только быстрее и лучше" и "Postgres только быстрее и лучше" и это работало и работает лучше чем лощёные слайды со стоковыми фотографиями.

Ben пишет ещё один важный момент что ключевые рыночные преимущества у онлайн хранилищ в том что они: а) Бесконечны б) Легко масштабируются. Если создаётся продукт не обладающий этими качествами, то на рынке ему уже места не найдётся.

Чтение интересное, всяческие рекомендую.

Ссылки:
[1] https://benn.substack.com/p/the-end-of-big-data

#data #startups #readings
Forwarded from Ivan Begtin (Ivan Begtin)
Яндекс выложили в открытый доступ систему управления базами данных YDB [1] с полным исходным кодом [2]. Эта распределенная SQL база данных, с собственным расширением языка SQL - YQL [3] и, в целом, выглядит любопытно.

Что стоит внимания:
- работа в кластере как часть системы
- обещанная простая масштабируемость

Что удивительно:
- база написана полностью на C++, хотя сейчас более популярно когда базы данных создаются на более высокоуровневых языках, в том числе и для того чтобы привлечь разработчиков которые хотят их изучать
- поддержка JSON и иерархических данных весьма скромная, по крайней мере документации об этом мало, хотя и упоминается
- вместо придумывания своего языка запросов расширяют SQL, что может быть и не плохо, просто +1 SQL диалект
- нет PostgreSQL или MySQL "совместимости из коробки", а это полезная фича которую декларируют многие новые СУБД и сервисы.

В целом база явно написана под высокие нагрузки, стоит пристального внимания и тестирования.

Ссылки:
[1] https://ydb.tech/
[2] https://github.com/ydb-platform/ydb
[3] https://ydb.tech/ru/docs/yql/reference/

#data #opensource #yandex #tools
Forwarded from Pavel Dubinin
Полезные ссылки для знакомства и работы с DataLens

Большой функциональный демо дашборд:
- datalens.yandex/demo - публичный, только чтение
- Развернуть дашборд в своем DataLens для редактирования

Сообщество:
- Телеграм чат (вы сейчас тут)
- Предложить и проголосовать за новую фичу
- Плейлист официальных мероприятий на YouTube

Обучение:
- Быстрый старт, пошаговая инструкция
- Более детальные пошаговые инструкции по сценариям
- Туториалы по аналитическим функциям: агрегации, оконные функции, Level-of-Detail выражения
- Создание SQL-чартов (если вам нужно больше гибкости модели данных)
- Образовательные проекты

FAQ в документации:
- https://cloud.yandex.ru/docs/datalens/qa/

Публичные кейсы использования DataLens:
- КазаньЭкспресс - Аналитика retail маркетплейса
- Правительство С.-Петербурга - Аналитика городских сервисов
- Окраина - Аналитика на мясоперерабатывающем заводе
- МВидео - Платформа данных в облаке, геоаналитика
- Rubetek - Аналитика IOT по датчикам домов и квартир застройщика ПИК
- Moneycare - Кредитный брокер, корпоративный BI
- AnywayAnyDay - Аналитика онлайн туристического агентства
- JustSchool - Аналитика над CRM школы английского языка
- SevenTech - Аналитика технологического стартапа над ClickHouse
- НефтеТрансСервис - Промышленная аналитика интернета вещей
- RADAR - Аналитика аудитории наружной рекламы по всей России
- Цифровое образование - Аналитика олимпиад, учеников, школ
- Биологический Факультет МГУ - Предсказание и аналитика урожая
- tproger – Веб аналитика портала
- Car-Taxi - Продуктовая аналитика сервиса эвакуации авто
- Кинопоиск - Публичная статистика оценок фильмов

Примеры публичных дашбордов:
- Анализ качества воздуха
- Статистика коронавируса
- Погода
- Показатели Российских ВУЗов
- Демография Ставрополья
- Исследование про работу вахтовым методом в РФ
- Безработица РФ
- Пример с LOD выражениями от @ab0xa
(присылайте ваши примеры в чат, если хотите поделиться своим опытом!)

Презентации:
- DataLens
- Yandex Cloud Data Platform

Помощь:
- Обсудить ваш проект
- Завести тикет в техподдержку
- Найти партнера для проекта