Аналитика данных / Data Study
9.45K subscribers
557 photos
53 videos
25 files
423 links
Помогаю аналитикам расти в профессии и доходе

Курс по продвинутому SQL и автоматизации потоков данных https://datastudy.ru/

По всем вопросам: @daniildzheparov

Моя жизнь, опыт, аналитика и инженерия данных
Download Telegram
Для тех кто владеет английским языком, есть прекрасная возможность прослушать лекции по курсу Data Science for Business от Университета НИУ "Высшая Школа Экономики". Лекции доступны на Youtube в открытом доступе.

P.S. Буду проходить этот курс в рамках обучения в магистратуре, стартует со следующего месяца. У вас есть возможность прослушать качественный материал без поступления в универ)

https://youtube.com/playlist?list=PLriUvS7IljvlcLnrvYUyNc9nXhiM9kWjq
👍21🔥71
Всем привет!
Наткнулся на статью, в которой, на мой взгляд, очень точно определён набор навыков для работы аналитиком данных в IT:

1. Работать в Excel-таблицах, группировать, фильтровать данные — на ходу, без перекладывания из таблички в табличку.

2. Уметь писать SQL-запросы.

3. Изучить минимум один язык программирования: Python или R.

4. Делать выводы и представлять результаты в виде интерактивных дашбордов (Tableau, Power BI).

5. Разбираться в бизнес-процессах и понимать ключевые метрики анализа эффективности.

Эта работа связана с такими активностями как

📍Сбор и анализ требований заказчиков к отчетности.

📍Получение данных с помощью языка запросов SQL.

📍Применение в работе ключевых математических методов и основ статистики.

📍Очистка и трансформация данных с помощью Python.

📍Прогнозирование событий на основе данных.

📍Анализ результатов кампаний, исследований и тестирования продуктовых гипотез.

📍Способность создавать аналитические решения и представлять их бизнесу.

Хочу добавить, что помимо перечисленных навыков стоит прокачивать свои навыки в управлении и создании требований: бизнес-требования, функциональные требования, user-story

Всеми из перечисленных навыков владеете?
👍322
​​PostgreSQL. Основы языка SQL: учеб. пособие / Е. П. Моргунов; под ред. Е. В. Рогова, П. В. Лузанова
#литература

В пособии рассматриваются следующие темы:

° Введение в базы данных и SQL
° Создание рабочей среды
° Основные операции с таблицами
° Типы данных СУБД PostgreSQL
° Основы языка определения данных
° Запросы
° Изменение данных
° Индексы
° Транзакции
° Повышение производительности

Скачать книгу можно тут
👍24
Гайд_по_профессии_аналитика_данных.pdf
27.7 MB
Привет!

Как вы помните, я работаю Senior BI Analyst и знакомлю всех заинтересованных с профессией аналитика, в частности с аналитикой данных и бизнес-аналитикой. Делюсь с подписчиками лучшими практиками работы с данными, полезными ссылками и рассказываю как начать осваивать профессию.

📍Сегодня решил раскрыть чуть больше тему Business Intelligence (BI), как это связано с аналитикой и работой с данными. Смотри обновленный гайд по профессии аналитика:

1. Профессия аналитика данных
2. Задачи аналитика данных
3. Необходимые навыки
4. Business Intelligence и виды аналитики 🔥
5. Уровни аналитиков и компетенции
6. Как составить свое первое резюме
7. Как подготовиться к резюме
8. Вакансии аналитика данных (примеры)
9. Ссылки на полезные ресурсы
👍5119🔥10👎2
Ситуация прям очень хорошо описывает необходимость создания документации сделанной работы.

НЕ ВСЕГДА достаточно оставлять комментарии в коде или SQL-запросах при работе с данными. Важно помечать преобразования, условия фильтрации и взаимосвязей (джойнов) данных в понятном и структурированном формате, чтобы даже через месяц можно было посмотреть на доку и вспомнить что было сделано 😁.

На выходных поделюсь разными подходами создания документации в процессе работы 📝
👍28
Всем привет!

Решил поделиться своим подходом к оформлению документации при анализе и профайлинге данных из нового источника.

Первым делом хочу отметить несколько правил, которых я придерживаюсь:

1. Пиши так, чтобы документация была понятна даже человеку из другой команды. Важно помнить, что в дальнейшем вашей докой будут пользоваться также и другие люди

2. Документируй каждый день свои новые находки, иначе завтра можешь уже не вспомнить ключевые моменты

3. Оценивай трудозатраты задач с учетом создания документации. Это помогает трезво оценить скоп работы и заложить время на фиксирование анализа

Я люблю все документировать в Confluence - это продукт Atlassian, который работает как некая база знаний во многих компаниях для организации документации. Не очень удобно распихивать отдельные части анализа в разные места: excel-файлы, cloud диски как google drive или box. Все стараюсь зафиксировать на одной странице или разделе страниц

📍Важная и полезная фишка: можно создавать под себя и команду шаблоны страниц, чтобы не тратить время на постоянную структуризацию

Как выглядит моя структура страницы:

Название страницы (куда де без него 😅). Пишу обычно по теме анализа

Ссылка на Jira-тикет
- Очень помогает связывать тикеты и страницы документации для быстрого доступа к нужным страницам сразу из таск-трекера
- Помогает задокументировать каждую открытую задачу и ни про что не забыть

Описание источника данных
- Название БД, схемы, таблицы
- Кто бизнес-владелец источника (имя, контакт)
- Контакты технической команды поддержки
- Ссылка на документацию источника
- Как получить доступ (необходимы роли и действия
- Расписание обновления данных в источнике

AS-IS схема данных (если есть)
- ER-диаграмма
- Data Dictionary (словарь всех атрибутов с бизнес-описанием)

TO-BE схема данных
- ER-диаграмма
- Data Dictionary
- Source to Target mapping (таблица сопоставления атрибутов между источниками AS-IS и TO-BE) - если нужен

Data Profiling
- Таблица с результатами исследования данных (что такое data profiling писал в предыдущих постах ⬆️)
- SQL-скрипт для профайлинга (прикрепляется макросом в Confluence очень удобно)

Открытые вопросы и видимые риски
- Список вопросов, которые нужно уточнить у технической команды или со стороны бизнеса
- Все возможные риски по качеству данных, внедрению нового источника, получения доступов и т.п (если есть)

Полезные ссылки
- Все ссылки или материалы, которые были найдены или использованы во время анализа


Примерно так выглядит каждая страница в Confluence, которая создается мной после анализа и проверки источника данных.
👍38🔥126
Привет!

Хочу поделиться новостью, что вчера стартовала запись на курс "Основы анализа данных", который стартует 23 апреля.

Уроки курса:

1. Теория Баз Данных. Типы данных и работа с базами данных
2. Модели данных. Типы моделей данных + практика
3. Хран
илище данных (DWH). Что такое OLTP. Озеро данных (Data Lake)
4. Основы SQL. SELECT запросы + практика
5. Pyth
on. Основы библиотеки pandas + практика
6. Метр
ики качества данных
7. Принципы визуализации данных + практика
8. Тест
овое интервью (индивидуальное)

Главная ценность обучения: Получение структурированных знаний и практических навыков для старта работы в роли аналитика данных

Заявку на предзапись можно сделать на сайте https://datastudy.ru/ или личным сообщением @daniildzheparov (отвечу на все открытые вопросы)
👍12
Привет!

Сегодня наконец-то сделал для себя простую CRM-систему 😁

Логика очень простая:

1. вы заполняете заявку через google-форму на вводную консультацию/консультацию/курс по DA/курс по BA
2. запись поступает в привязанную к форме google-таблицу
3. при попадании записи в таблицу с помощью скрипта в Apps Script формируется и отправляется сообщение в телеграм-канал с ботом

С точки зрения технической реализации это очень простой пример так называемого data flow (потока данных), начиная от пользовательского интерфейса (сайта с кнопкой на google-форму), некой "базы данных" в виде google-таблицы, ну и ETL-процесса, который построен на инструментах Google и бота Telegram.

- ввод данных
- хранение данных
- обработка данных
- вывод результата

Всю основу кода брал отсюда https://pastebin.com/X0V2yGHQ
Видео с пояснениями здесь https://youtu.be/MR10T4WPBmc

P.S. Сейчас такое решение позволит не мониторить постоянно таблицы с записями, а получать автоматические уведомления в телеграм-чате
👍20
Привет!

В своём Instagram блоге мне часто задают вопросы про
- роль аналитика данных на проекте
- понятие data-продукта и как их создают компании

Поэтому я предлагаю обсудить эту интересную тему на онлайн-воркшопе вместе со мной, где я расскажу детально следующие темы:

1. Что такое data-продукт
2. Жизненный цикл проекта и data-продукта
3. Роль аналитика на data-проекте
4. Демонстрация небольшого практического проекта с помощью Python, SQL и Power BI

Участие в воркшопе полностью свободное и бесплатное, приветствуются живые вопросы по теме воркшопа во время встречи 😉

📍Когда - Воскресенье (17 апреля)
📍Время - 12:00 по МСК
📍Где и как подключиться - Яндекс.Телемост (ссылка на событие https://calendar.yandex.ru/event/1697132433?applyToFuture=0&event_date=2022-04-17T09%3A00%3A00&layerId=10423820&show_date=2022-04-17 )

Технические моменты по подключению:

1. Заполните форму записи (это поможет понять количество участников) - https://forms.gle/p34SmaUNB3ayKB9B7

2. Проверьте авторизацию в Яндекс и возможность зайти в Яндекс.Телемост

3. Если хотите подключиться с телефона, скачайте приложение Яндекс.Телемост
👍8
Всем привет!

Спасибо всем, кто подключился на воркшоп 😊

Как и обещал, прикрепляю конспект воркшопа со всей теоретической информацией по data-продуктам и роли аналитика в проекте.

Чуть позже выложу запись самой встречи, посмотрим куда удастся её без проблем выложить 😉

+ файлы книг из полезных ссылок
15🔥5👍4
Привет!

На хабре начинается неделя аналитиков. Это хороший шанс познакомиться с компаниями, их проектами, а также подать заявку на открытые вакансии

https://pitch.habr.com/
👍11
SQL vs NoSQL базы данных

В работе с базами данных используются 2 разных технологии, на которых строится архитектура и работа с данными.

🔎 SQL базы данных работают со структурированными данными, где важна модель данных, типы данных и определенные взаимосвязи между данными.

Также SQL базы данных подчиняются принципам ACID при работе с транзакциями:

- Atomicity (атомарность)
- Consistency (согласованность)
- Isolation (изолированность)
- Durability (долговечность)

Когда применяются SQL базы данных:

- важна определенная модель данных
когда важны описанные взаимосвязи между сущностями (таблицами)
- типы данных каждого атрибута однозначно определены
- нет необходимости гибкого изменения структуры данных
- нет динамичной потребности масштабироваться

🔎 NoSQL базы данных (Not only SQL) применяются в том случае, когда нет определенных требований к структуре данных, либо данные могут динамически менять свою структуру (тип данных, модель данных)

Когда лучше применять NoSQL базы данных:

- данные являются полуструктурированными или неструктурированными
- типы данных могут динамически изменяться
-нет четко сформированных взаимосвязей между сущностями или файлами данных
- данных очень много, нет четких требований к их хранению
- необходимость в быстром масштабировании хранилища

Приведу несколько примеров тех и других БД

SQL базы данных:
MySQL
PostgreSQL
Oracle
SQL Server

NoSQL базы данных:
MongoDB
Hbase
Cassandra
Elasticsearch
👍12🔥1