Аналитика данных / Data Study
9.45K subscribers
558 photos
53 videos
25 files
425 links
Помогаю аналитикам расти в профессии и доходе

Курс по продвинутому SQL и автоматизации потоков данных https://datastudy.ru/

По всем вопросам: @daniildzheparov

Моя жизнь, опыт, аналитика и инженерия данных
Download Telegram
Must have для документации работы

Год назад после блокировки Atlassian тулов стал искать альтернативу, что также удобно можно использовать для ведения своих личных заметок, документации собственных проектов и т.д.

Выбор пал на Notion - мощный инструмент в формате wiki-системы (создание разделов, страниц, заметок, чек-листов, канбан-досок и т.п.)
Туда еще по всем канонам современной моды добавили AI-движок (Notion AI), который за тебя может писать доку, исправлять уже написанный текст, менять формат с одного на другой. В общем, кажется что digital-командам это может помочь увеличить эффективность работы с документацией. Для индивидуального использования Notion бесплатен, что очень приятно) Для работы команд есть свой pricing.

У них на YouTube-канале есть куча полезных и коротких видео по функционалу, можно посмотреть кому интересно)
👍12🔥1
Всем привет!

Давно не выходил здесь на связь, очень много активностей происходит, было трудно найти время на написание контента. Буду потихоньку вливаться опять в ритм публикации постов.

Неделю назад проводил мок-интервью на позицию BI-аналитика в прямом эфире вместе с Solvery. На мой взгляд получилось интересно, для людей присматривающихся к области BI будет полезно посмотреть и зафиксировать себе ответы и вопросы с интервью.
Вообще всю прошлую неделю были эфиры по разным направлениям аналитики:
- BI
- Продуктовая
- Системная
- Big Data

Собеседования проводили разные эксперты для кандидатов уровня junior

Прикрепляю ссылки на записи эфиров ⬇️

📍Моковое собеседование Junior BI-аналитик | Даниил Джепаров, Senior BI Analyst, RNT Group

📍Моковое собеседование Junior Бизнес-аналитика | Ольга Мазур, Head of Business Analysis, Samokat.tech

📍Моковое собеседование на позицию Junior Системного аналитика | Наталья Золотова, Ведущий системный аналитик

📍Моковое собеседование на позицию Junior Data Analyst | Дмитрий Лапин, DA/DS Team Lead, JSA Group
🔥18👍42
Классная штука, которую можно применять, если нужен поток из множества шагов обработки данных
Forwarded from Data Secrets
Про pipe в pandas

pipe - это метод реализации паплайна в pandas через последовательную цепочку преобразований (не путать с Pipeline из скалерна).

Например, у нас есть ряд функций, каждая из которых отвечает за какое-то преобразование. Тогда пайплайн в pandas можно реализовать так:

def normilize(df):
...
return df

def fill_null(df, method):
...
return df

def parse_time(df):
...
return df

new_df = (df
.pipe(normilize)
.pipe(fill_null, method='median')
.pipe(parse_time)
)

😻 #preprocessing
Please open Telegram to view this post
VIEW IN TELEGRAM
👍241
Привет!

Я знаю что много кто из вас проходил курсы в онлайн-школах. У меня для вас новость ⤵️

Выпускница вышки сейчас пишет диплом про образовательные онлайн-платформы. Диплом по направлению "реклама и связи с общественностью", поэтому для хорошего и качественного исследования нужны респонденты

Если
- вы старше 18 лет
- проходили курсы на любой из платформ: Skillbox, Skillfactory, Нетология, Geekbrains, Яндекс. Практикум

Пройдите опрос по ссылке
Я прошел, он у меня занял буквально 5 минут 😉

Сейчас пройдете опрос, а я потом попрошу выпускницу сделать краткие выводы по исследованию и поделюсь ими здесь. Интересно посмотреть, что в итоге получится)

Пройти опрос
👍52🔥2
Сравнение Data Scientist, Data Engineer, ML Engineer, Data Analyst

В целом по визуализации понятно, кто из специалистов в каком направлении больше работает. Правда на таких диаграммах сложно оценить какие более детальные навыки нужны и на каком уровне их нужно освоить, чтобы например из Data Analyst перейти в Data Scientist
👍31🔥6
На этой неделе защитил магистерский диплом 🎉🎉🎉
Теперь можно сказать, что 6 лет обучения и 2 ступени образования пройдены)

Бакалавриат - Инфокоммуникационные системы и сети
Магистратура - Бизнес-аналитика и системы больших данных
Все это в замечательном НИУ ВШЭ

По ощущениям учебы в магистратуре могу сказать что это довольно сложно совмещать полноценное обучение с работой, разработкой/ведением курсов. Магистратура была на международной программе, поэтому все обучение проходило на английском, это позволяло поддерживать язык в активном использовании. Учеба была вечерняя, т.е. с 18:00 до 21:00, вроде удобно совмещать с работой, но обычно сил на учебу уже и не оставалось.

В целом, по форме образования могу сказать, что курсы от академических преподавателей сильно далеко находятся от реальных знаний и практики на работе. Теории много, а что и как применить - не всегда становится понятно. Также было много курсов от преподавателей - приглашенных практиков, обычно это Senior/Lead/Head of department уровень специалисты, которые часто раскрывали прикладные вещи, которые можно применять у себя на работе. Формат курсов от практиков мне прям понравился.

Дальше выбор: почувствовать в этом году первый раз, что сентябрь - это всего лишь начало осени, а не начало учебного года 😂, либо идти в аспирантуру)
🎉83🔥6👍53
На этой неделе провели 3 технических интервью для кандидатов в компанию. Ещё раз убеждаюсь, что для аналитика, работающего с данными важны как hard навыки работы с данными, так и знания классического бизнес-анализа по работе со стейкхолдерами, требованиями и понимание всех фаз SDLC цикла.

Если готовитесь к собесам на позицию аналитика данных/BI, углубляйтесь как минимум в 2 направления:

1. Бизнес-анализ
- работа со стейкхолдерами
- проведение интервью, воркшопов, оценка требований
- формирование и декомпозиция требований

2. Работа с данными
- понимание ценности применения баз данных и хранилищ данных для бизнеса, где, когда и что лучше применять, зачем использовать
- Модели данных, нормализация, SCD
- SQL
- Python
- ETL инструментарий и в принципе понимание шагов обработки данных по слоям (от сырых данных к витринам)
- Метрики качества данных
- Написание интеграционной документации и описание потоков данных
- BI и визуализация данных

+ про мат часть, статистику, теор. вероятности и ML не забывать, если на проекты с ML именно есть желание попасть
👍31🔥53
Если я вам когда-нибудь скажу как же замечательно работать дома - не верьте!

Сбежал из дома в кофейню из-за ремонта соседей. Живем в новостройке вроде как бизнес-класса, но такое чувство, что про шумоизоляцию при строительстве новых домов вообще не задумываются вне зависимости от класса жилья. Ремонт делают соседи на этаже вообще в другом крыле за лифтом, это даже не соседняя квартира, но слышно как будто в соседней комнате перфоратор работает.

В итоге убежал в кофейню, где частенько в последнее время спасаюсь от ремонтных будней, но и здесь раз на раз не приходится) Сегодня сюда пришла девушка с 2-мя маленькими девочками возраста начальной школы, которые не ладят между собой. В итоге их крики, ссоры и разборки кто кого достал слушают все посетители кофейни. При этом девушка сама пытается работать в ноутбуке и не отвлекаться на детей, которые ее дергают вопросами типа "кто лучше умеет заворачивать язык в трубочку"

В такие моменты хочется реально поехать в офис с тихими коворкингами и изолированными переговорками для проведения встреч. Ну или уехать в загородный дом с камином работать, а вечером жарить шашлык и залипать на природу на берегу реки 😍
👍37🔥11🥰32
Чем занимается DWH аналитик

Вы наверно видели на сайтах вакансии с названием "DWH аналитик". Однако не всегда понятно чем вообще предстоит заниматься в компании на такой позиции. Давайте разберемся, какие основные задачи обычно закладываются в такую позицию и какие навыки для этого нужны.

🔎 DWH (Data Warehouse) - аналитическое хранилище данных. Т.е. это комплексная система (или ряд систем), которые обеспечивают хранение, сбор, преобразование и подготовку данных для анализа.

Аналитики в этом процессе МНОГО, ее можно разбить по задачам (или направлениям задач)

1. Поиск и определение источников данных

Источниками данных выступают базы данных систем, которые используются в компании. А также в качестве источника могут быть простые файлы от бизнеса, которые в каком-то (скорее табличном) виде нужно положить в хранилище.
К примеру, может понадобиться найти систему источник с данными о логистических запасах компании. При этом отдел логистики может использовать несколько разных систем. Аналитику DWH нужно будет выяснить в какой базе данных какой системы хранятся нужные нам данные. А также нужно будет зафиксировать и описать способ сбора этих данных.

2. Описание требований для сбора, преобразования данных

Помимо того что аналитик должен узнать и раскопать где лежат нужные данные, необходимо ещё продумать логику как эти данные забирать:
- забирать все или только часть данных
- забирать по какому-то триггеру или по расписанию
- как часто забирать (раз в час, 2 раза в день, раз в сутки…)
- в какое время забирать данные, чтобы не нагружать систему, но чтобы данные попали к бизнес-пользователю и отчеты вовремя

Все это необходимо обсудить с командой бизнеса, командой разработки и задокументировать в технической спецификации

Это только часть работы, которой может заниматься аналитик на проектах с DWH. В отдельном посте распишу другие задачи, которые встречаются на проектах, а также обозначу навыки, которые для это позиции нужны.
👍22🔥9
В понедельник провел последнее занятие - защиту проектов по модулю SQL как приглашенный преподаватель в одной из онлайн-школ. Обратная связь от учеников положительная, много классных проектов для портфолио было сделано. Фотка так себе по качеству, но хотелось в очередной раз зафиксировать момент)

А самое главное - сейчас ребята умеют работать с SQL и решать с помощью него различные задачи. За 6 занятий прошли

1. Моделирование данных, ER-диаграммы
2. SELECT запросы, условия фильтрации, логические/арифметические функции, функции работы с датами, временем и строками
3. JOINs
4. Подзапросы и табличные выражения
5. Оконные функции, фреймы оконных функций
6. Работа с индексами, оптимизация запросов и работа с планом выполнения запроса

Лет 5 назад не думал, что буду преподавать другим 😁 Но сейчас видны результаты учеников и я этому очень рад, скорее всего с кем-то в будущем будем на одних проектах работать)
🔥29👍12
Когда недооценил трудозатраты на задачу 😅
🔥71😁152
Теперь официально магистр 👨‍🎓😁
🎉114👍129🔥6
😂😂😂
кстати ученики 35+ очень ответственно относятся к обучению и очень много материала сами пытаются раскопать 👍
😁57👍126🎉1
Еще одно прекрасное событие
👰‍♀️🤵‍♂️💍
🎉13318👍4🔥4
Чем занимается DWH аналитик (часть 2)

В предыдущем посте про DWH аналитика я расписал 2 задачи, которые выполняют такие специалисты:
1. Поиск и определение источников данных
2. Описание требований для сбора, преобразования данных


Сегодня расскажу про еще 2 задачи ⤵️

1️⃣ Моделирование структуры данных в хранилище

Хранилища данных имеют обычно несколько слоев хранения. Если обобщить, то можно выделить 3 слоя:
- слой сырых данных (поступают почти без изменений из источника данных)
- слой очищенных, предподготовленных данных (это основной, core слой хранения, где все таблицы с данными приведены к нужному согласно требованиям виду и эти данные могут быть переиспользованы для разных задач аналитики)
- слой витрин данных (это собранные из разных таблиц данные в одной или нескольких широких таблицах, часто уже включающие агрегацию, частичный расчет метрик). О витринах поговорим еще в следующем пункте

Каждый слой хранения должен быть правильно смоделирован, описан, чтобы каждый пользователь хранилища понимал где и какие данные он может найти. Также важно описывать правила, какие преобразования данных на каждом слое могут быть доступны: делупликация, обогащения, преобразование типов данных, агрегация и т.д.

2️⃣ Подготовка витрин данных для разных бизнес-задач

Витрина данных включает в себя всю необходимую для анализа и решения конкретной бизнес-задачи информацию. Например, в одной таблице и у нас есть данные о клиентах, во второй - продукты компании, в третьей - покупки клиентов продуктов компании, т.е. некие транзакции. Витрина данных может объединить всю эту информацию в одной таблице, какую транзакции какой клиент совершил и какой продукт приобрел.
Витрины чаще всего собираются с помощью SQL-запросов.
😃 Честно, это моя самая любимая часть работы, поэтому люблю эту тему подробно раскрывать в курсе «Основы анализа данных»

Какие hard-навыки необходимы DWH аналитикам:

1. SQL (без него вообще никак, даже пытаться не стоит)
2. Умение моделировать ER-диаграммы, знание связей между таблицами
3. Знание концепций хранилищ данных, знание схем звезда и снежинка
4. Сбор требований, описание документации для потоков данных. Сюда можно включить Data flow диаграммы, S2T, словари данных

Все эти навыки мы проходим на курсе Data Study

Ставьте реакции 🔥 если хотите узнать подробней про каждый из навыков
🔥20👍6
привет!

вернулся из отпуска с полной перезагрузкой в горах, надеюсь этого заряда энергии хватит надолго)
сейчас голова не забита свадьбой и написанием диплома, поэтому сейчас буду сосредоточен на 3 направлениях

1. Повышение активности этого канала
В последнее время посты не с завидной частотой пишу. В ближайшее время буду поднимать активность и наращивать новую аудиторию 🔝

2. Переупаковка материалов курса и набор нового потока "Основы анализа данных"
12 сентября будет старт обучения нового потока, набор уже идет и уже есть оплатившие и ждущие начало обучения студенты 🔥
Я постоянно на основе обратной связи от студентов дополняю материалы, практику в уроки. Часть материалов предзаписываю в виде видео-инструкций. Сейчас нужно обновить дизайн конспектов, презентаций, прошерстить каждый слайд чтобы все смотрелось еще более лаконично и понятно
Кто желает начать обучение в Data Study на моем курсе ➡️ Описание курса

3. Поиск новой работы
Текущая компания RNT Group (ex EPAM) мне нравится. За год полного переформатирования всех внутренних процессов работа осталась комфортной, есть варианты развития дальше в качестве специалиста. Но все же чувствую внутреннюю потребность идти дальше. Может быть потому что сейчас работаю не совсем на data проекте, а по большей части выполняю работу тех. лида с командой стюардов по работе с MDM и часть задач веду по системному анализу, а варианты ротации (переход на другой проект) сейчас отсутствуют. Поэтому возникает внутренняя потребность искать что-то поближе к DWH, BI и разработки платформ данных.
С выбором не тороплюсь, но очередной процесс обновления резюме уже пошёл) Если у кого-то есть интересные задачи и Senior позиции, буду рад пообщаться 😉 @daniildzheparov
🔥12👍32