Аналитика данных / Data Study
9.45K subscribers
558 photos
52 videos
25 files
424 links
Помогаю аналитикам расти в профессии и доходе

Курс по продвинутому SQL и автоматизации потоков данных https://datastudy.ru/

По всем вопросам: @daniildzheparov

Моя жизнь, опыт, аналитика и инженерия данных
Download Telegram
С чего начать в аналитике? Самый частый вопрос у меня в ЛС

Вот 3 шага:

1. Найди 20-30 вакансий на аналитика, которые тебе интересны и хотел бы на них откликнуться

2. Из этих вакансий выпиши все требуемые навыки и инструменты, отсортируй их по частоте упоминания в вакансиях. Разметь их по тегам «знаю» / не знаю»

3. Составь план обучения этим навыкам. Сначала бесплатные материалы: видео, курсы, статьи, книги. Для более глубокого и быстрого обучения найди ментора или платный курс

Кто я | Навигация | Обучение
🔥22👍9
Оптимизируем аналитические SQL запросы

Написал практическую статью с правилами написания оптимальных SELECT-запросов. Начинающим аналитикам и кто имеет мало опыта с SQL просто must have для прочтения, все правила помогают избавиться от типичных и распространенных ошибок!

Прочитай обязательно если
хочешь ускорить выполнение SELECT-запросов
нужно сократить затраты ресурсов базы/хранилища данных на операции чтения
нужен чистый аналитический код в едином стиле
помнишь что техническая реализация запросов влияет также и на качество данных

P.S. для запуска запросов из статьи есть доступ к базе данных

ЧИТАТЬ СТАТЬЮ
9🔥7👍3
Возили сегодня кошку в вет-клинику, второй день сильно слюна течет, раньше такого никогда не было.
На приеме Маркиза сильно разнервничалась, не дала осмотреть себя. Сейчас приехали домой, дадим успокоительное и вечером повторно повезем.

Кто с таким сталкивался, напишите в ЛС, если есть мысли. Подозреваем что могли пыльцу от цветов лилий принести в дом, у нас они в лобби стояли. А кошки их не переносят
🙏121
Сегодня поговорим о системах оркестрации рабочих процессов — тех самых инструментах, что держат на себе потоки данных в современных компаниях.

Зачем они нужны? Представьте, что у вас сотни ETL‑процессов, ML‑пайплайнов и отчётов, которые должны запускаться в определённое время или по событию, зависеть друг от друга, перезапускаться при ошибке и логировать всё происходящее. Руками это не уследить, самим разработать такую систему - дорого и долго.

Системы оркестрации решают эти задачи:
выстраивают цепочки задач (DAG — Directed Acyclic Graph)
контролируют зависимости между шагами;
планируют расписание
отслеживают статус выполнения
оповещают о сбоях
дают единую панель мониторинга

Без них в крупной компании с сотнями пайплайнов наступает хаос и бардак

Самые популярные оркестраторы, которые на слуху:
📍Apache Airflow
📍Informatica
📍SAP Data Services
📍Argo Workflows
📍Prefect
📍Dagster
📍Luigi
...Список можно бесконечно продолжать

На работе сейчас Argo Workflows, работает на Kubernetes‑инфраструктуре и позволяет запускать пайплайны в изолированных контейнерах. До этого был опыт с Dagster, Prefect, Informatica и Airflow. Инструментов много, но стоит один раз понять суть работы в одном из них, тогда и переключиться на другой не страшно. Сразу понимаешь в сравнении плюсы/минусы и поднимаешь свою технологическую насмотренность 👀

🗓 13 апреля стартует обучение созданию и автоматизации аналитических витрин данных, это отличная возможность изучить как работает ETL и оркестрация в Airflow 🔜https://datastudy.ru/

Кто я | Навигация | Обучение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82
This media is not supported in your browser
VIEW IN TELEGRAM
Что с кошкой 🐈

У пушистой булки все хорошо, понервничала всех вчера, пошипела на врачей, теперь лежит. Анализы в норме, симптомы прошли, видимо внимания не хватало
23🙏5
Устали на работе выполнять рутинные задачи или киснуть без роста в профессии и перспектив развития? Хватит тратить свое время на выгрузку данных из Excel, ручные сверки и обновление отчётов! Хотите перейти от monkey job к реальной аналитике и инженерии данных, но не хватает навыков и инструментов?

Я запускаю новый поток курса «Продвинутый SQL и автоматизация витрин данных» — и он создан именно для тебя!

Что освоишь за время обучения:

📍Оптимизацию SQL‑запросов: сократите время выполнения задач с часов до минут. SQL только начинается с простых запросов и джойнах, его возможности сильно шире, а в открытых источниках дают только самую базу, без глубокого погружения в практические детали

📍Построение и автоматизацию витрин данных: забудьте о ручной выгрузке и Excel‑таблицах

📍ETL‑процессы от А до Я: сбор данных из базы, Google-таблиц, через API, очистка, агрегация, загрузка в витрину

📍Современные инструменты: Airflow (оркестрация), ClickHouse и PostgreSQL (базы данных), Git (контроль версий), Python (автоматизация).

📍Лучшие практики: архитектура DWH, документация, масштабируемые структуры данных.

Это не просто курс про SQL, это полноценная база знаний и практическая песочница чтобы научиться создавать аналитическую отчетность по стандартам рынка.

Твой практический результат после курса:
Ты самостоятельно реализуешь полный цикл сборки витрины — от выбора источника данных до автоматизации обновления.
У тебя будет 10 готовых кейсов создания витрин для самых частых аналитических задач в компании, которые легко упаковать в рабочий опыт
Сможешь автоматизировать отчётность на текущем месте работы и выйти на повышение в грейде благодаря своему результату работы


Кому подойдёт курс:
- аналитикам данных, которые хотят перейти на новый уровень;
- BI‑разработчикам и инженерам данных, кому не хватает аналитических знаний;
- специалистам, работающим с базами данных и отчётностью;
- всем, кто хочет систематизировать знания и стать востребованным data-специалистом

Формат обучения:
📖 текстовые уроки с практическими примерами
💬 чат со мной и другими учениками группы, чтобы обсуждать все вопросы
💻 10 реальных практических заданий на разработку и автоматизацию витрин в настроенной инфраструктуре инструментов
🔥 обратная связь от меня по практическим заданиям

🏁 В конце обучения - сертификат, подтвержденный образовательной лицензией


🗓 Старт обучения: 13 апреля
Количество мест в группе ограничено — записывайся прямо сейчас!

Тебя ждет 1.5 месяца максимально сочного практического опыта аналитика-инженера

Программа обучения и детали оплаты со стоимостью на сайте https://datastudy.ru/

Хочу на обучение и консультацию!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥41🥰1🤓1
Компания Anthropic, разработчик Claude, исследовали долю теоретического и реального на данный момент замещения ИИ профессий в 22 отраслях и сферах деятельности

Ну что, пора становится фермерами 🧑‍🌾👩‍🌾 Там ИИ пока бессильно. Нас и так куда-то в каменный век откидывает все больше, еще и технологии вытесняют 😁
👍114
Где практиковать навык создания аналитических витрин на реальных задачах

У текущей группы идет 2-й практический спринт, на скрине спрашиваю как в целом дела в процессе учебы идут.
Знаете что приятно, ученики с курса по основам анализа приходят на курс по разработке витрин и показывают сильные результаты. Оралбек завершил основы и сразу пошел на следующую ступень.

Ребята, ценю каждого из вас и ваше доверие ♥️

👉 Про курс разработки витрин https://datastudy.ru/
(формат/программа/стоимость/запись в группу)

P.S. а мы на обучении с помощью Яндекс Метрики проанализируем вашу активность на сайте и построим витрину с атрибуцией целевых действий 😉
🔥51
Настало время распаковать эту имбу!

Каждый год доставать из коробок летние кроссовки - это отдельный вид удовольствия 😍
А вот обратную сторону осенью менять на ботинки не люблю.
Поэтому стремимся к новому уровню, чтобы круглый год можно было в кроссовках ходить 🔝

🔥 кто такой же
🔥193👍1
Библиотеки Python для работы с базами данных и SQL-запросами

1. sqlite3
Библиотека
позволяет работать с базами данных SQLite, которые записывают и читают данные с файлов, а значит пользователю не нужно устанавливать сервер для БД, что очень удобно)

2. psycopg2
Модуль
для работы с базами данных PostgreSQL. Также позволяет все основные функции с базой данных: работа с таблицами, написание запросов и т.д.

3. mysql-connector-python
Как
уже понятно из названия, модуль позволяет подключаться к БД MySQL) Включает в себя все те же функции, что и описанные выше модули. Подробная документация доступна по ссылкам в названии модулей

4. pymssql
Модуль
позволяет подключаться к БД Microsoft SQL Server

5. SQLAlchemy
Алхимия
при работе с базами данных из python) Библиотека позволяет подключаться к различным БД. Есть множество функций: создание/изменение/удаление таблиц, извлечение/вставка данных, написание запросов, изменение данных. Библиотека позволяет работать с БД с помощью объектно-ориентированного кода, не используя при этом SQL

6. PandaSQL
Модуль позволяет расширить функционал pandas и писать SQL запросы прямо к датафреймам. Как вариант использования модуля с другими библиотеками, после подключения к БД и извлечения данных, к датафрейму можно писать запросы как будто бы к обычной таблице в БД, не используя синтаксис pandas

👍 если пост полезен

Кто я | Навигация | Обучение
👍4312🔥7👨‍💻2
Давайте договоримся, что вы накидываете реакции, если посты интересны и полезны, ну или вызывают какую-то эмоцию положительную. А то сохраненки вижу, а по реакциям чет скупо очень. Или все в MAX уже ушли?

Это же для меня показатель что полезное писать, желание чем-то делиться, создавать, рассказывать, расписывать в посты)

А то сидим с Маркизой наблюдаем и не понимаем заходит вам контент или вы вообще не с нами
👍6324👨‍💻12🥰2
Другое дело! обожаю вас ♥️♥️♥️
17👍6
Работать в корпорации VS в маленькой компании

Давайте раскидаю на плюсы и минусы работу в гигантских компаниях с большими отделами, БигТехе, больших интеграторах и среднем либо малом бизнесе

📍Плюсы корпорации
- сформированная аналитическая культура. Есть общие подходы и best practise, по которым принято работать
- стек технологий широкий, распространенный, большая часть мелочей автоматизирована
- творческое рабочее пространство и гибкие рамки. Это относится как в формату удаленки/гибриду, началу рабочего дня. А если даже есть требование ходить в офис, то офисы в корпорациях как правило крутые: удобные коворкинги, релакс-зоны, спортзалы, сауны, куча еды.

У меня друг сейчас работает в Яндексе, перешел туда после около-государственных компаний. В этот раз обсуждали как его впечатлили орешки в офисе в неограниченном количестве 😁.

- большой коллектив, наличие старших аналитиков, лида. Это очень важно когда ты находишься на уровне junior/middle, чтобы кто-то более опытный был с тобой в команде и мог либо подсказать либо просто дать описанную сразу задачу. Тогда не придется изобретать самому велосипед и сидеть гадать правильно ли сделал или нет.

📍Плюсы маленькой компании
Можешь удивиться, но они есть)
- минимум бюрократии и бизнес-процессов. Как следствие многие задачи могут быть выполнены сильно проще и быстрей.
- повезло, если компания не выживает, а находится в бурной стадии роста. Это супер время вырасти по должности и ЗП, при этом затрачивая столько же усилий сколько в корпорации, но получая по итогу «молодец» за твое старание.
- задачи могут быть проще, просто потому что опять же есть сильно меньше бизнес-процессов, людей, клиентов, corner-кейсов и самих данных по объему, чтобы строить аналитику

На консультациях часто обсуждаем вопрос где лучше работать, где комфортней, какие плюсы и минусы есть.
Давайте наберем 50 🔥 и в следующих постах пройдусь наоборот по минусам корпораций и малых компаний, там ситуация даже поинтереснее чтобы понять где лучше работать

Кто я | Навигация | Обучение
🔥596👍5
Приходите на неформальную офлайн-встречу с командой R&D

Технологии, нетворкинг и «внутрянка» проектов — всё это ждёт вас на Welcome Time*, который пройдёт 11 апреля в штаб-квартире Яндекса в Москве.

💠 Приглашаем датасаентистов, дата-аналитиков и продуктовых аналитиков с опытом работы на Python** от трёх лет и опытом с LLM/VLM***

В этот раз встречать вас будет команда R&D. Спикеры расскажут, зачем генеративным моделям нужны аналитики, как работают голосовые технологии Алисы и как её делают человечнее.

После докладов для желающих проведём диагностику навыков. Интервьюер подсветит ваши сильные стороны и покажет зоны роста. А хорошие результаты засчитаем как одну техническую секцию при прохождении собеседования в Яндекс.

🔗Подробная программа и регистрация — на сайте: https://yandex.ru/project/events/welcometimes-all
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥1
Рост моей ЗП год к году

В общем захотел на своем примере показать вам наглядно когда и как растет ЗП, и самое главное какие факторы влияют на это, погнали!

📍2019 год - стажировка, начало карьеры. считаем это как точка отсчета для следующих показателей.
📍2020 год - успешно перешел в штат = пересмотр ЗП. Спустя полгода усердной работы я изучил с нуля SQL, Python, Tableau, взял новые задачи и успешно справился с ними. В общем на этом этапе впитывал в себя все как губка, поэтому получил пересмотр ЗП на уровень middle системного аналитика. К концу 2021 это дало X5 к ЗП, что сначала получал на стажировке.
Да, 2020 год при этом был максимально насыщенный, работал по 10 часов, учился на 4-м курсе бакалавриата, писал научные работы и диплом, проходил практические курсы. Но и результат получился отличным.

📍2021 год - перехожу в EPAM Systems на должность Ведущего BI аналитика. Я успешно прошел собесы в сам EPAM и на международный проект Nike, куда брали далеко не всех. И там началось просто лютое обучение новому стеку технологий, внутренние тренинги и повышения квалификаций, участие в отборе и найме аналитиков на другие проекты. При этом я поступил в магистратуру на английском языке на вечернее обучение в НИУ ВШЭ.
Как выглядел мой график: работа с 9:00 до 18:00, едешь на пары с 18:00 до 21:00, возвращаешься работать и делать практику/учебу и все что связано с обучением до 1:00 часа ночи или позже. При этом я учился и работал на английском языке! Это само по себе уже дает мозгу больше нагрузки.

Привет всем кто жалуется, что не может найти время на свою учебу и развитие! Я прошел стресс-тест одновременной учебы в топовом ВУЗе страны на английском, работы в международном консалтинге, выстраивании семейного быта в Москве одновременно


📍2022 год - сами знаете что было. хаос, непонимание, релокация, закрытие проектов, выход компании из страны. я отказался от релокации за счет EPAM, остался в сформированной компании в РФ. новый проект, поиск новых смыслов, внутренних сил в новой реальности. Как вспомню так вздрогну что мы с вами пережили. Как итог был пересмотр на 14% по году, но с учетом уже высокой базы ЗП в абсолюте получается очень неплохая сумма + премии (они здесь не учтены).
В этом же году начинаю вести свои соц. сети, а потом и обучать людей аналитике по их личным запросам. Вот тут и закрутились сначала личные обучения, потом групповые.

📍2023 год - переход в Сравни. наглядный пример, когда при смене компании рост может быть сильней, чем пересмотры внутри одной компании. именно с этим и связаны +33% год к году

📍2024 год - работаю на senior позиции, решаю супер-интересные задачи как аналитик-инженер, проводим стажировку для аналитиков и расширяем тем самым свою команду. в процентах прирост 11% к самой ЗП, без учета премий

📍2025 год - переход на уровень лида. есть команда. а значит ее нужно технически лидировать. это другой уровень задач, ответственности, где ты становишься "играющим тренером". Сам выполняешь свои задачи и несешь ответственность за задачи своей команды, а значит должен быт в курсе всего. Но пересмотры грейдов дают свои плоды, итог +27%

Тезисы:
- чтобы был результат, нужно херачить днями и ночами, а не жалеть себя и не ныть что нет времени. у нас у всех 24 часа в сутках, только у кого-то они проходят гораздо эффективней
- без обучения, насмотренности и твоего любопытства не будет никакого роста. нужно просто брать и делать
- главные твои большие прыжки в ЗП скорее всего будут в начале карьеры при переходах от junior до middle+/senior позиции
- дальше в процентах тебе будет казаться, что ты слабо растешь, но здесь играет эффект высокой базы, когда в абсолюте может быть хороший пересмотр, но относительно процентов он будет скромный
- на рост в доходе сильней влияет смена компании, либо пересмотры грейда. если сидеть и ждать простой индексации, такого роста не будет.

У тебя все получится, главное действуй эффективно! 🔥 или 👍 за пост

Кто хочет перенять мой опыт, у вас есть прекрасная возможность это сделать с 13 апреля на практическом обучении https://datastudy.ru/

Форма регистрации
🔥337👍3😁2
Вопрос возник, когда обсуждали типовую ошибку "фиктивного инкремента" или поздней фильтрации данных, когда работаем на большом объеме данных и только в конце применяем фильтрацию, хотя ее можно применить в начале скрипта.

База данных будет строить оптимально возможный план запроса из того, что ей доступно в моменте, например на сколько актуальная статистика используемых таблиц и есть ли доступные индексы.
Но движок базы также как и мы может ошибаться и запускать запрос с неоптимальным планом. и стоит вам поменять немного свой запрос самим на более оптимальное написание, движок будет предлагать более быстрый план запроса.

Также стоит понимать, что задача может решаться не в рамках одного длинного запроса, а с помощью
- временных таблиц
- промежуточных таблиц
В таком случае планировщик вам мало чем поможет и задача оптимизации будет на вас.

И тогда вопрос сохранения в эти таблицы лишних и ненужных данных встает уже сильно острее, если они на следующем шаге будут все равно отфильтрованы.

Фильтруй сначала - потом преобразовывай.

Кто пропустил, я написал целую статью по оптимизации аналитических SQL запросов - читайте здесь

Кто я | Навигация | Обучение

#вопрос_от_ученика
👍7🔥43
This media is not supported in your browser
VIEW IN TELEGRAM
Мы настолько привыкли к новым технологиям, что даже не задумываемся «а как это все работает?»

Рекомендации попадают в точку, сервисы предугадывают действия, навигаторы ведут быстрее, чем мы думаем. Кажется, это просто данность. Но за ней стоит биг дата и люди, которые умеют с ней работать: аналитики, инженеры, исследователи и руководители.

Конференция Data Fusion 2026 как раз о том, как данные меняют продукты и нашу повседневную жизнь. Программа масштабная: более 70 сессий на темы ИИ-агенты, RL, CV, NLP, робототехника, рекомендательные системы, AI в кибербезопасности и науке.

🗓 8 и 9 апреля на одной площадке встречаются ML-лиды, DS-специалисты, инженеры, исследователи и бизнес. В сессиях участвуют спикеры из ВТБ, AIRI, МФТИ, Сколтеха, Яндекса, X5, Ростелекома, а также других компаний и научных лабораторий

Событие объединяет людей, которые работают с данными и двигают технологии вперед. Это твой шанс расширить свой кругозор, познакомиться с новыми людьми из своей сферы и узнать лучшие практики рынка 👨‍💻

Я там тоже буду, приходите пообщаться!

Прокачай свою насмотренность и нетворкинг на одном из главных событий года в сфере больших данных и ИИ!
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2🔥2