Аналитика данных / Data Study
9.45K subscribers
558 photos
52 videos
25 files
424 links
Помогаю аналитикам расти в профессии и доходе

Курс по продвинутому SQL и автоматизации потоков данных https://datastudy.ru/

По всем вопросам: @daniildzheparov

Моя жизнь, опыт, аналитика и инженерия данных
Download Telegram
Возили сегодня кошку в вет-клинику, второй день сильно слюна течет, раньше такого никогда не было.
На приеме Маркиза сильно разнервничалась, не дала осмотреть себя. Сейчас приехали домой, дадим успокоительное и вечером повторно повезем.

Кто с таким сталкивался, напишите в ЛС, если есть мысли. Подозреваем что могли пыльцу от цветов лилий принести в дом, у нас они в лобби стояли. А кошки их не переносят
🙏121
Сегодня поговорим о системах оркестрации рабочих процессов — тех самых инструментах, что держат на себе потоки данных в современных компаниях.

Зачем они нужны? Представьте, что у вас сотни ETL‑процессов, ML‑пайплайнов и отчётов, которые должны запускаться в определённое время или по событию, зависеть друг от друга, перезапускаться при ошибке и логировать всё происходящее. Руками это не уследить, самим разработать такую систему - дорого и долго.

Системы оркестрации решают эти задачи:
выстраивают цепочки задач (DAG — Directed Acyclic Graph)
контролируют зависимости между шагами;
планируют расписание
отслеживают статус выполнения
оповещают о сбоях
дают единую панель мониторинга

Без них в крупной компании с сотнями пайплайнов наступает хаос и бардак

Самые популярные оркестраторы, которые на слуху:
📍Apache Airflow
📍Informatica
📍SAP Data Services
📍Argo Workflows
📍Prefect
📍Dagster
📍Luigi
...Список можно бесконечно продолжать

На работе сейчас Argo Workflows, работает на Kubernetes‑инфраструктуре и позволяет запускать пайплайны в изолированных контейнерах. До этого был опыт с Dagster, Prefect, Informatica и Airflow. Инструментов много, но стоит один раз понять суть работы в одном из них, тогда и переключиться на другой не страшно. Сразу понимаешь в сравнении плюсы/минусы и поднимаешь свою технологическую насмотренность 👀

🗓 13 апреля стартует обучение созданию и автоматизации аналитических витрин данных, это отличная возможность изучить как работает ETL и оркестрация в Airflow 🔜https://datastudy.ru/

Кто я | Навигация | Обучение
Please open Telegram to view this post
VIEW IN TELEGRAM
👍82
This media is not supported in your browser
VIEW IN TELEGRAM
Что с кошкой 🐈

У пушистой булки все хорошо, понервничала всех вчера, пошипела на врачей, теперь лежит. Анализы в норме, симптомы прошли, видимо внимания не хватало
23🙏5
Устали на работе выполнять рутинные задачи или киснуть без роста в профессии и перспектив развития? Хватит тратить свое время на выгрузку данных из Excel, ручные сверки и обновление отчётов! Хотите перейти от monkey job к реальной аналитике и инженерии данных, но не хватает навыков и инструментов?

Я запускаю новый поток курса «Продвинутый SQL и автоматизация витрин данных» — и он создан именно для тебя!

Что освоишь за время обучения:

📍Оптимизацию SQL‑запросов: сократите время выполнения задач с часов до минут. SQL только начинается с простых запросов и джойнах, его возможности сильно шире, а в открытых источниках дают только самую базу, без глубокого погружения в практические детали

📍Построение и автоматизацию витрин данных: забудьте о ручной выгрузке и Excel‑таблицах

📍ETL‑процессы от А до Я: сбор данных из базы, Google-таблиц, через API, очистка, агрегация, загрузка в витрину

📍Современные инструменты: Airflow (оркестрация), ClickHouse и PostgreSQL (базы данных), Git (контроль версий), Python (автоматизация).

📍Лучшие практики: архитектура DWH, документация, масштабируемые структуры данных.

Это не просто курс про SQL, это полноценная база знаний и практическая песочница чтобы научиться создавать аналитическую отчетность по стандартам рынка.

Твой практический результат после курса:
Ты самостоятельно реализуешь полный цикл сборки витрины — от выбора источника данных до автоматизации обновления.
У тебя будет 10 готовых кейсов создания витрин для самых частых аналитических задач в компании, которые легко упаковать в рабочий опыт
Сможешь автоматизировать отчётность на текущем месте работы и выйти на повышение в грейде благодаря своему результату работы


Кому подойдёт курс:
- аналитикам данных, которые хотят перейти на новый уровень;
- BI‑разработчикам и инженерам данных, кому не хватает аналитических знаний;
- специалистам, работающим с базами данных и отчётностью;
- всем, кто хочет систематизировать знания и стать востребованным data-специалистом

Формат обучения:
📖 текстовые уроки с практическими примерами
💬 чат со мной и другими учениками группы, чтобы обсуждать все вопросы
💻 10 реальных практических заданий на разработку и автоматизацию витрин в настроенной инфраструктуре инструментов
🔥 обратная связь от меня по практическим заданиям

🏁 В конце обучения - сертификат, подтвержденный образовательной лицензией


🗓 Старт обучения: 13 апреля
Количество мест в группе ограничено — записывайся прямо сейчас!

Тебя ждет 1.5 месяца максимально сочного практического опыта аналитика-инженера

Программа обучения и детали оплаты со стоимостью на сайте https://datastudy.ru/

Хочу на обучение и консультацию!
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5🔥41🥰1🤓1
Компания Anthropic, разработчик Claude, исследовали долю теоретического и реального на данный момент замещения ИИ профессий в 22 отраслях и сферах деятельности

Ну что, пора становится фермерами 🧑‍🌾👩‍🌾 Там ИИ пока бессильно. Нас и так куда-то в каменный век откидывает все больше, еще и технологии вытесняют 😁
👍114
Где практиковать навык создания аналитических витрин на реальных задачах

У текущей группы идет 2-й практический спринт, на скрине спрашиваю как в целом дела в процессе учебы идут.
Знаете что приятно, ученики с курса по основам анализа приходят на курс по разработке витрин и показывают сильные результаты. Оралбек завершил основы и сразу пошел на следующую ступень.

Ребята, ценю каждого из вас и ваше доверие ♥️

👉 Про курс разработки витрин https://datastudy.ru/
(формат/программа/стоимость/запись в группу)

P.S. а мы на обучении с помощью Яндекс Метрики проанализируем вашу активность на сайте и построим витрину с атрибуцией целевых действий 😉
🔥51
Настало время распаковать эту имбу!

Каждый год доставать из коробок летние кроссовки - это отдельный вид удовольствия 😍
А вот обратную сторону осенью менять на ботинки не люблю.
Поэтому стремимся к новому уровню, чтобы круглый год можно было в кроссовках ходить 🔝

🔥 кто такой же
🔥193👍1
Библиотеки Python для работы с базами данных и SQL-запросами

1. sqlite3
Библиотека
позволяет работать с базами данных SQLite, которые записывают и читают данные с файлов, а значит пользователю не нужно устанавливать сервер для БД, что очень удобно)

2. psycopg2
Модуль
для работы с базами данных PostgreSQL. Также позволяет все основные функции с базой данных: работа с таблицами, написание запросов и т.д.

3. mysql-connector-python
Как
уже понятно из названия, модуль позволяет подключаться к БД MySQL) Включает в себя все те же функции, что и описанные выше модули. Подробная документация доступна по ссылкам в названии модулей

4. pymssql
Модуль
позволяет подключаться к БД Microsoft SQL Server

5. SQLAlchemy
Алхимия
при работе с базами данных из python) Библиотека позволяет подключаться к различным БД. Есть множество функций: создание/изменение/удаление таблиц, извлечение/вставка данных, написание запросов, изменение данных. Библиотека позволяет работать с БД с помощью объектно-ориентированного кода, не используя при этом SQL

6. PandaSQL
Модуль позволяет расширить функционал pandas и писать SQL запросы прямо к датафреймам. Как вариант использования модуля с другими библиотеками, после подключения к БД и извлечения данных, к датафрейму можно писать запросы как будто бы к обычной таблице в БД, не используя синтаксис pandas

👍 если пост полезен

Кто я | Навигация | Обучение
👍4312🔥7👨‍💻2
Давайте договоримся, что вы накидываете реакции, если посты интересны и полезны, ну или вызывают какую-то эмоцию положительную. А то сохраненки вижу, а по реакциям чет скупо очень. Или все в MAX уже ушли?

Это же для меня показатель что полезное писать, желание чем-то делиться, создавать, рассказывать, расписывать в посты)

А то сидим с Маркизой наблюдаем и не понимаем заходит вам контент или вы вообще не с нами
👍6324👨‍💻12🥰2
Другое дело! обожаю вас ♥️♥️♥️
17👍6
Работать в корпорации VS в маленькой компании

Давайте раскидаю на плюсы и минусы работу в гигантских компаниях с большими отделами, БигТехе, больших интеграторах и среднем либо малом бизнесе

📍Плюсы корпорации
- сформированная аналитическая культура. Есть общие подходы и best practise, по которым принято работать
- стек технологий широкий, распространенный, большая часть мелочей автоматизирована
- творческое рабочее пространство и гибкие рамки. Это относится как в формату удаленки/гибриду, началу рабочего дня. А если даже есть требование ходить в офис, то офисы в корпорациях как правило крутые: удобные коворкинги, релакс-зоны, спортзалы, сауны, куча еды.

У меня друг сейчас работает в Яндексе, перешел туда после около-государственных компаний. В этот раз обсуждали как его впечатлили орешки в офисе в неограниченном количестве 😁.

- большой коллектив, наличие старших аналитиков, лида. Это очень важно когда ты находишься на уровне junior/middle, чтобы кто-то более опытный был с тобой в команде и мог либо подсказать либо просто дать описанную сразу задачу. Тогда не придется изобретать самому велосипед и сидеть гадать правильно ли сделал или нет.

📍Плюсы маленькой компании
Можешь удивиться, но они есть)
- минимум бюрократии и бизнес-процессов. Как следствие многие задачи могут быть выполнены сильно проще и быстрей.
- повезло, если компания не выживает, а находится в бурной стадии роста. Это супер время вырасти по должности и ЗП, при этом затрачивая столько же усилий сколько в корпорации, но получая по итогу «молодец» за твое старание.
- задачи могут быть проще, просто потому что опять же есть сильно меньше бизнес-процессов, людей, клиентов, corner-кейсов и самих данных по объему, чтобы строить аналитику

На консультациях часто обсуждаем вопрос где лучше работать, где комфортней, какие плюсы и минусы есть.
Давайте наберем 50 🔥 и в следующих постах пройдусь наоборот по минусам корпораций и малых компаний, там ситуация даже поинтереснее чтобы понять где лучше работать

Кто я | Навигация | Обучение
🔥596👍5
Приходите на неформальную офлайн-встречу с командой R&D

Технологии, нетворкинг и «внутрянка» проектов — всё это ждёт вас на Welcome Time*, который пройдёт 11 апреля в штаб-квартире Яндекса в Москве.

💠 Приглашаем датасаентистов, дата-аналитиков и продуктовых аналитиков с опытом работы на Python** от трёх лет и опытом с LLM/VLM***

В этот раз встречать вас будет команда R&D. Спикеры расскажут, зачем генеративным моделям нужны аналитики, как работают голосовые технологии Алисы и как её делают человечнее.

После докладов для желающих проведём диагностику навыков. Интервьюер подсветит ваши сильные стороны и покажет зоны роста. А хорошие результаты засчитаем как одну техническую секцию при прохождении собеседования в Яндекс.

🔗Подробная программа и регистрация — на сайте: https://yandex.ru/project/events/welcometimes-all
Please open Telegram to view this post
VIEW IN TELEGRAM
👍51🔥1
Рост моей ЗП год к году

В общем захотел на своем примере показать вам наглядно когда и как растет ЗП, и самое главное какие факторы влияют на это, погнали!

📍2019 год - стажировка, начало карьеры. считаем это как точка отсчета для следующих показателей.
📍2020 год - успешно перешел в штат = пересмотр ЗП. Спустя полгода усердной работы я изучил с нуля SQL, Python, Tableau, взял новые задачи и успешно справился с ними. В общем на этом этапе впитывал в себя все как губка, поэтому получил пересмотр ЗП на уровень middle системного аналитика. К концу 2021 это дало X5 к ЗП, что сначала получал на стажировке.
Да, 2020 год при этом был максимально насыщенный, работал по 10 часов, учился на 4-м курсе бакалавриата, писал научные работы и диплом, проходил практические курсы. Но и результат получился отличным.

📍2021 год - перехожу в EPAM Systems на должность Ведущего BI аналитика. Я успешно прошел собесы в сам EPAM и на международный проект Nike, куда брали далеко не всех. И там началось просто лютое обучение новому стеку технологий, внутренние тренинги и повышения квалификаций, участие в отборе и найме аналитиков на другие проекты. При этом я поступил в магистратуру на английском языке на вечернее обучение в НИУ ВШЭ.
Как выглядел мой график: работа с 9:00 до 18:00, едешь на пары с 18:00 до 21:00, возвращаешься работать и делать практику/учебу и все что связано с обучением до 1:00 часа ночи или позже. При этом я учился и работал на английском языке! Это само по себе уже дает мозгу больше нагрузки.

Привет всем кто жалуется, что не может найти время на свою учебу и развитие! Я прошел стресс-тест одновременной учебы в топовом ВУЗе страны на английском, работы в международном консалтинге, выстраивании семейного быта в Москве одновременно


📍2022 год - сами знаете что было. хаос, непонимание, релокация, закрытие проектов, выход компании из страны. я отказался от релокации за счет EPAM, остался в сформированной компании в РФ. новый проект, поиск новых смыслов, внутренних сил в новой реальности. Как вспомню так вздрогну что мы с вами пережили. Как итог был пересмотр на 14% по году, но с учетом уже высокой базы ЗП в абсолюте получается очень неплохая сумма + премии (они здесь не учтены).
В этом же году начинаю вести свои соц. сети, а потом и обучать людей аналитике по их личным запросам. Вот тут и закрутились сначала личные обучения, потом групповые.

📍2023 год - переход в Сравни. наглядный пример, когда при смене компании рост может быть сильней, чем пересмотры внутри одной компании. именно с этим и связаны +33% год к году

📍2024 год - работаю на senior позиции, решаю супер-интересные задачи как аналитик-инженер, проводим стажировку для аналитиков и расширяем тем самым свою команду. в процентах прирост 11% к самой ЗП, без учета премий

📍2025 год - переход на уровень лида. есть команда. а значит ее нужно технически лидировать. это другой уровень задач, ответственности, где ты становишься "играющим тренером". Сам выполняешь свои задачи и несешь ответственность за задачи своей команды, а значит должен быт в курсе всего. Но пересмотры грейдов дают свои плоды, итог +27%

Тезисы:
- чтобы был результат, нужно херачить днями и ночами, а не жалеть себя и не ныть что нет времени. у нас у всех 24 часа в сутках, только у кого-то они проходят гораздо эффективней
- без обучения, насмотренности и твоего любопытства не будет никакого роста. нужно просто брать и делать
- главные твои большие прыжки в ЗП скорее всего будут в начале карьеры при переходах от junior до middle+/senior позиции
- дальше в процентах тебе будет казаться, что ты слабо растешь, но здесь играет эффект высокой базы, когда в абсолюте может быть хороший пересмотр, но относительно процентов он будет скромный
- на рост в доходе сильней влияет смена компании, либо пересмотры грейда. если сидеть и ждать простой индексации, такого роста не будет.

У тебя все получится, главное действуй эффективно! 🔥 или 👍 за пост

Кто хочет перенять мой опыт, у вас есть прекрасная возможность это сделать с 13 апреля на практическом обучении https://datastudy.ru/

Форма регистрации
🔥337👍3😁2
Вопрос возник, когда обсуждали типовую ошибку "фиктивного инкремента" или поздней фильтрации данных, когда работаем на большом объеме данных и только в конце применяем фильтрацию, хотя ее можно применить в начале скрипта.

База данных будет строить оптимально возможный план запроса из того, что ей доступно в моменте, например на сколько актуальная статистика используемых таблиц и есть ли доступные индексы.
Но движок базы также как и мы может ошибаться и запускать запрос с неоптимальным планом. и стоит вам поменять немного свой запрос самим на более оптимальное написание, движок будет предлагать более быстрый план запроса.

Также стоит понимать, что задача может решаться не в рамках одного длинного запроса, а с помощью
- временных таблиц
- промежуточных таблиц
В таком случае планировщик вам мало чем поможет и задача оптимизации будет на вас.

И тогда вопрос сохранения в эти таблицы лишних и ненужных данных встает уже сильно острее, если они на следующем шаге будут все равно отфильтрованы.

Фильтруй сначала - потом преобразовывай.

Кто пропустил, я написал целую статью по оптимизации аналитических SQL запросов - читайте здесь

Кто я | Навигация | Обучение

#вопрос_от_ученика
👍7🔥43
This media is not supported in your browser
VIEW IN TELEGRAM
Мы настолько привыкли к новым технологиям, что даже не задумываемся «а как это все работает?»

Рекомендации попадают в точку, сервисы предугадывают действия, навигаторы ведут быстрее, чем мы думаем. Кажется, это просто данность. Но за ней стоит биг дата и люди, которые умеют с ней работать: аналитики, инженеры, исследователи и руководители.

Конференция Data Fusion 2026 как раз о том, как данные меняют продукты и нашу повседневную жизнь. Программа масштабная: более 70 сессий на темы ИИ-агенты, RL, CV, NLP, робототехника, рекомендательные системы, AI в кибербезопасности и науке.

🗓 8 и 9 апреля на одной площадке встречаются ML-лиды, DS-специалисты, инженеры, исследователи и бизнес. В сессиях участвуют спикеры из ВТБ, AIRI, МФТИ, Сколтеха, Яндекса, X5, Ростелекома, а также других компаний и научных лабораторий

Событие объединяет людей, которые работают с данными и двигают технологии вперед. Это твой шанс расширить свой кругозор, познакомиться с новыми людьми из своей сферы и узнать лучшие практики рынка 👨‍💻

Я там тоже буду, приходите пообщаться!

Прокачай свою насмотренность и нетворкинг на одном из главных событий года в сфере больших данных и ИИ!
Please open Telegram to view this post
VIEW IN TELEGRAM
4👍2🔥2
Мой заряд кофеина

До прошлого года пил только растворимый кофе и было норм. Никогда не считал себя ценителем, до появления турки 😁

Это какой-то новый уровень вкуса, аромата. А вот над покупкой кофемашины долго думал и сейчас как-будто в ней и необходимость отпала, ничего обслуживать и чистить не надо.

Чай кстати раньше пил только черный в пакетиках, а сейчас зеленый листовой с заваркой в чайнике. Сказали бы мне раньше что так будет, не поверил бы что так вкусы поменяются 😂

Интересно что вы больше любите
👍 - за кофе
🔥 - за чай
♥️ - и то и другое как я
👍2824🔥12😁1
Работать в корпорации VS в маленькой компании (часть 2)

В первом посте рассказал про плюсы работы в корпорации и среднем-малом бизнесе. Сейчас поговорим о минусах

📍Минусы корпорации
- бюрократия. долгие процессы согласований доступов, больших ресурсов, длинные цепочки коммуникаций. крупный аппарат становится менее гибким и неповоротливым в любом случае. опять же от компании к компании уровень вот этой "вязкости" может сильно отличаться, но к сожалению не всегда это можно распознать на этапе оффера.

- высокие требования для кандидатов на старте. если мы говорим про IT-зрелую корпорацию, то как правило все простые задачи уже были решены и компания ищет "острые умы" для комплексных задач. там и объемы данных громадные, технологический стек соответствующий, поэтому компании ваши знания только экселя и базового sql не подойдут.

- система оценки компетенций и пересмотра ЗП. здесь скорее всего будет процесс оценки сотрудников по их результативности, сравнения ЗП по сравнению с рыночными вилками и вас будут сравнивать со средними показателями в грейде по компании/рынку. если ты скромный или недооцениваешь свои силы - это может сыграть в плюс, чтобы тебе платили по рынку в среднем. а если ты по грейду мидл, а работаешь как синьор и круче большинства, то тебе будет сложней доказывать армии HR и руководителям выше почему тебе должны платить выше. другими словами, когда ты уже пришел в корпорацию и просто хочешь хорошего повышения, ты должен выпрыгнуть из штанов чтобы доказать это. почему? да потому что в принятии решения о пересмотре будут принимать участие не только твой руководитель, а еще множество людей, которые ответственны за этот отдельный бизнес-процесс.

- много "так исторически сложилось". системы в компании работают уже скорее всего множества лет, куча разных спецов вносили свой вклад в это. и из-за этого особенно в аналитике выходит много особенностей, которые стоит учитывать. сначала считалось так, потом по-другому, а в ретро-данных надо учесть по третьему. а где-то был баг, который углядели через полгода и для его обхода налепили костылей. и вот таких моментов как правило очень много. если хотите работать с чистого листа, быть первопроходцем, то вам такая история не подойдет

📍Минусы маленьких компаний
- ты один на проекте. как правило сотрудников мало, и ситуация когда ты окажешься одним аналитиком на всю компанию или большой проект - норма. если ты опытный - проблем возникнуть не должно. но если не уверен в своей профессиональной зрелости, то будешь скорее всего изобретать велосипеды, т.к. посоветоваться не с кем, а личного опыта может быть недостаточно.

- bus-фактор. или сильная зависимость от сотрудника. если столкнуться с тем, что предыдущий сотрудник уволился или просто кто-то из нужных коллег ушел в отпуск, то скорее всего ты не найдешь никакой документации или заметок. все знания могут уйти вместе с человеком. поэтому пиши документацию всегда!

- техническая незрелость. нужно быть готовым, что часть процессов в компании работают на ручном приводе, или неоптимально. либо просто нет привычных подходов, о которых мы слышим например в построении отчетов (ETL, BI, DWH) просто потому-что в моменте они являются избыточными для бизнеса - нет больших объемов данных, нужных компетенций, ресурсов, чтобы делать сразу "как надо". но прикол в том, что если компания хорошая и растет, то она к этому рано или поздно все равно скорее всего придет и ты можешь стать тем человеком, кто будет лидировать это развитие, если проявишься.

по ЗП вопрос никуда выносить не стал как плюс или минус, т.к. нет явного деления что корпорации платят больше или наоборот, особенно если учитывать все уровни специалистов. поэтому этот вопрос останется за рамками сравнения и будет зависеть от конкретных вакансий

ставьте реакции, если мысли полезны


Кто я | Навигация | Обучение
👍21🔥53