Инжиниринг Данных
23.5K subscribers
1.99K photos
55 videos
193 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
#dataengineering

В приложение книжка Apache NiFi for Dummies (то есть для чайников). Это open source продукт для интеграции и трансформации - ETL, с возможностью загрузки данные в реальном времени.
#dataengineering

Профессия Инженера Данных набирает популярность, по сути, это человек, который знает как управлять потоками данных любого размера, знает инструменты для работы с данными и понимает в каком виде лучше всего предоставить данные для конечного потребителя. Если посмотреть на Head Hunter, то там вакансии Data Engineer это обязательно будет BigData, Hadoop, Spark, Java и тп. Или вообще программист со знанием C++. Я с этим не согласен. Это всего лишь разновидность задач, которые не решить традиционным ETL. Хотя тренд такой, что AWS позволяет использовать Hadoop без знания Java, так же как и предлагает готовые сервисы по распознанию голоса или видео. На западном рынке Data Engineer - это специались по работы с данными (аналог нашего ETL разработчика) и задачи бывают разные, но уже больше 50% связано с облаком.

Основной тренд понятен, это облачные вычисления, соответственно, это большой плюс пройти обучение и при возможности сертифицироваться, желательно бесплатно или почти бесплатно. Сейчас есть 3 основных лидера Azure, AWS, GCP. По каждому из них разработана сертификация. Но GCP пошел дальше. У нас есть замечательная возможность пройти бесплатное обучение на Coursera по Data Engineering on Google Cloud Platform Specialization и за 250$ сдать экзамен на Google Data Engineer. Несмотря на то, что курс по GCP, концепции те же самые, как у AWS и Azure.

На прошлой неделе я сдал экзамен по Tableau Desktop Associate, следующий будет Tableau Server Associate, замет AWS Solution Architect Associate и обязательно
Google Cloud Certified Data Engineer

PS Если есть возможность расшарьте пост или другие посты, больше людей придет, больше контента буду писать:)
🍓1
#dataengineering

ETL vs ELT от Matillion. Если уж совсем по простому, то ETL это когда мы подключаемся к источнику данных, забираем данные(Extract), и начинаем их пропускать через наш тул(ETL), то есть трансформировать(Transform), например, менять формат данных, создавать новые поля и тп., а потом мы готовый результат загружаем(Load) в нашу базу данных (Data Warehouse). Обычно это удобно, так как ETL тул, имеем можноство встроенных трансформаций, и мы мышкой можем создавать и траснформировать данные. Но нам нужно достаточно мощный сервер, чтобы все это дело работало. Примеры - Informatica Power Center, SAP BODI, IBM DataStage и тп. И все эти друзья очень медленно загружают данные в облачные базы данных (Redshift, BigQuery). Но есть возможность сделать ELT (только не понятно зачем тогда переплачивать).

А есть другой подход, мы извлекаем данные (Extract), загружаем в базу данных (Load), и дальше используем ресурс аналитической базы данных и SQL делаем все необходимые операции. Как результат, работает быстро и не нужен дорогой сервер и лицензии дешевле или вообще платим только за то, что используем. Пример - Matillion, Amazon Glue, Azure Data Factories. При этом мы можем воспользовать преимуществом облачного хранения данных (Amazon S3, Azure Blob Storage).

Я работаю с Matillion сейчас, и мне нравиться, что это ELT, но при этом выглядит как ETL.
#dataengineering

Еще парочку интересных постов от компании UPSIDE. Первый про миграцию из Redshift на Snowflake. Пока мы тут обсуждаем преимущетсва облака, ребята уже наигрались в Redshift, и мигрировали на Snowflake в качестве Хранилища Данных и Matillion как основной ETL. При этом они сэкономили 70% от стоимсти Redshift за счета распределенный архитектуры (хранение данных и вычисления). Если вы строити хранилище в облаке, стоит задуматься. Если есть вопросы по облачным аналитическим решениям, могу подсказать.

Другой пост от CTO, о том, как они немного устали от AWS. Несмотря на то, что AWS лидеры, не все так хорошо и не всегда работает для конкретных случаем.
#dataengineering

Еще интерсный пост из этой же серии. Ребята из Fivetran (ETL продукт), проверили производительнось Redshift, Snowflake, Azure DW, Presto, BigQuery и сравнили скорость и цены.

Я вот недавно узнал, про becnhmark для аналитических решений, оказывается есть стандартизированные базы данных разных размеров под разные кейсы. Существуют не комеерческая организация TPC, которая появилась в 80х и они начинали с ATM машин и транзакционных систем. Если вам интересно, можете почитать больше по ссылке.

Для аналитических решений используется база TPC-DS. Например, в Snowflake она уже доступно по умолчанию, в Redshift я не видел, но мне кажется, вам придется загружать самим. В TPC есть уже эти базы под различные БД (Oracle, Teradata, ..)

В нашем примере ипользовали данные 2х размеров: 100Гб(400 млн строк) и 1ТБ(4 млр строк). Так жы использовали сложные запросы от TPC (без кеширования).

В принципе у них получось все почти одинаково, так как они хотели просто пропиариться. Мне бы было интересно такой тест провести, но это требует времени на подготовку и будет стоить денег за ресурсы.
#dataengineering

Попался действительно хороший отчет по сравнению аналитических платформ Snowflake, BigQuery, Azure SQL DW, Redshift. Очень подробная информация про +/- каждой из систем с ценами и производительностью при работе с benchmark DB TCP-H (я рассказывал ранее про нее). https://gigaom.com/report/data-warehouse-cloud-benchmark/
#dataengineering

Отличная статья про роль и задачи Инженера Данных, этот перевод статьи сделан SkyEng. Кстати они используют Redshift и Matillion. И тут у меня возник вопрос, возможно вам будет полезно.

Если вы используете Google BigQuery или Amazon Redshift и у вас стоят задачи автоматицазии потоков данных, можно просто назвать ETL, или вам нужна автоматизации маркетинга, или интеграции ETL с BI инструментом, то вам следует посмотреть на Matillion ETL, уже несколько компаний в России используют его,и с одними я недавно общался и показывал, что можно делать. SkyEng уже использует год и очень довольны.

Если вам интересно и у вас есть такие задачи, то напишите мне, я смогу вам показать, как я использовал Matillion и какие задачи можно решать без кодинга и другого гемороя. Или у вас сложности с текущим иснтрументом (Talend, Pentaho, Informatica, и тп).

Возможно весной сделаю вебинар по Аналитическим Решениям на русском минут на 60 (бесплатно😎).
#dataengineering

Я обновил архитектуру текущего решения. Тут есть и Streaming (Kinesis Firehose), и Big Data на базе Elastic Map Reduce и Spark, и NoSQL на базе DynamoDB, и Data Lake на базе Redshift Spectrum и Glue. Каждое решение дополняет друг друга и справляется со своей задачей отлично. В качестве главного ETL - Matillion, BI - Tableau.

Я подготил этот слайд для конференции, Enterprise Data World 2019, которая пройдет в Boston уже через 2 недели, где я буду рассказывать про это решение.

Все супер, только лететь придется за свой счет. Зато, бесплатно попаду на конференцию, а так бы цена 3K+$. В прошлом году, я выступал на EDW18 в San Diego, было там семьей и гуляли по городу, не посетил ни одной презентации. В этом году, один лечу и послушаю все и вся:) И конечно посещу MIT и Harward. Так же там есть Amazon Robotics и Amazon Alexa команды.
❤‍🔥1
Forwarded from Data engineering events
📅 #Топ мировых конференций по Data Engineering на 2026

🧰 01/24 — Data Day Texas +AI — Austin, USA — ламповая комьюнити-конфа про инженерку данных: пайплайны, DWH/lakehouse, облака, практики прод-эксплуатации. Online только материалы/записи (если выложат).

🧭 03/09-11 — Gartner Data & Analytics Summit — Orlando, USA — data governance, architecture, operating model, “как продать и масштабировать платформу данных” в компании (полезно архитекторам/лидам). Online только материалы после (если доступны).

☁️ 04/22-24 — Google Cloud Next — Las Vegas, USA — паттерны построения data platforms в GCP: ingestion, lakehouse/warehouse, streaming, security & governance. Online только записи/хайлайты (если будут).

05/19-20 — Current (Confluent) — London, UK — Kafka/streaming в проде: real-time ETL, schema evolution, governance, observability, event-driven архитектуры. Online только материалы/записи (если выложат).

🏛️ 05/06-08 — Data Innovation Summit — Stockholm, Sweden — современная дата-платформа: data products, governance, quality, architecture, enterprise-кейсы.

❄️ 06/01-04 — Snowflake Summit — San Francisco, USA — облачный DWH/платформа: performance, governance, sharing, ingestion/ELT, экосистема. Online только livestream ключевых + записи.

🧊 06/15-18 — Data + AI Summit (Databricks) — San Francisco, USA — lakehouse/lakehouse-ops: ingestion, streaming, governance, cost/perf, infra для MLOps/GenAI на платформе. Online только Watch On Demand.

🌀 08/31-09/02 — Airflow Summit — Austin, USA — оркестрация и ops: multi-tenant Airflow, reliability, backfills, sensors, best practices для data platform teams. Online только записи (если выложат).

🛠️ 09/15-18 — Coalesce (dbt Labs) — Las Vegas, USA — analytics engineering для прод-DWH: dbt, тесты/контракты, семантика, lineage, CI/CD. IRL + online.

🎡 09/23-24 — Big Data LDN — London, UK — большой зоопарк modern data stack: платформы, интеграции, governance/quality, архитектурные кейсы и вендоры. Online только материалы (если появятся).

🏗️ 11/30-12/04 — AWS re:Invent — Las Vegas, USA — инфраструктура под data platforms: storage/lakehouse, streaming, managed data services, security, FinOps. Online только on-demand + Best of re:Invent (virtual).

#y2026 #DE #data #conferences #dataengineering #modernDataStack #dataplatform #airflow #dbt #iceberg #kafka #streaming #dataquality #datagovernance #tobecontinued..
Сохраняй — и пусть 2026 будет годом крепких дата-платформ и бодрых релизов 🚀

* при подготовке использовались #LLM, тч делайте #фактчекинг 😁 (и присылайте под пост или в директ;))
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥17😭75🐳1🌚1🦄1