Инжиниринг Данных
23.5K subscribers
1.99K photos
55 videos
193 files
3.21K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
Хочу поделиться интересным опытом с AI. Опять же, на сам конечный результат это не влияет. Но влияет на его скорость и качество.

Возьмем пример Azure Data Factory. Это такой orchestration инструмент на Azure. По умолчанию там UI и drag&drop. Все очень просто, пока не нужно делать 100 pipelines.

Допустим, мы продвинутые инженеры (сеньоры, например), и мы хотим использовать best practices и engineering excellence, и добавили git версионирование, и следующий шаг будет сделать Infrastructure as a Code.

Первое, о чем мы подумаем - это Terraform или Azure Bicep. А может быть, вообще возьмем ADF SDK, и там есть Python SDK или C# (я, кстати, на нем и делал все в Microsoft внутри Visual Studio (не путать с VS Code)).

То есть мы думаем о привычном методе, о коде, который будет написан AI, но как будто человеком, и, в теории, другие человеки смогут его читать (без AI).

Хотя по факту никто его уже не будет читать без AI. И вообще уже не важно, что там C#, Python, Bicep, Terraform - главное, чтобы данные грузились.

Тут важно заметить, что это применимо к инжинирингу данных, и может быть совсем не применимо к другим областям.

Что я сделал?

Взял свой GitHub репозиторий с ADF, где все автоматически создано в ARM (Azure JSON формат), который не пишется человеком, и попросил AI сделать правила репозитория и начать создавать новые pipelines. (Аналог может быть Tableau Workbook XML или другие смежные программы с их файлами)

Таким образом, из моего backlog я просто взял и выкинул кучу задач про миграцию ADF на Bicep/Terraform и ускорил разработку, доработку и документацию в несколько раз.

То есть идея в том, что с AI я спустился на уровень ниже: вместо привычной абстракции в виде Terraform/Python я начал фигачить JSON ARM, который не human readable. И я полагаю, нам нужно не бояться уходить от традиционных методов и начинать исследовать новые возможности.

Скоро можно будет сразу на бинарном коде строить дашборды.

PS на картинке пример. Я еще собрал историю своих промотав за последние несколько месяцев и на их базе создал монстр правило как все должно работать и в него написано про доступный MCP сервер, чтобы сразу ходить и все проверять. Раньше я ленился и поэтому много надо было копировать руками и было много ошибок.

Дальше хочешь попробовать вставить duckdb куда-нибудь для оптимизации расходов, один ADF Runtime стоит 3к$ в месяц.
❤‍🔥27🙈62
Сегодня у меня на zoom call товарищ подключился со своего рабочего места…

Будущее наступило🚶‍♀️

PS хотите удивить на собеседовании? Теперь знаете, что делать. И глаз не видно, которые списывают из chatgpt))
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥2820👨‍💻5🤷4
Основатель O’Reilly - Tim O’Reilly написал хорошую статью - AI and the Next Economy

Основные идеи статьи от АI:

🔄 Экономика как циркуляция
Автор утверждает, что экономика — это не просто производство, а производство + спрос. Спрос требует широко распределённой покупательной способности. Нельзя построить процветающее общество, оставив большинство людей "за бортом".

⚠️ Проблема нарративов об AGI
Многие нарративы об искусственном общем интеллекте (AGI) предполагают, что:
• Производительность вырастет
• ВВП увеличится
• Но при этом игнорируется вопрос: кто будет покупателями, если большинство людей потеряют работу и доход?


💔 Две версии будущего
1. Экономика открытий — ИИ может помочь решить глобальные проблемы (энергия, материалы, болезни), но:
• Открытия ≠ экономическая ценность
• Между открытием и широким внедрением — долгий путь
• Если контроль над технологиями сконцентрирован, получится "феодализм открытий"
2. Замена труда — ИИ заменит интеллектуальную работу, но:
• Если зарплаты исчезнут, кто будет покупать товары?
• Падение доли зарплат в экономике приведёт к нестабильности

🔑 Ключевые уроки истории
Автор приводит примеры:
• Генри Форд платил высокие зарплаты и сократил рабочие часы, создав массовый рынок для своих автомобилей
• Amazon и Google изначально создавали циркулирующую экономику (flywheel-эффект), но со временем стали извлекать ренту
• Децентрализация (ПК, интернет, open source) стимулирует инновации; централизация захватывает ценность

💡 Что нужно делать
AI-лабораториям:
• Измерять успех не только по возможностям моделей, но и по их распространению
• Создавать открытые интерфейсы, переносимость, совместимость
• Избегать искусственных барьеров
Компаниям:
• Не просто сокращать расходы через ИИ
• Инвестировать дивиденды от производительности в сотрудников (повышение зарплат, сокращение часов, переобучение)
Правительствам:
• Инвестировать в инфраструктуру и институты для новой экономики
• Рассмотреть переход от налогов на труд к налогам на прирост капитала

🌊 Главная метафора
Цитата из Уильяма Блейка: "Плодовитый перестанет быть плодовитым, если Пожиратель не будет, как море, принимать избыток его наслаждений".

Иными словами: производство должно потребляться, система должна циркулировать. ИИ-экономика нуждается в "маховике" (flywheel), который обеспечит широкое распространение благ, а не их концентрацию.
51🦄13👨‍💻3
У AI есть интересный side эффект.

Как вы знаете, когда вы закрываете задачу, то вы получаете заряд дофамина. С AI в IDE вы можете закрыть в 5 раз больше задач в 3 раза быстрей. При условии, что нет токсичной среды с микроменджерами и медленным code review процессом и вы знаете, что делаете.

В каком-то смысле AI заменяет соц сети, только за это еще платят.
🤷2110💯6🙈53🍌2🦄2
Запускаем год с запуска LLM

На вебинаре 15 января эксперты Cloud.ru расскажут, как точно рассчитать конфигурацию для запуска LLM и как настраивать параметры инференса, чтобы сэкономить, но не потерять в качестве.

Что еще интересного в программе:

🟢из чего складывается потребление vRAM

🟢как точно рассчитать нужную конфигурацию GPU

🟢какие параметры LLM сильнее влияют на цену и производительность

🟢как масштабировать модель и переводить ее в serverless-режим

А еще будет практика: запустим LLM в сервисе Evolution ML Inference, покажем оптимальные параметры, сравним разные конфигурации по цене и скорости работы.

Будет интересно всем, кто хочет избежать лишних трат на ML-инфраструктуру.

Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥3🐳2
Forwarded from Data engineering events
📅 #Топ мировых конференций по Data Engineering на 2026

🧰 01/24 — Data Day Texas +AI — Austin, USA — ламповая комьюнити-конфа про инженерку данных: пайплайны, DWH/lakehouse, облака, практики прод-эксплуатации. Online только материалы/записи (если выложат).

🧭 03/09-11 — Gartner Data & Analytics Summit — Orlando, USA — data governance, architecture, operating model, “как продать и масштабировать платформу данных” в компании (полезно архитекторам/лидам). Online только материалы после (если доступны).

☁️ 04/22-24 — Google Cloud Next — Las Vegas, USA — паттерны построения data platforms в GCP: ingestion, lakehouse/warehouse, streaming, security & governance. Online только записи/хайлайты (если будут).

05/19-20 — Current (Confluent) — London, UK — Kafka/streaming в проде: real-time ETL, schema evolution, governance, observability, event-driven архитектуры. Online только материалы/записи (если выложат).

🏛️ 05/06-08 — Data Innovation Summit — Stockholm, Sweden — современная дата-платформа: data products, governance, quality, architecture, enterprise-кейсы.

❄️ 06/01-04 — Snowflake Summit — San Francisco, USA — облачный DWH/платформа: performance, governance, sharing, ingestion/ELT, экосистема. Online только livestream ключевых + записи.

🧊 06/15-18 — Data + AI Summit (Databricks) — San Francisco, USA — lakehouse/lakehouse-ops: ingestion, streaming, governance, cost/perf, infra для MLOps/GenAI на платформе. Online только Watch On Demand.

🌀 08/31-09/02 — Airflow Summit — Austin, USA — оркестрация и ops: multi-tenant Airflow, reliability, backfills, sensors, best practices для data platform teams. Online только записи (если выложат).

🛠️ 09/15-18 — Coalesce (dbt Labs) — Las Vegas, USA — analytics engineering для прод-DWH: dbt, тесты/контракты, семантика, lineage, CI/CD. IRL + online.

🎡 09/23-24 — Big Data LDN — London, UK — большой зоопарк modern data stack: платформы, интеграции, governance/quality, архитектурные кейсы и вендоры. Online только материалы (если появятся).

🏗️ 11/30-12/04 — AWS re:Invent — Las Vegas, USA — инфраструктура под data platforms: storage/lakehouse, streaming, managed data services, security, FinOps. Online только on-demand + Best of re:Invent (virtual).

#y2026 #DE #data #conferences #dataengineering #modernDataStack #dataplatform #airflow #dbt #iceberg #kafka #streaming #dataquality #datagovernance #tobecontinued..
Сохраняй — и пусть 2026 будет годом крепких дата-платформ и бодрых релизов 🚀

* при подготовке использовались #LLM, тч делайте #фактчекинг 😁 (и присылайте под пост или в директ;))
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥17😭75🐳1🌚1🦄1
Вчера был интересный разговор с VP Data в крупной Wealth Management компании, который стал с 2026 года VP Data & Artificial Intelligence. (Я помогаю им с прорывными аналитическими решениями).

Сама компания традиционный Enterprise, где источник данных SFTP и множество решений on-premise.

Ему понравился мой background и он захотел познакомиться поближе. Разговор он начал с того, что он тут где-то года два и у него есть два сценария:

1) оставить всё как есть, и через два года его попросят
2) попытаться сделать что-то прорывное, и даже если его попросят, у него будет классный кейс.

Это было очень необычное начало знакомства, но мне понравилось. Он рассказал как в 2017 году познакомился со статьей Attention is All you Need, и как воодушевившись ей, они стали делать продукт внутри финансовой организации и получилось очень круто.

Cтатья представляет архитектуру Transformer — революционную модель для обработки последовательностей, основанную исключительно на механизмах внимания (attention), полностью отказавшись от рекуррентных и свёрточных нейронных сетей. Модель достигла новых рекордов в машинном переводе (28.4 BLEU на английско-немецком переводе), обучаясь значительно быстрее предшественников благодаря возможности параллелизации вычислений. Статья важна потому, что Transformer стал фундаментом для современных языковых моделей (BERT, GPT, T5 и других), определив развитие всей области обработки естественного языка и искусственного интеллекта на годы вперёд.


Теперь он хочет сделать, что-нибудь крутое в свой организации и попросил ему помочь с thought leadership в области Intelligence Platform. Это такой термин, который описывает стратегию позиционирования человека или компании как признанного эксперта и влиятельного источника идей в своей области.

Еще из интересного, он рассказал, что пошел на 2й Masters в UC Berkeley, чтобы максимально эффективно учиться прикладным задачам по AI. Я его спросил, почему не MBA, он сказал там бесполезная теория.

Из всех VP, этот товарищ мне очень понравился. Но как говорится “культура ест стратегию на завтрак”. В компании, где доступ ко всему закрыт, где люди не хотят учиться и развиваться и вообще не думаю про карьерный рост как таковой или новые скилы, будет очень сложно достичь высоких результатов.

Я ему предложил универсальный метод - выбить Claude Code или Cursor для его департамента и я всех научу работать в 10 раз быстрее. На что он сказал, что это небезопасно, compliance, security и тп, лучше дальше платить миллионы подрядчику, чтобы каждый день ходить на митинги по 10-12 человек, а у подрядчика даже доступа нет, и они спрашивают, что было сделано ИМИ ЖЕ в прошлом году, но другой командой.
❤‍🔥22🫡106💯2👨‍💻21🐳1
Канал Артемия @data_apps один самых недооцененных каналов.

Возможно это связано, что он пишет про технологии и подходы, которые must have на западе, но плохо заходят на ru сегменте.

Сегодня он написал пост про свой опыт работы в компании и свое разочарование от происходящего. Можно сказать, что это и есть burn out.

Раньше я писал хороший пост про матрицу компетенции и карьерные перспективы.

PS вообще Senior Engineer самая уязвимая категория людей в психологическом плане - выгорания, буллинг от менеджеров, глупые хотелки руководства, несбыточные надежды карьерного роста, падения рынка ценных бумаг, дорожание теслы, налог на премиум тачки, прогрессивная налоговая шкала, куча бесполезных знаний по устаревшим технологиям.


Обязательно ознакомьтесь с опытом Артемия, особенно если вы начинающий инженер, чтобы знать чего вам ожидать: https://xn--r1a.website/data_apps/444

Я, например, и так был знаком с его проектами, потому что он часто пишет о своей работе, проектах и результатах.

Очевидно топ инженер, который любит свое дело и доводит его до конца.

Но для владельца бизнеса это просто наёмный работник, такой же как и водитель и офис менеджер.

Никому нет дела до перфекционизма и единственный источник вдохновения на работе - это личная радость от результата.

Потом мы упаковываем свой опыт в красивую историю и делаем 2х или просто берем подработку, чтобы были ИКСЫ. Желательно делать это каждые 1,5-2 года в начале карьеры.

Я очень прекрасно понимаю вложенные труды и результаты, фидбек менеджера и разочарование автора.

Но это база, чем раньше это понять, тем легче будет жить и работать.
4❤‍🔥198🤷5
Пришло время Agentic RAG — подхода, при котором AI-агент самостоятельно ищет, рассуждает и действует, используя RAG не как чат, а как инструмент доступа к знаниям 😎

На вебинаре 22 января специалисты Cloud․ru покажут, как с помощью Evolution AI Agents, Evolution Managed RAG и MCP-протокола построить систему, способную решать многошаговые задачи в реальном времени.

В программе:
😶‍🌫️как устроена архитектура Agentic RAG;

😶‍🌫️как MCP-сервер для Evolution Managed RAG предоставляет стандартизированный интерфейс к векторной базе знаний;

😶‍🌫️как агент использует retrieval-augmented reasoning в одном цикле исполнения;

😶‍🌫️какие LLM лучше подходят: для быстрых гипотез и для production с высокой нагрузкой.
А еще будет практическая часть: получится развернуть AI-агента в Evolution AI Agents и подключить MCP-сервер для Evolution Managed RAG.

Зарегистрироваться
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤‍🔥33🦄1
1768685649415.pdf
1.4 MB
Классный обзор от знакомого про Claude Code
❤‍🔥7🙈4
Как найти работу за рубежом, если страшно и непонятно с чего начать?

Международный рынок открывает двери к крутым проектам, зарплатам в долларах и евро, но иногда кажется искать работу за границей долго, нудно и слишком сложно!

Непонятно, что делать. Правила рынка другие. Здесь мало резюмешки на хэдхантере и рекрутеры за тобой не бегают толпами. Нужно заводить LinkedIn, искать рефералов, выискивать вакансии среди десятков джоб-бордов...

Разобраться быстро самому почти невозможно. Зато есть такие ребята как AgileFluent 👇

Они уже 4 года помогают IT и Digital специалистам выйти на международный рынок. На их счету — 800+ офферов в 32 странах в такие компании как Amazon, Cisco, UniCredit, Revolut, FLO, Ferrero, N26, ALDI, Semrush, Wheely…

Они ведут крутой канал про международку, где делятся:
✔️ историями тех, кто переехал и зарабатывает в валюте,
✔️ разборами резюме и LinkedIn профилей,
✔️ персональными подборками вакансий,
✔️ гайдами и чек-листами по CV, CL, LinkedIn...

Если давно мечтал о работе за рубежом — это твой знак! Начни с их канала :)

👉 Подписывайся

Реклама. ООО «Эджайл», ИНН 7810964334, erid:2Vtzqvk5SgK
29
Что вы знаете о стратегии данных (data strategy)?

Стратегия данных — это комплексный план организации по управлению данными как стратегическим активом для достижения бизнес-целей. Это документ или набор принципов, определяющих, как компания будет собирать, хранить, обрабатывать, анализировать и использовать данные для создания ценности.


ОБычно про стратегию часто говорят в компаниях, но все ограничивается презентацией с планами на будущее.

Поэтому ценность этого мероприятия совсем размылась, хотя это должен быть важный документ, который расскажет все зачем нужна дата команда и куда потратят кучу денег следующие несколько лет.

Как у вас дела со стратегией? Писали? Видели?
❤‍🔥11🦄2
Пример некомпетентности или лени? Вопрос только чей — моей или менеджера?


У компании есть Stripe (платежная система), в которой заведены продукты и подписки. У каждого продукта есть свои вложенные свойства — план, срок, страховка и т.п.

Задача: сделать дашборд с простыми показателями — ARR, Active Customers, Cancellation, Expansions и т.п.

Как работает система: Fivetran загружает данные в Snowflake, dbt использует medallion architecture, дашборд в Sigma BI.

Максимально популярный кейс для стартапов и небольших компаний в Северной Америке.

Команда и контекст
В команде (data team) есть VP, Product Manager Customer Analytics, Data Analyst.
Есть существующие dbt-модели от прежнего подрядчика и дашборд в Sigma BI по подпискам, который каждый день просматривается exec-командой.

Моя зона ответственности: вся data & ML инфраструктура, CI/CD, инструменты и т.п. То есть для меня бизнес-логика subscriptions — это black box. Хотел бы я лучше понимать подписку? Возможно. Удвоит это мой доход? Нет;)

На добровольно-принудительных основаниях мне предложили пофиксить subscription black box, как я это ранее делал для других доменов (sales, marketing, product usage, customer service).

Что произошло
Вместе с Cursor (AI), открытыми примерами dbt-моделей и документацией API я смог создать Subscriptions V3. Почему V3? Потому что V2 сказали убрать, так как цифры не сильно похожи на V1 — тот, который каждый день смотрит exec-команда.

Когда я закончил V3, меня стали спрашивать: «А почему показатели расходятся с V1?» Ответ простой — логика другая. И каждый день сыплется порция новых вопросов и идей.

В какой-то момент я потерял суть событий и вообще задался вопросом: если цифры в V1 так нравятся exec-команде, то почему бы не оставить их? (Риторический вопрос)

Так как я взялся за эту задачу, я как бы стал ответственным за это дело. И все дружно приходят ко мне с вопросами, как будто я эксперт в подписках, знаю всё про ARR/MRR и другие тонкости расчётов, и особенно знаю, почему V1 и V3 расходятся.

Самое главное
Эталонных цифр нет. То есть ни V1, ни V3 мы не можем сравнить с истиной. В Stripe есть свои дашборды, но команда решила, что там показатели ниже, чем в V1, и поэтому такое нам не подходит.

Ещё недавно узнал от CTO, что он эксперт по подпискам, а всё это время (2–3 месяца) работа велась под руководством Product Manager.

Два взгляда на ситуацию
А) Вы работаете в стартапе, и вы можете надевать шляпу инженера, аналитика, продакта и выходить за рамки своих обязанностей, вообще кидаться на амбразуру при любом удобном случае.
Б) Вы эксперт в определённой области — в моём случае дата-инфраструктура, и я отвечаю за всю систему в целом. Моё преимущество в том, что мне не надо ковыряться в domain-логике, особенно если это не простые вещи, как продажи, где ПРИБЫЛЬ = СУММА × КОЛ-ВО ЗАКАЗОВ, и я смогу посмотреть в backend на правильный ответ.

PS Это я очень вежливо описал ситуацию 😉

Моя позиция
Со своей колокольни я могу сказать, что моё время расходуется неэффективно — вариант Б, и скинуть на меня такой проект неправильно. У меня чувство, что я расходую энергию на какие-то глупости из-за того, что кто-то не захотел разобраться в сложном вопросе и решил делегировать мне.

На данном примере я хотел показать пример неэффективного использования инженерного времени и отсутствия правильного распределения обязанностей, которые ведут к:
• Проблемам с качеством insights
• Проблемам в других областях, которые просто простаивают
• Ухудшению климата в команде
• Waste времени и ресурсов

Я считаю, что начиная с определённого этапа компании должны использовать профессионалов и их сильные стороны, вместо того чтобы затыкать ими дыры.

Существует известный красный флаг - это когда вам говорят, это не моя работа, или у меня этого нет в обязанностях. К этой ситуации я этот пример не отношу. И тут важно, что это у всего есть предел и не возможно требовать от человека то, что за 2 года никто не могу сделать и все избегали. Если посмотреть на расход токенов в AI на эту задачку, что за 3 месяца набежала кругленькая сумма. Без AI вообще бы была труба.
Контекст из индустрии
Таких ситуаций много. В 1Password на ARR и подписках погорело много аналитиков (уволили), так как часто бывает полный хаос внутри, начиная с момента, как вы заводите новый продукт в системе.

Вопрос к вам
Есть ли у вас примеры, когда к вам прилетала задачка, которая не совсем про вас, или когда вы давали задачу человеку, а он её избегал?