Инжиниринг Данных
23.7K subscribers
2.02K photos
57 videos
193 files
3.23K links
Делюсь новостями из мира аналитики и карьерными советами.

15 лет в Аналитике и Инжиниринге Данных, 10 лет в MAANG

🛠️ dataengineer.ru | 🏄‍♂️ Surfalytics.com

№5017813306

Реклама:
https://almond-rule-130.notion.site/1199f595f76a8030ba1be1e607c9a8ce
Download Telegram
И в подтверждение всего вышесказанного расскажу, что мне удалось сделать вчера. На базе Surfalytics я могу экспериментировать, и у меня были в команде UX/UI-дизайнеры, SDE, маркетинговые эксперты, reels-мейкеры и т.п. У каждого была возможность за мой счёт реализовать их же идеи 🍪🍪

Остановлюсь на примере SDE, а именно — разработке backend/frontend. Мы решили мигрировать с GitHub Pages и Zapier на Netlify (хостинг) и Supabase (бэк). Идея была простая — добавить личный кабинет и в нём сделать roadmap и множество других фич.
Supabase оказался очень крутым продуктом — по сути это Postgres и множество фич: аутентификация, возможность запускать функции (как AWS Lambda) и т.п. Можно создавать новые таблицы и трекать разные активности.

Товарищ смог справиться с миграцией as is, но дальше пока у нас не очень хорошо шло. Я решил поэкспериментировать. С помощью Claude Code я запустил сайт локально с подключением к Supabase prod и начал добавлять фичи и менять структуру Supabase и страницы сайта. У меня не было много времени, но я прифигел от результата. Даже мой SDE офигел от результата и попросил его научить.

Я смог добавить визуализацию как у GitHub, которая показывает вашу активность. Пока это только логины в кабинет, но потом я смогу подключить активность в Discord.
Но самое крутое — это как AI начал решать задачу вместе со мной для создания Roadmap. Мне нужно было сделать конфигуратор задач с описанием и возможностью сохранять результат в Supabase БД, и он справился.

Я добавил несколько скринов.

Параллельно с этим локально я развернул Airflow 3.1, чтобы выгрузить всю историю сообщений из Discord с 2023 года — там самый сок. Я знал про DuckLake, но не использовал. Ну как я? Claude Code постарался, учит меня родной.

Я сделал себе DuckLake:
• сторадж в S3 (копейки)
• каталог в Neon Postgres (бесплатно)

Я ещё экспериментировал с Open Source BI — долго пытался завести Evidence, но не сработало, переключился на Cube.js.

Далее я подвяжу мой DuckLake на бэк и смогу обновить график активности. И сделать AI-интеграцию:
• на базе всех сообщений сделать RAG и подвязать его к боту, который будет помогать в Discord и отвечать на базе прошлых сообщений
• автоматически создавать Weekly Newsletter на базе переписок и статей, которые мы шарим (делать выжимку из статей)

То есть задача — максимально мотивировать участников сообщества, чтобы не ленились и не расслаблялись. В целом наличие всего это никак не влияет на успех сообщества, но хочется реализовать свои идеи.

И всё это возможно благодаря AI-разработке, где мне лишь достаточно иметь намерение.

#aidev
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥2814💯1
Запись вебинара про Tengri от Николая.

Вебинар представляет Tengri Data Platform — корпоративную аналитическую платформу класса LakeHouse от Николая Голова, который ранее проектировал решения на Snowflake и Databricks.

Суть платформы: Tengri объединяет загрузку, хранение, трансформацию, аналитику и визуализацию данных в одном месте. Из коробки доступны SQL, Python и AI-агенты. Архитектура построена на разделении вычислений и хранения (Compute & Storage), используется формат Iceberg поверх S3-совместимых хранилищ (MinIO, Ceph, AWS, Yandex, VK) с поддержкой ACID-транзакций.

Проблема, которую решает: компании вынуждены собирать «зоопарк» из ETL, BI, ML-инструментов, а облачные платформы вроде Snowflake имеют ограничения — привязка к облаку, стоимость, невозможность держать данные у себя. Tengri — это альтернатива, которую можно развернуть on-prem, в облаке или гибридно, от одного сервера до кластера.
Отличия от конкурентов: в отличие от ClickHouse, Greenplum, Trino+Spark и классических DWH, Tengri — это единая платформа, а не отдельный компонент. Не нужно искать редких специалистов, минимальное администрирование, встроенные RBAC, аудит и контроль доступа.

AI-агенты встроены в платформу и помогают аналитикам и бизнесу автоматизировать работу с данными.
Целевая аудитория: те, кто ищет замену Snowflake/Databricks, хочет держать данные на своей инфраструктуре, строит LakeHouse или устал от сложной интеграции множества инструментов.



https://youtu.be/B377-Dvn_xc?si=gAKy2PPQFXufLY-p
❤‍🔥136
Ну вы поняли ;)

#aidev
💯21🌚1222🐳1
Как же круто Opus 4.6 в исполнение Claude Code при поддержки dbt и MCP делает сравнение и проверки. Да еще, сам предложит улучшения.

Раньше делали всякие кривые data diff и тп инструменты, а теперь просто просим сравнить Prod и измененный Dev.

Если надо и док сгенерит и письмо напишет с объяснениями.

Но как все замечают с AI вы работаете намного больше, вы просто не можете остановиться, ведь все ваши идеи и задачи превращаются в реальный результат.

#aidev
1❤‍🔥18🙈12💯65
На OpenClaw я не решился из-за безопасности и решил по старинке N8N.

Теперь-то можно все на outsource отдавать агентам.

Как в песне - Не могу остановиться.

#aidev
❤‍🔥7👨‍💻4
Очень классная презентация про миграция с Fivetran на Airbyte и потом на dlt.

У меня есть один Fivetran и он дороже Snowflake, вот думаю с AI я смогу его на easy эмигрировать. Как у вас опыт с dlt и Airbyte?

Claude слайды прям в сердечко=)

https://docs.google.com/presentation/d/e/2PACX-1vQvJapgEkJxgpsWqoMlmEw-ctV3gZe0LLc5oZBHaJNezBGAYKYoyir1aQi-37tO37SjFGaYjmQJhi_r/pub?start=false&loop=false&delayms=3000&slide=id.g175a817e68e_3_932
💯1
А вот мой Fivetran - 20 аквтиных подключений и пример Snowflake (январь 2026), который еще не только обрабатывает Fivetran 20 источников, а еще есть Azure Data Factory и там очень много данных из Azure SQL и CosmosDB.

Это лишь один из Fivetran и Snowflake, просто тут я знаю всю от и до.

Перекинуть все на dlt или даже написать Python можно, но это время и никак не повлияет на меня.

Главное преимущество Fivetran - это сервис. Он сам все делает, я вообще туда не захожу.

С Airbyte и Meltano OS я работал, это было вечное ковыряние в коде и куча багов (еще до AI мира).
Вчера еще была статья в комментах про то, как команда выкинула нафиг весь код и open source и людей, которые писали этот корявый код (и не важно с AI или без).

https://medium.com/@reliabledataengineering/dbt-databricks-the-combo-that-cut-our-data-team-from-12-to-5-engineers-be97e83fa7cb

Очень интересный сценарий, на заметку боссам и CDO. Но в РФ реалиях это не работает.

Я кстати вспомнил, что в прошлом году общался с VK и там была позиция на Max типа CTO/CDO платформы, но надо было закрыть ее в декабре.

Вообще место хорошее, ведь этот человек может реально попробовать повлиять на качество сервиса и пилить самую современную дата платформу и заодно модернизировать VK Cloud и развивать их любимый Lakehouse + Iceberg. Думаю так все ок с бюджетами.

Но я бы хотел смотреть в сторону managed DuckLake или пилить аналог Databricks (Compute + Notebooks + Data ingesting + ML + pipelines) и все это с интерфейсом в YML.
❤‍🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
34❤‍🔥16🫡12💯7🙈2
Заметил как народ сейчас начал активно впаривать курсы по Claude Code и AI разработке за дорого и решил сделать бесплатный курс и добавил на dataengineer.ru - Claude Code 101

Так как проект dataengineer.ru сидит в GitHub repo, то он полностью открыт и можно вносить изменения в курс всем желающим.

Курс получился простой и легкий. Последняя глава про возможность использовать Claude Code с бесплатными моделями. Я сам так не делал, но поискал информацию про это.

#aidev
65❤‍🔥15827🫡3
Открыта регистрация на главную конференцию этой весны по технологиям ИИ и анализу данных — Data Fusion* 2026! 💙

Шестая ежегодная конференция Data Fusion пройдет 8–9 апреля в Москве в инновационном кластере «Ломоносов».

60+ актуальных сессий, докладов, кейсов, дискуссий по теме анализа данных/ DS/ ML. Среди тем – ИИ-агенты, RL, CV, NLP, Open Source, Embodied AI и робототехника, рекомендательные системы, применение ИИ в кибербезопасности, AI+ естественные науки, AgentOps и многое другое! Всю программу ищите на сайте (подавайте ваши доклады, welcome!).

Конференция объединит лидов ML-команд, DS-специалистов, молодых ученых, инженеров, аналитиков и руководителей, принимающих решения о внедрении технологий в бизнес и государственные сервисы.

Среди спикеров конференции: Суржко Денис (ВТБ), Оселедец Иван (AIRI), Райгородский Андрей (МФТИ), Бурнаев Евгений (Сколтех,AIRI), Саркисов Тигран (Х5), Крайнов Александр (Яндекс), Зима Андрей (Ростелеком) и другие эксперты из науки и индустрии.

Все мы любим конференции не только ради знаний, но и, конечно, ради нетворкинга и новых знакомств! Живое общение в кругу коллег, друзей и единомышленников – важная часть Data Fusion!

Не пропустите, регистрируйтесь.

*Data Fusion — Объединение данных
Информация о рекламодателе
Please open Telegram to view this post
VIEW IN TELEGRAM
В последние несколько дней мне попались несколько интересных примеров/вопросов, которые могут возникнуть в любой компании.

1️⃣ Мы платим Montecarlo 100k$ в год за всякие data quality, observability. Dbt tests не работают, так как нужен UI, чтобы не технические пользователи смогли сами все сделать. Нужно взять Claude Code и создать агентов, чтобы они сами все проверяли и писали SQL и если нужно, можно это все где-то хостить и добавить красивый UI.

Я подумал, ну реально дураки, платят 100к в год вендору, а Claude Code все на раз-два завайбкодит. Заодно можно попросить отвайбкодить Snowflake, HighTouch, Airflow, Fivetran и другое=)

В этой ситуации видны хотелки менеджеров. Вам Claude, не чтобы за вас работу делать, а чтобы вы заменили вендоров. Это же AI, он все может….


2️⃣ PM кто кайфует от Claude Code и уже сам может делать end-to-end одноразовые дашборды поверх google sheets, заявил, что нам бы надо использовать Make .com или Zappier .com, чтобы накрутить всякие там автоматизации, и все быстренько работало, но то есть куяк-куяк и в продакшн, то есть надо быть AI-first + serverless. А я вот со своим традиционным дата инжинирингом замедляю прогресс.

А то, что половина его хотелок уже давно в дашбордах, это уже не принципиально. Негоже современному продукт менеджеру пользоваться технологиями из прошлого.

И вот непонятно, неужели data engineering уже такой bottle neck для бизнеса. По мне чувак вообще одноразовую фигню какую-то придумал.

3️⃣Последний пример был не про AI, и он больше как открытый вопрос. Возьмем любой стартап, у кого еще аналитика в начальной стадии. Как бы я сделал - добавил Airflow, dbt и там уже по ходу смотрел, где чего добавить. Все просто и понятно, любой человек без опыта научится за несколько месяцев.

Но у этой истории есть альтернатива - взять managed Kubernetes на облаке и туда вставить open source Kafka и все остальное, чтобы данные летали в real time, и все было по взрослому и на долгую перспективу. Нужно или не нужно это не самое главное, главное, что теоретически в будущем когда компания вырастит, будет круто иметь все в real-time и можно всякие интеграции бизнесовые делать.

Этот кейс интересный, ведь когда компания выбирает для себя путь, особенно если у нее есть возможность использовать западный стек, от первоначального выбора будет зависеть очень много.

Мой подход был всегда использовать такие решения для конкретных кейсов, но технически реально сразу его использовать для всего, только вопрос, стоит ли это того или нет.
Please open Telegram to view this post
VIEW IN TELEGRAM
20❤‍🔥11🫡53
Познакомился сегодня с библиотекой Get Shit Done


Это лёгкая и мощная система мета-промптинга, контекстной инженерии и спецификационно-ориентированной разработки для Claude Code, OpenCode и Gemini CLI.

Какую проблему решает?
GSD решает проблему «context rot» — деградации качества ответов ИИ по мере заполнения контекстного окна. Когда вы описываете задачу ИИ и он генерирует код, результат часто получается нестабильным и разваливается при масштабировании. GSD выступает прослойкой контекстной инженерии, которая делает Claude Code надёжным.

Как это работает?
Рабочий процесс состоит из цикла:
Инициализация проекта (⁠/gsd:new-project) — описываете идею, система извлекает всё необходимое, создаёт ⁠PROJECT.md, ⁠REQUIREMENTS.md, ⁠ROADMAP.md, ⁠STATE.md
Обсуждение фазы (⁠/gsd:discuss-phase) — система выявляет «серые зоны» и уточняет ваше видение, формируя ⁠CONTEXT.md
Планирование (⁠/gsd:plan-phase) — исследование и создание планов, каждый достаточно маленький для выполнения в свежем контекстном окне
Выполнение (⁠/gsd:execute-phase) — параллельное выполнение планов «волнами» (waves) с учётом зависимостей, атомарные git-коммиты
Верификация (⁠/gsd:verify-work) — автоматическая проверка + ваша ручная приёмка (UAT)
Повтор — цикл повторяется до завершения всех фаз, затем ⁠/gsd:complete-milestone

Ключевые особенности
Мульти-агентная оркестрация — тонкий оркестратор порождает специализированных подагентов, основное контекстное окно остаётся на 30–40%
XML-форматирование промптов — оптимизировано под Claude
Атомарные git-коммиты — каждая задача = отдельный коммит, удобно для ⁠git bisect и отката
Quick Mode — для мелких задач (баг-фиксы, конфиги) без полного цикла планирования
Поддержка brownfield — команда ⁠/gsd:map-codebase анализирует существующий код перед началом работы

Ради интереса попробую использовать для какой-нибудь задачи.

Может кто уже использовал? И какие еще есть хорошие варианты для планирования задач агентов?
22❤‍🔥8
Замечательно, согласно мужичкам из All-In подкаста, уже сейчас токены становятся дороже инженеров. Они сжигаются очень быстро и очень много, а результат не всегда предсказуемый и правильный. Хотя сейчас в целом мало кто пользуется агентами, в основном инженеры, но не большинство.

Дополнительно AI агенты едят токены сами по себе на разных псевдо полезных интеграциях.

Прямо сейчас у меня открыт AI gateway Requestly.io который пропускает весь трафик Claude code и считает токены, заодно хранит мою переписку с AI (менеджерам на заметку).

И я вижу сколько долларов я сжег пока гонял Get Shit Done из прошлого поста, чтобы придумать как заменить Montecarlo из позапрошлого поста💰

Пора пойти сделать, что-то полезное за день🎮
Please open Telegram to view this post
VIEW IN TELEGRAM
2🤷25🌚6❤‍🔥1
Года два назад я писал про глобальную экспансию - increase global presence. Тогда я застал это в Microsoft и в Okta, когда менеджеры говорили открыто, что задание нанять 2х индусов, вместо одного Американца, так как дешевле.

Походу сейчас тренд меняется, в одно большой публичной компании закрыли офис в Индии и сократили всех разработчиков. Офис оказался неэффективным и одна из проблем была, что большая текучка кадров, то есть приходят, работают, но условия плохие и увольняется. И в целом оказалась, дешевая рабочая сила не сильно помогла компании.

PS наверно едут в Москву дворниками.
🤷11💯6🌚3🍌3
Пример сравнения платформа данных в РФ. Насколько соответствует действительности?
💯173🙊3❤‍🔥2🐳1