DataEng
4.38K subscribers
41 photos
11 files
541 links
Канал про Data Engineering & Distributed Systems.

Всё, что вы хотели знать про построение инфраструктуры для хранения, обработки и эффективного анализа гигантского объёма данных.

Автор @adilkhash
Download Telegram
Orchestrate LLMs and Agents with Apache Airflow.pdf
2.6 MB
Orchestrate LLMs and Agents with Apache Airflow®

Новая книга от Astronomer про управление агентами через airflow-ai-sdk и Human In The Loop, который появился в Airflow 3.
🔥11
Обновленный мини-курс по Apache Kafka от небезызвестного Тима Бёргланда: Apache Kafka 101 (2025 Edition)
🔥21
The Definitive Guide to Apache Airflow 3 Dags.pdf
5.6 MB
The Definitive Guide to Apache Airflow® 3 DAGs

146 страниц отборного мяса и лучших практик про написание DAGов для Apache Airflow 3.
🔥17
Zen Habits

Встречайте, ещё один побочный продукт моего вайб-кодинга — Zen Habits.

Веб-приложение с нативной интеграцией с Telegram. Авторизуйтесь через телеграм, создавайте привычки и получайте о них нотификации прямо от телеграм-бота. В этом же боте выполняйте их. Внутри есть стена коммитов по типу Github.

Велком: https://zenhabits.dev/

Пожелания, критику и оскорбления жду в чатике канала 🫂
👍10🔥10💯2
fastjsondiff - High-performance JSON comparison with a Zig-powered core

Написал небольшую библиотеку для сравнения двух JSON-текстов/файлов. В Python есть популярная либа jsondiff, но её основная проблема это сильные тормоза, если на вход подать более менее крупный JSON-текст. Давно вынашивал идею реализации чего-то такого, но на Zig/Rust, т.к. чистая реализация на Python будет всё равно медленнее. По итогу получилось реализовать на Zig основную либу и Python-интерфейс к ней.

pip install fastjsondiff-zig


Github: https://github.com/adilkhash/fastjsondiff
PyPI: https://pypi.org/project/fastjsondiff-zig/

Буду признателен за на репе в гитхабе, это поможет её распространить дальше.
👍14🔥7
pandas 3.0

Вышла мажорная версия самой, пожалуй, популярной библиотеки для работы с данными в Python - pandas 3.0. В новом релизе появилось два значительных изменения: новый dtype для строк str вместо привычного numpy object. По словам разработчиков это значительно улучшает производительность кода. Также теперь Copy-on-Write это единственный режим для изменения значения колонок у датафрейма, более подробно здесь. Перед миграцией на новую версия pandas необходимо прошерстить легаси код и внести изменения, если вдруг в коде есть проверки на object или неоднозначные изменения датафрейма (вездесущий SettingWithCopyWarning в логах).

Ссылка на полный release notes.
🔥21👍5
📣 📢 13 ИИ агентов для дата инженера

Ребята из Astronomer выложили 13 полезных ИИ агентов для дата инженера. В списке есть имба-агент, помогающий мигрировать Airflow 2 на Airflow 3 — migrating-airflow-2-to-3
Преимущественно агенты сконцентрированы вокруг написания и тестирования Airflow DAGs, проектирования таблиц БД, data lineage. Боевой комплект дата инженера.

Из БД они умеют в Snowflake, Postgres, BigQuery. Также есть навык для работы с SQLAlchemy ORM.

Установка агентов:

npx skills add astronomer/agents


Для Claude Code можно установить прямо их маркетплейса

claude plugin marketplace add astronomer/agents
claude plugin install data@astronomer


В комплекте есть Airflow MCP сервер.

Ссылка на репозиторий: astronomer/agents
🔥17👍6
Data Pipelines with Apache Airflow_Final.pdf
28 MB
Data Pipelines with Apache Airflow, 2-е издание

Ребята из Astronomer совершенно бесплатно раздают электронную книгу Data Pipelines with Apache Airflow®, Second Edition, by Manning. Это обновлённое издание с учётом новой 3-й ветки Airflow, в книге используется версия Apache Airflow 3.1.0. Ну и конечно же ИИ не обделили, в книге появился контент про RAG, AI Orchestration и т.д.

Приятного чтения, господа! 🤓
👍9🔥8