Инжиниринг Данных

Хочу поделиться интересным опытом с AI. Опять же, на сам конечный результат это не влияет. Но влияет на его скорость и качество.

Возьмем пример Azure Data Factory. Это такой orchestration инструмент на Azure. По умолчанию там UI и drag&drop. Все очень просто, пока не нужно делать 100 pipelines.

Допустим, мы продвинутые инженеры (сеньоры, например), и мы хотим использовать best practices и engineering excellence, и добавили git версионирование, и следующий шаг будет сделать Infrastructure as a Code.

Первое, о чем мы подумаем - это Terraform или Azure Bicep. А может быть, вообще возьмем ADF SDK, и там есть Python SDK или C# (я, кстати, на нем и делал все в Microsoft внутри Visual Studio (не путать с VS Code)).

То есть мы думаем о привычном методе, о коде, который будет написан AI, но как будто человеком, и, в теории, другие человеки смогут его читать (без AI).

Хотя по факту никто его уже не будет читать без AI. И вообще уже не важно, что там C#, Python, Bicep, Terraform - главное, чтобы данные грузились.

Тут важно заметить, что это применимо к инжинирингу данных, и может быть совсем не применимо к другим областям.

Что я сделал?

Взял свой GitHub репозиторий с ADF, где все автоматически создано в ARM (Azure JSON формат), который не пишется человеком, и попросил AI сделать правила репозитория и начать создавать новые pipelines. (Аналог может быть Tableau Workbook XML или другие смежные программы с их файлами)

Таким образом, из моего backlog я просто взял и выкинул кучу задач про миграцию ADF на Bicep/Terraform и ускорил разработку, доработку и документацию в несколько раз.

То есть идея в том, что с AI я спустился на уровень ниже: вместо привычной абстракции в виде Terraform/Python я начал фигачить JSON ARM, который не human readable. И я полагаю, нам нужно не бояться уходить от традиционных методов и начинать исследовать новые возможности.

Скоро можно будет сразу на бинарном коде строить дашборды.

PS на картинке пример. Я еще собрал историю своих промотав за последние несколько месяцев и на их базе создал монстр правило как все должно работать и в него написано про доступный MCP сервер, чтобы сразу ходить и все проверять. Раньше я ленился и поэтому много надо было копировать руками и было много ошибок.

Дальше хочешь попробовать вставить duckdb куда-нибудь для оптимизации расходов, один ADF Runtime стоит 3к$ в месяц.

❤‍🔥27🙈62

7.24K viewsedited 05:17