Архитектор Данных
1.11K subscribers
152 photos
8 videos
2 files
117 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Forwarded from Инжиниринг Данных (Dmitry)
В статье 5 Things in Data Engineering That Have Changed In The Last 10 Years автор поделился как поменялась индустрия (западная) за последние 10 лет.

1) Компании хотят только сеньоров
Команды сильно сократились, и бизнес требует быстрых результатов → поэтому нанимают в основном опытных инженеров + AI-копилоты усилили продуктивность сеньоров. Джуниорам сложнее входить.

Это произошло в последние 2-3 года. Никому не нужны малыши без опыта. Все хотят опытных людей, чтобы пришли и сразу решали конкретные задачи. В больших компаниях еще сохранилась возможность пройти стажировку и прийти сразу с универа. Но надо, чтобы универ был топчик. Все кто ходят на курсы - мимо. Поэтому мой подход прийти seniorом без опыта выглядит особенно привлекательно в текущих реалиях. Улучшений в будущем для данной ситуации не видно. Специалисты и эксперты в ИТ появляются как грибы. Доступность образования и реклама успешных айтишников в Дубаях и на Патриках делает свое дело. 🚶‍♀️ Все хотят хорошую зарплату и удаленную работу, но места на всех не хватит.😞

2) Cloud стал дефолтом
Раньше облако было опцией, сейчас — стандарт. Все мигрируют: Snowflake, BigQuery, Databricks. Почти никто не строит аналитику он-прем.


Полностью согласен. Я могу открыть любую вакансию в Северной Америке, Южной Америке, Европе, Австралии и тп, и там будет облако и MPP облачное хранилище с вероятностью 95%. Хотя недавно познакомился с инженером, кто пришел к нам из Comcast. Он рассказал, что у них был свой дата центр и он ставил Kafka на bare metal. Ну красавчик, только получает в несколько раз меньше. 🏆

3) Перестали писать кастомные пайплайны
10 лет назад везде были самописные ETL на cron/SSIS/python скриптах. Сейчас сразу используют готовые инструменты: Airflow, dbt, EventBridge, Coalesce, etc. Нужно быстрее приносить ценность, а не строить платформу с нуля.


Доступность инструментов low-code/no-code очень сильно упрощают работу. Можно фокусироваться на бизнес проблемах и ценностях, а не трабалшуить legacy/technical debt код. Хотя уже с развитием AI IDE уже все превращается в no-code/low code. Главное базу знать и понимать основу и свою ценность для бизнеса.

4) SQL победил
Споры между SQL vs что-то ещё закончились — SQL стал универсальным стандартом. Job-market требует SQL практически везде. dbt усилил этот тренд.


Если ваш продукт не поддерживает SQL, то у вас плохой продукт. SQL наше все. Хотя некоторые аналитики обожают Pandas, и пишут что-то в своих ноутбуках. А потом инженерам нужно все это разгребать.🙅‍♂️

5) AI изменил рабочие процессы
AI ускоряет работу, но создаёт риск «движения вместо прогресса»: люди меньше понимают код, больше копипастят из LLM. Выигрывают те, кто умеет совмещать AI + инженерное мышление.


100% все поменялось. Я общаюсь со многими командами и вижу, что люди на самом деле не очень сильно используют все возможности. Большинство не любят перемен и не умеют учиться быстро и эффективно. Когда говорят, что AI заменит людей, чаще всего имеют в виду тех, кто не хочет или не умеет учиться. Сейчас настоящий FOMO в AI и очень важно смотреть куда дует ветер и стараться использовать в работе AI и собирать полезные use cases для вашей индустрии и вашей специализации.

Самое главное, что произошло за 10 лет, то это обесценивание денег, повышение налогов, снижение покупательной способности, отмена job security, и отсутствие стабильности. 🤟
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1594😢4🤔1
Завтра начинаем

Еще есть возможность присоединиться
https://devhands.ru/lakehouse
👍1162🤡1
Все понимаем к чему это приведет?

ЕС компании теперь будут до последнего держать, но ни в коем случае не поднимать никому вилки ни на евро-цент.
😢6👍4💯3
Пополняем коллекцию полезных видео.

1️⃣ Запись 2-го эпизода «разговоров на архитекторском». С Олегом Королевым из Авито говорим о построении и развитии ИИ-платформ в крупном бизнесе. А также чем отличается витрина в КХД от МЛ фича-стора. За качество - извините, так вышло 🙂

2️⃣ Плейлист Лейкхауса пополнен записью демо с Алексеем Рыбаком.

Приятного просмотра!
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥4👌3🎉1
Пока все обсуждают датацентры в космосе, я удивляюсь, почему ЦОДы не строят вплотную к атомным станциям.

Дешевая розетка - есть

Градирня или пруд для охлаждения - есть

Дизеля - есть

РосАтом-ЦОД - идея-то рабочая.
🔥184🤔3🤡21
Архитектор Данных
Пока все обсуждают датацентры в космосе, я удивляюсь, почему ЦОДы не строят вплотную к атомным станциям. Дешевая розетка - есть Градирня или пруд для охлаждения - есть Дизеля - есть РосАтом-ЦОД - идея-то рабочая.
Посоветовавшись с голосами в голове GPT, стало понятно, что по правилам МАГАТЭ и Ростехнадзора подключать ЦОД к градирне или дизелям АЭС конечно же нельзя.

Это может сказаться на работе самой станции и повлиять на ее безопасность. Контуры охлаждения, резерв питания и всего остального должны быть разделены, это правильно.

Так что АЭС для ЦОД просто недорогая и стабильная розетка.

Кроме того, как подсказали в коментах, у РосАтома есть проект арендных ЦОД atomdata. Но в Москве и Иннополисе.
5👍1
Forwarded from Ai molodca (Alexander Dobrokotov)
Как контент-фабрики убивают интернет 🌸

Каждый второй в IG — "эксперт" по контент-фабрикам и автоматизации.
YouTube — завален тоннами "образовательного" контента и рыжими котами, которые вечно дерутся и беременеют.
Проблема — не в том, что контент поверхностный.
Проблема — он неправдивый.

Когда образовательные ролики генерятся пачками без проверки фактов, это не просто засоряет платформы — это подрывает доверие к информации вообще. Эффект снежного кома: фейковая инфа попадает в обучающие датасеты и материалы для дипресёрча, потом в новый контент, и так по кругу.

При этом экономика сломана так, что качество проигрывает количеству. Платформы поощряют объём (алгоритмы любят частоту постинга), а не глубину. YouTube не особо заинтересован банить слоп, пока он генерит просмотры и рекламные деньги.

Генеративные тулзы могут быть черновиком для качественного контента, а могут быть финальным продуктом для быстрых денег. Разница — в ответственности создателя.

Думаю мы движемся к расслоению. Будет "премиум-интернет" — курируемые платформы, проверенные источники, подписки — и "слоп-интернет" из автогенерации. Доступ к правде и качеству станет платным де-факто.

Что делать? А черт его знает. Голосовать вниманием, например. Поддерживать создателей, которые не автоматизируют финал. Быть занудой и проверять факты. Если производите контент — нанимать людей для факт-чека и контролировать продакшн-качество.

Ну или просто жить в лесу и трогать траву каждый день. 🥰
Please open Telegram to view this post
VIEW IN TELEGRAM
💯104👍3😁1
В S3 папок нет!

Не все понимают свойства и ограничения такого сервиса как S3.

Все считают что это такая большая файлопомойка, к которой можно примонтировать все что нужно. Хоть Windows проводник.

Но нет.

В S3 даже файлов и папок нет. Вместо файлов - объекты, вместо папок - некоторым образом похожие ключи.

Отсюда и то, что если ты прямо серьезно собрался работать с S3 на больших объемах и нагрузках (привет Лейкхаус и ML-at-Scale), то и подходы надо менять.


Пример:

Вместо листинга положить в "папку" с данными маленький мета файл с тем, что должно оказаться в листинге. Листинг дорогой, файл поднять - дешево.

Это не зашквар, это Айсберг Манифест 😎
152👍2
Грустная и поучительная история

Очень много стартапов, основанных технарями, погибли от неуместного использования google scale решений.

Обратная сторона гипер-доступности технологий.
👀8👍5🤔42🤡1
Впервые увидел себя в выдаче гугла 😎

А конкретно - эта статья на хабре
👍20🔥5👀21
Там Яндекс рост облаков в 3 раза к 2030 году нашел.

Пока же у нас нередки заказчики, у которых в ТЗ на облако написано требование каждый день предоставлять фотоотчет о состоянии их серверов.

Многие не понимают как управлять ИТ инфраструктурой когда нет решетки, бирочек, ключиков и Яков Саныча с журналом доступа.
😁2031
Forwarded from VK Cloud
👏 Вчера на TAdviser SummIT 2025 сразу два проекта VK Tech берут награды в номинации «Проект года».

🛢 ПАО Сургутнефтегаз

Компания перешла на технологическую платформу на базе VK Private Cloud: запустила первые бизнес-приложения, выстраивает собственный центр компетенций и внедряет DevSecOps-подходы. Это модульное частное облако в ЦОДе заказчика — с надежностью, катастрофоустойчивостью и масштабированием под цифровые инициативы.

🏛 Федеральное казначейство

«Электронный бюджет» ускорили за счет миграции неструктурированных объектов из реляционных баз данных в S3-совместимое хранилище VK Object Storage. В итоге получили –50% к отклику БД, 30–60% экономии пространства хранения, 5 миллиардов объектов в хранилище и +50 миллионов объектов каждую неделю.

🎉 Поздравляем команды и продолжаем делать проекты, которые двигают инфраструктуру страны вперед.
1👍1053
Forwarded from 5 minutes of data
Увидел в Airflow одну очень прикольную фичу — Human-in-the-Loop операторы.

Можно просто встроить человеческое подтверждение прямо в DAG.

Работает это так:
AI или любая задача что-то генерит → Airflow ставит паузу и ждёт решения → человек получает ссылку, жмёт approve/reject → пайплайн продолжает работу.

Никаких кастомных сенсоров, костылей и блокировок воркеров — всё из коробки в 3.1.

Очень удобная штука для тех, кто запускает AI в проде и хочет держать ручной контроль там, где это реально важно.

@five_minutes_of_data
👍20👏4👀4🔥2
А можно я лучше в колбасный цех?
5🤣5🫡2
Архитектор Данных
А можно я лучше в колбасный цех?
ЧатГПТ 5.1 подтверждает что разницы с архитектурой данных никакой.

Интересно, когда пинский комбинат догадается переименовать должность в Senior Pig Engineer для повышения престижа профессии.

И тогда вперед к новым карьерным перспективам.
😁1561
Когда придумано идеальное название для стартапа
1😁19👍4411🔥1