Архитектор Данных – Telegram

Архитектор Данных

@analyticsfromzero

1.11K subscribers

152 photos

8 videos

2 files

117 links

Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky

Download Telegram

About

Blog

Apps

Platform

Архитектор Данных

1.11K subscribers

Архитектор Данных

Архитектор Данных pinned «Запускаю курс по Lakehouse, Iceberg, Modern Data Stack. В этом году по этим темам я провел 2 вебинара, 3 доклада на конференциях, 1 круглый стол, 2 эфира, написал несколько статей и постов. Все это время мне много пишут в личку с техническими и организацонными…»

05:13

Архитектор Данных

Короткие тезисы по стриму о Kafka от Монса

Монс, он же Владимир Перепелица - огромный спец в распределенных технологиях и архитектурном "харде". Один из авторов Tarantool и VK S3, на котором мы строим свои Лейкхаусы.

Тезисы, которые выписал себе по ходу стрима о Кафке, НАТСе, очередеях и стриминге данных.

Когда внедряем Kafka

1️⃣ Kafka - Commodity инструмент для работы с потоками данных. Если нужна СУБД, берешь Postgres, если нужен стрим, берешь Kafka.

2️⃣ Kafka добавляет в данные измерение времени. В СУБД как правило - текущий снапшот данных. В Кафке автоматически и почти бесплатно генерируются истории изменений, которые потом может прочитать любой потребитель, а не только тот, кто их генерировал.

3️⃣ Идеальный сценарий работы для Kafka - генерируем поток данных или лог изменений состояний, не зная заранее, кому и зачем он может понадобиться.

О движках

1️⃣ Kafka 4.x - переход на KRaft с Zookeeper. Отныне эта опция по умолчанию.

2️⃣ KRaft лучше и стабильнее, так как все данные и метаданные о топиках, консьюмерах хранятся в одной системе а не двух. Не тратим время на согласование из системы в систему и нет риска, что данные и метаданные в какой-то момент разъедутся.

3️⃣ Граница между движком очереди и движком стрима практически стерта сейчас. Стримы умеют в семантику очереди, очереди умеют в стримы.

О растянутых между ЦОД кластерах

1️⃣ На расстоянии между ЦОД в десятки милисекунд синхронные транзакции работают хорошо. Этого достаточно чтобы сходить туда-обратно и подтвердить, что данные зафиксированы.

2️⃣ Проблема с синхронными транзакциями начнется когда и если на один пользовательский запрос мы начинаем тратить 10-50 транзакций. Это неверная архитектура приложения. Так делать не надо.

3️⃣ Правильный путь - делаем свои 10-50 изменений в приложении и в конце подтверждаем все одной распределенной транзакцией.

4️⃣ Альтернатива - садим в соседний ЦОД а-синхронную реплику и смиряемся с тем фактом, что некоторые данные при плохом раскладе мы моежм потерять

💾

💾

💾

💾

💾

💾

💾

💾

💾

💾

💾

💾

💾

💾

💾

💾

💾

Запись стрима можно посмотреть здесь

Архитектор Данных

Please open Telegram to view this post

VIEW IN TELEGRAM

System Design & Highload (Alexey Rybak)

Делюсь записью встречи с Владимиром Перепелицей

https://us06web.zoom.us/rec/share/94JNdXLPdP5d_Q-YP-sq2PW7N0YzwaIZqKgPP4D0Br85YvF25s4r4RJ3sqxsX8hc.3I6dubjviBSVnUoy?startTime=1762440616000
Passcode: $3q=stCL

Zoom разбил запись на 2 части, но в плеере будет…

1👍116❤5👏3

931 viewsedited 05:58

Архитектор Данных

Forwarded from System Design & Highload (Alexey Rybak)

Lakehouse: открытая встреча / демо, Алексей Белозерский, VKCloud

Друзья, тема Lakehouse внезапно оказалась очень востребованной.

Завтра во вторник 11 ноября вечером в 18:00 МСК мы проведем с Алексеем Белозерским открытую встречу!

Обсудим:

— Зачем нужен Iceberg, как он появился, какие задачи он решает, и вообще зачем такая сложность (почему нельзя просто положить файлы в S3)

— Модули современного лейкхауса: (Движок SQL) - (Iceberg Catalog) - (Storage S3/HDFS). Каким ПО можно закрыть эти задачи.

— Демо-стенд в облаке + сборка лейкхауса на докер-компоуз на виртуалках.

— Тизер курса Алексея, подробнее про темы и практику, что именно будем поднимать, как, какими данными грузить.

Вход свободный, нужно только быть авторизованным в Zoom.

Ждем вас!

Ссылка на Zoom:
https://us06web.zoom.us/j/84649465438?pwd=G5z4EFtUO6cTe56cqg1Egbpuanv8a0.1

Календарь (ics) — в комментариях к посту.

🔥 за Лейкхаус
👍 за Кликхаус, Дэвэхаус или вовсе Вудхаус 🎩

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥24👍9❤3

762 views05:24

Архитектор Данных

Как построить и как жить в домике у озера.

Задай свой вопрос в треде, и мы обязательно его озвучим на сегодняшнем стриме.

Запись будет - это не вопрос.
Будет ли ваш голос на нем - вот в чем вопрос

8❤2

831 viewsedited 11:08

Архитектор Данных

Основные идеи Apache Iceberg одной картинкой

1️⃣ Метаданные важнее данных. Может лежать много паркетов, но если нет их описания в манифестах, то никто их читать не будет

2️⃣ Древовидная структура данных и метаданных, сходящаяся к одному корневому файлу. Записать и удалить много файлов - не-атомарная операция, но заменить один главный файл можно атомарно всегда в любой системе хранения. Отсюда почти-транзакционность.

3️⃣Хранение предыдущих состояний, таблица превращается в лог состояний с возможностью прочитать любую точку в истории. Но только старые версии надо потом подчищать через обсуживающие процедуры.

4️⃣ (Мета)Каталог как вспомогательный сервис. Для MVCC и честного ACID, для хранения статистики, RBAC и других обслуживающих функций

💾

💾

💾

💾

💾

💾

💾

💾

💾

💾

💾

Архитектор Данных

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍177❤1

1.41K viewsedited 06:39

Архитектор Данных

Media is too big

VIEW IN TELEGRAM

О, это типичный пресейл или презентация продукта

Продукт дает вам "передовую технологию"

Вы понимаете, что не все может пройти гладко.

И вы даже выбиваете чтобы инженерному шедевру приделали на спину ручку на случай если-когда он бзданется

И вы идете вдвоем, потому что штука тяжелая, и в одного вы его обратно на ноги не поставите

И у вас даже есть бекап-план, где вы закрываете происходящее брезентом и хотя бы не так обидно

НО ВСЕ ЧЕРЕЗ Ж... все равно.

😁21🙈5🤝5👌1

1.11K views10:05

Архитектор Данных

Forwarded from System Design & Highload (Alexey Rybak)

Делюсь записью вчерашнего видео Lakehouse для аналитиков и инженеров данных (Алексей Белозерский):

https://us06web.zoom.us/rec/share/WqJ0XEWdsgb96ZPfW4UCqfrt5yiNh9j6ZrgFSeNO2mo7TLjjIq0siNK5eUAtWcqV.PTwIDlNnpLzjB1vR?startTime=1762872622000
Passcode: 3c.!q.$*

Lakehouse, 20 ноября

👍156❤4

803 views15:13

Архитектор Данных

Архитектор Данных

Разговоры на архитекторском: ML платформа. 13 ноября мы проведем вторую серию «Разговоров на архитекторском» и в этот раз коснемся индустриальных ML платформ. Эксперт - руководитель разработки и ML OPS в крупной технологичной компании, которую вы все знаете.…

Настал этот день!

Сегодня ровно в 18:00 время московское, мы начинаем стрим по ML платформам!

С Олегом Королевым, руководителем AI Lab компании Авито мы поговорим как построить крутую AI-ML платформу в 2026 году.

Подпишитесь на канал Данные на стероидах и обязательно присоединяйтесь к стриму!

Как всегда ваши вопросы спикеру моожно задать в этом треде.

До встречи!

Данные на стероидах

Разговоры на архитекторском возвращаются! Уже 13 ноября в 18:00 по мск мы в прямом эфире будем обсуждать актуальные проблемы современных ML-платформ. Рассмотрим классический ML-Ops и LLM-Ops, поговорим про инфраструктуру, а вы сможете задать свои вопросы.…

🔥11👍5❤4

883 views06:22

Архитектор Данных

Тренды на глобальном рынке разработчиков

На открытой сессии по Lakehouse задали интересный вопрос: "Если я Backend разработчик, большая ли польза учиться Lakehouse, Modern Data Stack?"

Вот на картинке хороший аргумент, что польза есть.

В моей практике было несколько примеров, когда применение подходов из арсенала инжиниринга данных на порядки ускоряло разработку, упрощало многие процессы. Вместо разработки цепочки микро-сервисов, которые должны были разбирать характеристики объектов, разделять годные и негодные, скорить по качеству, обогащать другими данными, команды применяли Airflow DAG, который батчами выполнял ту же работу.

Микросервисы сводились к набору скриптов на SQL, Python, Bash, а стабильность работы и SLA обеспечивались дата-инжиниринговыми средствами промышленной поставки данных.

В головах людей сидит, что инжиниринг данных это что-то из управленческой и финансовой отчетности, KPI или ML. Но факт тот, что применяя достижения в DE можно радикально сократить оценки и время задач, которые падают на разработку.

Более того, в эру ИИ существенно стали полезны фундаментальные знания в смежных дисциплинах. Ты знаешь на сутевом уровне как архитектурно правильно, а детали тебе расскажет ChatGPT. 10% фундамента, 90% LLM - и задача решится.

Учите Modern Data Stack, дорогие разработчики!

2🫡156👍4🔥2

861 views15:00

Архитектор Данных

Forwarded from Соня Рыбак | HR for Engineers

ТОП Работодателей 2025 (Forbes × РБК × Хабр)

1) Есть 4 рейтинга, каждый смотрит на работодателей по-своему

Forbes — смотрит на уровень корпоративного управление и прозрачность, социальную ответственность, экологию и благополучие сотрудников. Насколько компания зрелый, ответственный и безопасный работодатель

РБК — смотрит на условия труда, уровень зарплат, обучение, текучесть, бизнес-эффективность, инновации, деловую репутацию и юридическую чистоту. Насколько компания надежна, эффективна и конкурентоспособна на рынке

Хабр — смотрит на привлекательность бренда и узнаваемость среди разработчиков, репутацию инженерной и продуктовой культуры. Насколько компания нравится разработчикам

HH — еще не вышел, смотрит на качество найма, скорость откликов, коммуникации, отношение сотрудников и кандидатов. Как компанию воспринимает весь рынок труда, народный рейтинг работодателей

2) Рейтинг от Хабра, ТОП-30

1. Авиасейлс
2. Авито
3. 2ГИС
4. Dodo Engineering
5. Точка Банк
6. Лаборатория Касперского
7. Alfa Digital
8. Selectel
9. Ozon
10. Райффайзен Банк
11. Т-Банк
12. Lamoda
13. HeadHunter
14. Бюро 1440
15. Альфа-Банк
16. ВкусВилл
17. Positive Technologies
18. Циан
19. X5 Tech
20. YADRO
21. S7 Airlines
22. Cloud.ru
23. Контур
24. BI.ZONE
25. Okko
26. Nexign
27. Axenix
28. Северсталь
29. Яндекс
30. Холдинг T1

3) Тройное пересечение топовых групп

🤩

Forbes Платина × РБК Группа 1 × Хабр ТОП-30 — 4 компании

1) Авито
На Хабре — 2 место
В Forbes — в платиновой группе
В РБК — Группа 1

2) Т-Банк
На Хабре — 11 место
В Forbes — в платиновой группе
В РБК — Группа 1

3) Альфа-Банк
На Хабре — 15 место
В Forbes — в платиновой группе
В РБК — Группа 1

4) Яндекс
На Хабре — 29 место
В Forbes — в платиновой группе
В РБК — Группа 1

Больше таких трипл-мэтчей нет.

4) Средняя зарплата выросла на 9%

У РБК есть интересный показатель средней зарплаты. Рост 9%: 169,6К рублей в 2025 году, 155,8К в 2024.

Текущая годовая инфляция 8%, а ключевая ставка 16%. То есть фактически это означает что реального роста зарплат почти нет.

Please open Telegram to view this post

VIEW IN TELEGRAM

👍13❤4👌3🤷‍♂1

871 views08:59

Архитектор Данных

Яндекс говорит что пересобрал систему собесов

Когда увидел цифру "90" и подумал что это новое число этапов собеса.

😁40🤣18🔥7👍1

1.01K views10:00

Архитектор Данных

Архитектор Данных

Яндекс говорит что пересобрал систему собесов Когда увидел цифру "90" и подумал что это новое число этапов собеса.

Еще вариант от подписчиков:

90+ это ожидаемый возраст на момент прохождения всех треков.

😁32

878 views16:53

Архитектор Данных

Forwarded from Инжиниринг Данных (Dmitry)

В статье 5 Things in Data Engineering That Have Changed In The Last 10 Years автор поделился как поменялась индустрия (западная) за последние 10 лет.

1) Компании хотят только сеньоров
Команды сильно сократились, и бизнес требует быстрых результатов → поэтому нанимают в основном опытных инженеров + AI-копилоты усилили продуктивность сеньоров. Джуниорам сложнее входить.

Это произошло в последние 2-3 года. Никому не нужны малыши без опыта. Все хотят опытных людей, чтобы пришли и сразу решали конкретные задачи. В больших компаниях еще сохранилась возможность пройти стажировку и прийти сразу с универа. Но надо, чтобы универ был топчик. Все кто ходят на курсы - мимо. Поэтому мой подход прийти seniorом без опыта выглядит особенно привлекательно в текущих реалиях. Улучшений в будущем для данной ситуации не видно. Специалисты и эксперты в ИТ появляются как грибы. Доступность образования и реклама успешных айтишников в Дубаях и на Патриках делает свое дело. 🚶‍♀️ Все хотят хорошую зарплату и удаленную работу, но места на всех не хватит.😞

2) Cloud стал дефолтом
Раньше облако было опцией, сейчас — стандарт. Все мигрируют: Snowflake, BigQuery, Databricks. Почти никто не строит аналитику он-прем.

Полностью согласен. Я могу открыть любую вакансию в Северной Америке, Южной Америке, Европе, Австралии и тп, и там будет облако и MPP облачное хранилище с вероятностью 95%. Хотя недавно познакомился с инженером, кто пришел к нам из Comcast. Он рассказал, что у них был свой дата центр и он ставил Kafka на bare metal. Ну красавчик, только получает в несколько раз меньше. 🏆

3) Перестали писать кастомные пайплайны
10 лет назад везде были самописные ETL на cron/SSIS/python скриптах. Сейчас сразу используют готовые инструменты: Airflow, dbt, EventBridge, Coalesce, etc. Нужно быстрее приносить ценность, а не строить платформу с нуля.

Доступность инструментов low-code/no-code очень сильно упрощают работу. Можно фокусироваться на бизнес проблемах и ценностях, а не трабалшуить legacy/technical debt код. Хотя уже с развитием AI IDE уже все превращается в no-code/low code. Главное базу знать и понимать основу и свою ценность для бизнеса.

4) SQL победил
Споры между SQL vs что-то ещё закончились — SQL стал универсальным стандартом. Job-market требует SQL практически везде. dbt усилил этот тренд.

Если ваш продукт не поддерживает SQL, то у вас плохой продукт. SQL наше все. Хотя некоторые аналитики обожают Pandas, и пишут что-то в своих ноутбуках. А потом инженерам нужно все это разгребать.🙅‍♂️

5) AI изменил рабочие процессы
AI ускоряет работу, но создаёт риск «движения вместо прогресса»: люди меньше понимают код, больше копипастят из LLM. Выигрывают те, кто умеет совмещать AI + инженерное мышление.

100% все поменялось. Я общаюсь со многими командами и вижу, что люди на самом деле не очень сильно используют все возможности. Большинство не любят перемен и не умеют учиться быстро и эффективно. Когда говорят, что AI заменит людей, чаще всего имеют в виду тех, кто не хочет или не умеет учиться. Сейчас настоящий FOMO в AI и очень важно смотреть куда дует ветер и стараться использовать в работе AI и собирать полезные use cases для вашей индустрии и вашей специализации.

Самое главное, что произошло за 10 лет, то это обесценивание денег, повышение налогов, снижение покупательной способности, отмена job security, и отсутствие стабильности. 🤟

Please open Telegram to view this post

VIEW IN TELEGRAM

1👍159❤4😢4🤔1

900 views19:18

Архитектор Данных

Завтра начинаем

Еще есть возможность присоединиться
https://devhands.ru/lakehouse

👍116❤2🤡1

875 views05:33

Архитектор Данных

Все понимаем к чему это приведет?

ЕС компании теперь будут до последнего держать, но ни в коем случае не поднимать никому вилки ни на евро-цент.

😢6👍4💯3

829 views09:08

Архитектор Данных

Пополняем коллекцию полезных видео.

1️⃣

Запись 2-го эпизода «разговоров на архитекторском». С Олегом Королевым из Авито говорим о построении и развитии ИИ-платформ в крупном бизнесе. А также чем отличается витрина в КХД от МЛ фича-стора. За качество - извините, так вышло 🙂

2️⃣ Плейлист Лейкхауса пополнен записью демо с Алексеем Рыбаком.

Приятного просмотра!

Please open Telegram to view this post

VIEW IN TELEGRAM

Разговоры на архитекторском #2 - ML/Ai

Разговоры на Архитекторском - Эпизод 2. Алексей Белозерский - Архитектор ВК Тех - https://xn--r1a.website/analyticsfromzero Олег Королев - технический руководитель кластера AI Lab, Авито Что обсуждали 🔷 Почему лучше начинать построение ML-платформы с Airflow или MLflow.…

❤8🔥4👌3🎉1

903 viewsedited 10:03

Архитектор Данных

Пока все обсуждают датацентры в космосе, я удивляюсь, почему ЦОДы не строят вплотную к атомным станциям.

Дешевая розетка - есть

Градирня или пруд для охлаждения - есть

Дизеля - есть

РосАтом-ЦОД - идея-то рабочая.

🔥18⚡4🤔3🤡2❤1

792 views14:13

Архитектор Данных

Архитектор Данных

Пока все обсуждают датацентры в космосе, я удивляюсь, почему ЦОДы не строят вплотную к атомным станциям. Дешевая розетка - есть Градирня или пруд для охлаждения - есть Дизеля - есть РосАтом-ЦОД - идея-то рабочая.

Посоветовавшись с ~~голосами в голове~~ GPT, стало понятно, что по правилам МАГАТЭ и Ростехнадзора подключать ЦОД к градирне или дизелям АЭС конечно же нельзя.

Это может сказаться на работе самой станции и повлиять на ее безопасность. Контуры охлаждения, резерв питания и всего остального должны быть разделены, это правильно.

Так что АЭС для ЦОД просто недорогая и стабильная розетка.

Кроме того, как подсказали в коментах, у РосАтома есть проект арендных ЦОД atomdata. Но в Москве и Иннополисе.

⚡5👍1

752 viewsedited 16:30

Архитектор Данных

Forwarded from Ai molodca (Alexander Dobrokotov)

Как контент-фабрики убивают интернет 🌸

Каждый второй в IG — "эксперт" по контент-фабрикам и автоматизации.
YouTube — завален тоннами "образовательного" контента и рыжими котами, которые вечно дерутся и беременеют.
Проблема — не в том, что контент поверхностный.
Проблема — он неправдивый.

Когда образовательные ролики генерятся пачками без проверки фактов, это не просто засоряет платформы — это подрывает доверие к информации вообще. Эффект снежного кома: фейковая инфа попадает в обучающие датасеты и материалы для дипресёрча, потом в новый контент, и так по кругу.

При этом экономика сломана так, что качество проигрывает количеству. Платформы поощряют объём (алгоритмы любят частоту постинга), а не глубину. YouTube не особо заинтересован банить слоп, пока он генерит просмотры и рекламные деньги.

Генеративные тулзы могут быть черновиком для качественного контента, а могут быть финальным продуктом для быстрых денег. Разница — в ответственности создателя.

Думаю мы движемся к расслоению. Будет "премиум-интернет" — курируемые платформы, проверенные источники, подписки — и "слоп-интернет" из автогенерации. Доступ к правде и качеству станет платным де-факто.

Что делать? А черт его знает. Голосовать вниманием, например. Поддерживать создателей, которые не автоматизируют финал. Быть занудой и проверять факты. Если производите контент — нанимать людей для факт-чека и контролировать продакшн-качество.

Ну или просто жить в лесу и трогать траву каждый день. 🥰

Please open Telegram to view this post

VIEW IN TELEGRAM

💯10❤4👍3😁1

941 views01:20

Архитектор Данных

Как контент-фабрики убивают интернет 🌸 Каждый второй в IG — "эксперт" по контент-фабрикам и автоматизации. YouTube — завален тоннами "образовательного" контента и рыжими котами, которые вечно дерутся и беременеют. Проблема — не в том, что контент поверхностный.…

Не удивлюсь, если скоро при подаче книги в издательство или статьи в журнал будут спрашивать рукописный черновик ✍️

Please open Telegram to view this post

VIEW IN TELEGRAM

💯10❤4😁1

926 views04:08