Архитектор Данных
1.11K subscribers
152 photos
8 videos
2 files
118 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Архитектор Данных
Разговоры на архитекторском: ML платформа. 13 ноября мы проведем вторую серию «Разговоров на архитекторском» и в этот раз коснемся индустриальных ML платформ. Эксперт - руководитель разработки и ML OPS в крупной технологичной компании, которую вы все знаете.…
Настал этот день!

Сегодня ровно в 18:00 время московское, мы начинаем стрим по ML платформам!

С Олегом Королевым, руководителем AI Lab компании Авито мы поговорим как построить крутую AI-ML платформу в 2026 году.

Подпишитесь на канал Данные на стероидах и обязательно присоединяйтесь к стриму!

Как всегда ваши вопросы спикеру моожно задать в этом треде.

До встречи!
🔥11👍54
Тренды на глобальном рынке разработчиков

На открытой сессии по Lakehouse задали интересный вопрос: "Если я Backend разработчик, большая ли польза учиться Lakehouse, Modern Data Stack?"

Вот на картинке хороший аргумент, что польза есть.

В моей практике было несколько примеров, когда применение подходов из арсенала инжиниринга данных на порядки ускоряло разработку, упрощало многие процессы. Вместо разработки цепочки микро-сервисов, которые должны были разбирать характеристики объектов, разделять годные и негодные, скорить по качеству, обогащать другими данными, команды применяли Airflow DAG, который батчами выполнял ту же работу.

Микросервисы сводились к набору скриптов на SQL, Python, Bash, а стабильность работы и SLA обеспечивались дата-инжиниринговыми средствами промышленной поставки данных.

В головах людей сидит, что инжиниринг данных это что-то из управленческой и финансовой отчетности, KPI или ML. Но факт тот, что применяя достижения в DE можно радикально сократить оценки и время задач, которые падают на разработку.

Более того, в эру ИИ существенно стали полезны фундаментальные знания в смежных дисциплинах. Ты знаешь на сутевом уровне как архитектурно правильно, а детали тебе расскажет ChatGPT. 10% фундамента, 90% LLM - и задача решится.

Учите Modern Data Stack, дорогие разработчики!
2🫡156👍4🔥2
ТОП Работодателей 2025 (Forbes × РБК × Хабр)

1) Есть 4 рейтинга, каждый смотрит на работодателей по-своему

Forbes — смотрит на уровень корпоративного управление и прозрачность, социальную ответственность, экологию и благополучие сотрудников. Насколько компания зрелый, ответственный и безопасный работодатель

РБК — смотрит на условия труда, уровень зарплат, обучение, текучесть, бизнес-эффективность, инновации, деловую репутацию и юридическую чистоту. Насколько компания надежна, эффективна и конкурентоспособна на рынке

Хабр — смотрит на привлекательность бренда и узнаваемость среди разработчиков, репутацию инженерной и продуктовой культуры. Насколько компания нравится разработчикам

HH — еще не вышел, смотрит на качество найма, скорость откликов, коммуникации, отношение сотрудников и кандидатов. Как компанию воспринимает весь рынок труда, народный рейтинг работодателей

2) Рейтинг от Хабра, ТОП-30

1. Авиасейлс
2. Авито
3. 2ГИС
4. Dodo Engineering
5. Точка Банк
6. Лаборатория Касперского
7. Alfa Digital
8. Selectel
9. Ozon
10. Райффайзен Банк
11. Т-Банк
12. Lamoda
13. HeadHunter
14. Бюро 1440
15. Альфа-Банк
16. ВкусВилл
17. Positive Technologies
18. Циан
19. X5 Tech
20. YADRO
21. S7 Airlines
22. Cloud.ru
23. Контур
24. BI.ZONE
25. Okko
26. Nexign
27. Axenix
28. Северсталь
29. Яндекс
30. Холдинг T1

3) Тройное пересечение топовых групп

🤩 Forbes Платина × РБК Группа 1 × Хабр ТОП-30 — 4 компании

1) Авито
На Хабре — 2 место
В Forbes — в платиновой группе
В РБК — Группа 1

2) Т-Банк
На Хабре — 11 место
В Forbes — в платиновой группе
В РБК — Группа 1

3) Альфа-Банк
На Хабре — 15 место
В Forbes — в платиновой группе
В РБК — Группа 1

4) Яндекс
На Хабре — 29 место
В Forbes — в платиновой группе
В РБК — Группа 1

Больше таких трипл-мэтчей нет.

4) Средняя зарплата выросла на 9%

У РБК есть интересный показатель средней зарплаты. Рост 9%: 169,6К рублей в 2025 году, 155,8К в 2024.

Текущая годовая инфляция 8%, а ключевая ставка 16%. То есть фактически это означает что реального роста зарплат почти нет.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍134👌3🤷‍♂1
Яндекс говорит что пересобрал систему собесов

Когда увидел цифру "90" и подумал что это новое число этапов собеса.
😁40🤣18🔥7👍1
Forwarded from Инжиниринг Данных (Dmitry)
В статье 5 Things in Data Engineering That Have Changed In The Last 10 Years автор поделился как поменялась индустрия (западная) за последние 10 лет.

1) Компании хотят только сеньоров
Команды сильно сократились, и бизнес требует быстрых результатов → поэтому нанимают в основном опытных инженеров + AI-копилоты усилили продуктивность сеньоров. Джуниорам сложнее входить.

Это произошло в последние 2-3 года. Никому не нужны малыши без опыта. Все хотят опытных людей, чтобы пришли и сразу решали конкретные задачи. В больших компаниях еще сохранилась возможность пройти стажировку и прийти сразу с универа. Но надо, чтобы универ был топчик. Все кто ходят на курсы - мимо. Поэтому мой подход прийти seniorом без опыта выглядит особенно привлекательно в текущих реалиях. Улучшений в будущем для данной ситуации не видно. Специалисты и эксперты в ИТ появляются как грибы. Доступность образования и реклама успешных айтишников в Дубаях и на Патриках делает свое дело. 🚶‍♀️ Все хотят хорошую зарплату и удаленную работу, но места на всех не хватит.😞

2) Cloud стал дефолтом
Раньше облако было опцией, сейчас — стандарт. Все мигрируют: Snowflake, BigQuery, Databricks. Почти никто не строит аналитику он-прем.


Полностью согласен. Я могу открыть любую вакансию в Северной Америке, Южной Америке, Европе, Австралии и тп, и там будет облако и MPP облачное хранилище с вероятностью 95%. Хотя недавно познакомился с инженером, кто пришел к нам из Comcast. Он рассказал, что у них был свой дата центр и он ставил Kafka на bare metal. Ну красавчик, только получает в несколько раз меньше. 🏆

3) Перестали писать кастомные пайплайны
10 лет назад везде были самописные ETL на cron/SSIS/python скриптах. Сейчас сразу используют готовые инструменты: Airflow, dbt, EventBridge, Coalesce, etc. Нужно быстрее приносить ценность, а не строить платформу с нуля.


Доступность инструментов low-code/no-code очень сильно упрощают работу. Можно фокусироваться на бизнес проблемах и ценностях, а не трабалшуить legacy/technical debt код. Хотя уже с развитием AI IDE уже все превращается в no-code/low code. Главное базу знать и понимать основу и свою ценность для бизнеса.

4) SQL победил
Споры между SQL vs что-то ещё закончились — SQL стал универсальным стандартом. Job-market требует SQL практически везде. dbt усилил этот тренд.


Если ваш продукт не поддерживает SQL, то у вас плохой продукт. SQL наше все. Хотя некоторые аналитики обожают Pandas, и пишут что-то в своих ноутбуках. А потом инженерам нужно все это разгребать.🙅‍♂️

5) AI изменил рабочие процессы
AI ускоряет работу, но создаёт риск «движения вместо прогресса»: люди меньше понимают код, больше копипастят из LLM. Выигрывают те, кто умеет совмещать AI + инженерное мышление.


100% все поменялось. Я общаюсь со многими командами и вижу, что люди на самом деле не очень сильно используют все возможности. Большинство не любят перемен и не умеют учиться быстро и эффективно. Когда говорят, что AI заменит людей, чаще всего имеют в виду тех, кто не хочет или не умеет учиться. Сейчас настоящий FOMO в AI и очень важно смотреть куда дует ветер и стараться использовать в работе AI и собирать полезные use cases для вашей индустрии и вашей специализации.

Самое главное, что произошло за 10 лет, то это обесценивание денег, повышение налогов, снижение покупательной способности, отмена job security, и отсутствие стабильности. 🤟
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍1594😢4🤔1
Завтра начинаем

Еще есть возможность присоединиться
https://devhands.ru/lakehouse
👍1162🤡1
Все понимаем к чему это приведет?

ЕС компании теперь будут до последнего держать, но ни в коем случае не поднимать никому вилки ни на евро-цент.
😢6👍4💯3
Пополняем коллекцию полезных видео.

1️⃣ Запись 2-го эпизода «разговоров на архитекторском». С Олегом Королевым из Авито говорим о построении и развитии ИИ-платформ в крупном бизнесе. А также чем отличается витрина в КХД от МЛ фича-стора. За качество - извините, так вышло 🙂

2️⃣ Плейлист Лейкхауса пополнен записью демо с Алексеем Рыбаком.

Приятного просмотра!
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥4👌3🎉1
Пока все обсуждают датацентры в космосе, я удивляюсь, почему ЦОДы не строят вплотную к атомным станциям.

Дешевая розетка - есть

Градирня или пруд для охлаждения - есть

Дизеля - есть

РосАтом-ЦОД - идея-то рабочая.
🔥184🤔3🤡21
Архитектор Данных
Пока все обсуждают датацентры в космосе, я удивляюсь, почему ЦОДы не строят вплотную к атомным станциям. Дешевая розетка - есть Градирня или пруд для охлаждения - есть Дизеля - есть РосАтом-ЦОД - идея-то рабочая.
Посоветовавшись с голосами в голове GPT, стало понятно, что по правилам МАГАТЭ и Ростехнадзора подключать ЦОД к градирне или дизелям АЭС конечно же нельзя.

Это может сказаться на работе самой станции и повлиять на ее безопасность. Контуры охлаждения, резерв питания и всего остального должны быть разделены, это правильно.

Так что АЭС для ЦОД просто недорогая и стабильная розетка.

Кроме того, как подсказали в коментах, у РосАтома есть проект арендных ЦОД atomdata. Но в Москве и Иннополисе.
5👍1
Forwarded from Ai molodca (Alexander Dobrokotov)
Как контент-фабрики убивают интернет 🌸

Каждый второй в IG — "эксперт" по контент-фабрикам и автоматизации.
YouTube — завален тоннами "образовательного" контента и рыжими котами, которые вечно дерутся и беременеют.
Проблема — не в том, что контент поверхностный.
Проблема — он неправдивый.

Когда образовательные ролики генерятся пачками без проверки фактов, это не просто засоряет платформы — это подрывает доверие к информации вообще. Эффект снежного кома: фейковая инфа попадает в обучающие датасеты и материалы для дипресёрча, потом в новый контент, и так по кругу.

При этом экономика сломана так, что качество проигрывает количеству. Платформы поощряют объём (алгоритмы любят частоту постинга), а не глубину. YouTube не особо заинтересован банить слоп, пока он генерит просмотры и рекламные деньги.

Генеративные тулзы могут быть черновиком для качественного контента, а могут быть финальным продуктом для быстрых денег. Разница — в ответственности создателя.

Думаю мы движемся к расслоению. Будет "премиум-интернет" — курируемые платформы, проверенные источники, подписки — и "слоп-интернет" из автогенерации. Доступ к правде и качеству станет платным де-факто.

Что делать? А черт его знает. Голосовать вниманием, например. Поддерживать создателей, которые не автоматизируют финал. Быть занудой и проверять факты. Если производите контент — нанимать людей для факт-чека и контролировать продакшн-качество.

Ну или просто жить в лесу и трогать траву каждый день. 🥰
Please open Telegram to view this post
VIEW IN TELEGRAM
💯104👍3😁1
В S3 папок нет!

Не все понимают свойства и ограничения такого сервиса как S3.

Все считают что это такая большая файлопомойка, к которой можно примонтировать все что нужно. Хоть Windows проводник.

Но нет.

В S3 даже файлов и папок нет. Вместо файлов - объекты, вместо папок - некоторым образом похожие ключи.

Отсюда и то, что если ты прямо серьезно собрался работать с S3 на больших объемах и нагрузках (привет Лейкхаус и ML-at-Scale), то и подходы надо менять.


Пример:

Вместо листинга положить в "папку" с данными маленький мета файл с тем, что должно оказаться в листинге. Листинг дорогой, файл поднять - дешево.

Это не зашквар, это Айсберг Манифест 😎
152👍2
Грустная и поучительная история

Очень много стартапов, основанных технарями, погибли от неуместного использования google scale решений.

Обратная сторона гипер-доступности технологий.
👀8👍5🤔42🤡1
Впервые увидел себя в выдаче гугла 😎

А конкретно - эта статья на хабре
👍20🔥5👀21
Там Яндекс рост облаков в 3 раза к 2030 году нашел.

Пока же у нас нередки заказчики, у которых в ТЗ на облако написано требование каждый день предоставлять фотоотчет о состоянии их серверов.

Многие не понимают как управлять ИТ инфраструктурой когда нет решетки, бирочек, ключиков и Яков Саныча с журналом доступа.
😁2031
Forwarded from VK Cloud
👏 Вчера на TAdviser SummIT 2025 сразу два проекта VK Tech берут награды в номинации «Проект года».

🛢 ПАО Сургутнефтегаз

Компания перешла на технологическую платформу на базе VK Private Cloud: запустила первые бизнес-приложения, выстраивает собственный центр компетенций и внедряет DevSecOps-подходы. Это модульное частное облако в ЦОДе заказчика — с надежностью, катастрофоустойчивостью и масштабированием под цифровые инициативы.

🏛 Федеральное казначейство

«Электронный бюджет» ускорили за счет миграции неструктурированных объектов из реляционных баз данных в S3-совместимое хранилище VK Object Storage. В итоге получили –50% к отклику БД, 30–60% экономии пространства хранения, 5 миллиардов объектов в хранилище и +50 миллионов объектов каждую неделю.

🎉 Поздравляем команды и продолжаем делать проекты, которые двигают инфраструктуру страны вперед.
1👍1053