Архитектор Данных
Яндекс говорит что пересобрал систему собесов Когда увидел цифру "90" и подумал что это новое число этапов собеса.
Еще вариант от подписчиков:
90+ это ожидаемый возраст на момент прохождения всех треков.
90+ это ожидаемый возраст на момент прохождения всех треков.
😁32
Forwarded from Инжиниринг Данных (Dmitry)
В статье 5 Things in Data Engineering That Have Changed In The Last 10 Years автор поделился как поменялась индустрия (западная) за последние 10 лет.
1) Компании хотят только сеньоров
Команды сильно сократились, и бизнес требует быстрых результатов → поэтому нанимают в основном опытных инженеров + AI-копилоты усилили продуктивность сеньоров. Джуниорам сложнее входить.
Это произошло в последние 2-3 года. Никому не нужны малыши без опыта. Все хотят опытных людей, чтобы пришли и сразу решали конкретные задачи. В больших компаниях еще сохранилась возможность пройти стажировку и прийти сразу с универа. Но надо, чтобы универ был топчик. Все кто ходят на курсы - мимо. Поэтому мой подход прийти seniorом без опыта выглядит особенно привлекательно в текущих реалиях. Улучшений в будущем для данной ситуации не видно. Специалисты и эксперты в ИТ появляются как грибы. Доступность образования и реклама успешных айтишников в Дубаях и на Патриках делает свое дело.🚶♀️ Все хотят хорошую зарплату и удаленную работу, но места на всех не хватит.😞
2) Cloud стал дефолтом
Раньше облако было опцией, сейчас — стандарт. Все мигрируют: Snowflake, BigQuery, Databricks. Почти никто не строит аналитику он-прем.
Полностью согласен. Я могу открыть любую вакансию в Северной Америке, Южной Америке, Европе, Австралии и тп, и там будет облако и MPP облачное хранилище с вероятностью 95%. Хотя недавно познакомился с инженером, кто пришел к нам из Comcast. Он рассказал, что у них был свой дата центр и он ставил Kafka на bare metal. Ну красавчик, только получает в несколько раз меньше.🏆
3) Перестали писать кастомные пайплайны
10 лет назад везде были самописные ETL на cron/SSIS/python скриптах. Сейчас сразу используют готовые инструменты: Airflow, dbt, EventBridge, Coalesce, etc. Нужно быстрее приносить ценность, а не строить платформу с нуля.
Доступность инструментов low-code/no-code очень сильно упрощают работу. Можно фокусироваться на бизнес проблемах и ценностях, а не трабалшуить legacy/technical debt код. Хотя уже с развитием AI IDE уже все превращается в no-code/low code. Главное базу знать и понимать основу и свою ценность для бизнеса.
4) SQL победил
Споры между SQL vs что-то ещё закончились — SQL стал универсальным стандартом. Job-market требует SQL практически везде. dbt усилил этот тренд.
Если ваш продукт не поддерживает SQL, то у вас плохой продукт. SQL наше все. Хотя некоторые аналитики обожают Pandas, и пишут что-то в своих ноутбуках. А потом инженерам нужно все это разгребать.🙅♂️
5) AI изменил рабочие процессы
AI ускоряет работу, но создаёт риск «движения вместо прогресса»: люди меньше понимают код, больше копипастят из LLM. Выигрывают те, кто умеет совмещать AI + инженерное мышление.
100% все поменялось. Я общаюсь со многими командами и вижу, что люди на самом деле не очень сильно используют все возможности. Большинство не любят перемен и не умеют учиться быстро и эффективно. Когда говорят, что AI заменит людей, чаще всего имеют в виду тех, кто не хочет или не умеет учиться. Сейчас настоящий FOMO в AI и очень важно смотреть куда дует ветер и стараться использовать в работе AI и собирать полезные use cases для вашей индустрии и вашей специализации.
Самое главное, что произошло за 10 лет, то это обесценивание денег, повышение налогов, снижение покупательной способности, отмена job security, и отсутствие стабильности.🤟
1) Компании хотят только сеньоров
Команды сильно сократились, и бизнес требует быстрых результатов → поэтому нанимают в основном опытных инженеров + AI-копилоты усилили продуктивность сеньоров. Джуниорам сложнее входить.
Это произошло в последние 2-3 года. Никому не нужны малыши без опыта. Все хотят опытных людей, чтобы пришли и сразу решали конкретные задачи. В больших компаниях еще сохранилась возможность пройти стажировку и прийти сразу с универа. Но надо, чтобы универ был топчик. Все кто ходят на курсы - мимо. Поэтому мой подход прийти seniorом без опыта выглядит особенно привлекательно в текущих реалиях. Улучшений в будущем для данной ситуации не видно. Специалисты и эксперты в ИТ появляются как грибы. Доступность образования и реклама успешных айтишников в Дубаях и на Патриках делает свое дело.
2) Cloud стал дефолтом
Раньше облако было опцией, сейчас — стандарт. Все мигрируют: Snowflake, BigQuery, Databricks. Почти никто не строит аналитику он-прем.
Полностью согласен. Я могу открыть любую вакансию в Северной Америке, Южной Америке, Европе, Австралии и тп, и там будет облако и MPP облачное хранилище с вероятностью 95%. Хотя недавно познакомился с инженером, кто пришел к нам из Comcast. Он рассказал, что у них был свой дата центр и он ставил Kafka на bare metal. Ну красавчик, только получает в несколько раз меньше.
3) Перестали писать кастомные пайплайны
10 лет назад везде были самописные ETL на cron/SSIS/python скриптах. Сейчас сразу используют готовые инструменты: Airflow, dbt, EventBridge, Coalesce, etc. Нужно быстрее приносить ценность, а не строить платформу с нуля.
Доступность инструментов low-code/no-code очень сильно упрощают работу. Можно фокусироваться на бизнес проблемах и ценностях, а не трабалшуить legacy/technical debt код. Хотя уже с развитием AI IDE уже все превращается в no-code/low code. Главное базу знать и понимать основу и свою ценность для бизнеса.
4) SQL победил
Споры между SQL vs что-то ещё закончились — SQL стал универсальным стандартом. Job-market требует SQL практически везде. dbt усилил этот тренд.
Если ваш продукт не поддерживает SQL, то у вас плохой продукт. SQL наше все. Хотя некоторые аналитики обожают Pandas, и пишут что-то в своих ноутбуках. А потом инженерам нужно все это разгребать.
5) AI изменил рабочие процессы
AI ускоряет работу, но создаёт риск «движения вместо прогресса»: люди меньше понимают код, больше копипастят из LLM. Выигрывают те, кто умеет совмещать AI + инженерное мышление.
100% все поменялось. Я общаюсь со многими командами и вижу, что люди на самом деле не очень сильно используют все возможности. Большинство не любят перемен и не умеют учиться быстро и эффективно. Когда говорят, что AI заменит людей, чаще всего имеют в виду тех, кто не хочет или не умеет учиться. Сейчас настоящий FOMO в AI и очень важно смотреть куда дует ветер и стараться использовать в работе AI и собирать полезные use cases для вашей индустрии и вашей специализации.
Самое главное, что произошло за 10 лет, то это обесценивание денег, повышение налогов, снижение покупательной способности, отмена job security, и отсутствие стабильности.
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍15 9❤4😢4🤔1
Пополняем коллекцию полезных видео.
1️⃣ Запись 2-го эпизода «разговоров на архитекторском». С Олегом Королевым из Авито говорим о построении и развитии ИИ-платформ в крупном бизнесе. А также чем отличается витрина в КХД от МЛ фича-стора. За качество - извините, так вышло 🙂
2️⃣ Плейлист Лейкхауса пополнен записью демо с Алексеем Рыбаком.
Приятного просмотра!
Приятного просмотра!
Please open Telegram to view this post
VIEW IN TELEGRAM
VK Видео
Разговоры на архитекторском #2 - ML/Ai
Разговоры на Архитекторском - Эпизод 2. Алексей Белозерский - Архитектор ВК Тех - https://xn--r1a.website/analyticsfromzero Олег Королев - технический руководитель кластера AI Lab, Авито Что обсуждали 🔷 Почему лучше начинать построение ML-платформы с Airflow или MLflow.…
❤8🔥4👌3🎉1
Архитектор Данных
Пока все обсуждают датацентры в космосе, я удивляюсь, почему ЦОДы не строят вплотную к атомным станциям. Дешевая розетка - есть Градирня или пруд для охлаждения - есть Дизеля - есть РосАтом-ЦОД - идея-то рабочая.
Посоветовавшись с голосами в голове GPT, стало понятно, что по правилам МАГАТЭ и Ростехнадзора подключать ЦОД к градирне или дизелям АЭС конечно же нельзя.
Это может сказаться на работе самой станции и повлиять на ее безопасность. Контуры охлаждения, резерв питания и всего остального должны быть разделены, это правильно.
Так что АЭС для ЦОД просто недорогая и стабильная розетка.
Кроме того, как подсказали в коментах, у РосАтома есть проект арендных ЦОД atomdata. Но в Москве и Иннополисе.
Это может сказаться на работе самой станции и повлиять на ее безопасность. Контуры охлаждения, резерв питания и всего остального должны быть разделены, это правильно.
Так что АЭС для ЦОД просто недорогая и стабильная розетка.
Кроме того, как подсказали в коментах, у РосАтома есть проект арендных ЦОД atomdata. Но в Москве и Иннополисе.
⚡5👍1
Forwarded from Ai molodca (Alexander Dobrokotov)
Как контент-фабрики убивают интернет 🌸
Каждый второй в IG — "эксперт" по контент-фабрикам и автоматизации.
YouTube — завален тоннами "образовательного" контента и рыжими котами, которые вечно дерутся и беременеют.
Проблема — не в том, что контент поверхностный.
Проблема — он неправдивый.
Когда образовательные ролики генерятся пачками без проверки фактов, это не просто засоряет платформы — это подрывает доверие к информации вообще. Эффект снежного кома: фейковая инфа попадает в обучающие датасеты и материалы для дипресёрча, потом в новый контент, и так по кругу.
При этом экономика сломана так, что качество проигрывает количеству. Платформы поощряют объём (алгоритмы любят частоту постинга), а не глубину. YouTube не особо заинтересован банить слоп, пока он генерит просмотры и рекламные деньги.
Генеративные тулзы могут быть черновиком для качественного контента, а могут быть финальным продуктом для быстрых денег. Разница — в ответственности создателя.
Думаю мы движемся к расслоению. Будет "премиум-интернет" — курируемые платформы, проверенные источники, подписки — и "слоп-интернет" из автогенерации. Доступ к правде и качеству станет платным де-факто.
Что делать? А черт его знает. Голосовать вниманием, например. Поддерживать создателей, которые не автоматизируют финал. Быть занудой и проверять факты. Если производите контент — нанимать людей для факт-чека и контролировать продакшн-качество.
Ну или просто жить в лесу и трогать траву каждый день.🥰
Каждый второй в IG — "эксперт" по контент-фабрикам и автоматизации.
YouTube — завален тоннами "образовательного" контента и рыжими котами, которые вечно дерутся и беременеют.
Проблема — не в том, что контент поверхностный.
Проблема — он неправдивый.
Когда образовательные ролики генерятся пачками без проверки фактов, это не просто засоряет платформы — это подрывает доверие к информации вообще. Эффект снежного кома: фейковая инфа попадает в обучающие датасеты и материалы для дипресёрча, потом в новый контент, и так по кругу.
При этом экономика сломана так, что качество проигрывает количеству. Платформы поощряют объём (алгоритмы любят частоту постинга), а не глубину. YouTube не особо заинтересован банить слоп, пока он генерит просмотры и рекламные деньги.
Генеративные тулзы могут быть черновиком для качественного контента, а могут быть финальным продуктом для быстрых денег. Разница — в ответственности создателя.
Думаю мы движемся к расслоению. Будет "премиум-интернет" — курируемые платформы, проверенные источники, подписки — и "слоп-интернет" из автогенерации. Доступ к правде и качеству станет платным де-факто.
Что делать? А черт его знает. Голосовать вниманием, например. Поддерживать создателей, которые не автоматизируют финал. Быть занудой и проверять факты. Если производите контент — нанимать людей для факт-чека и контролировать продакшн-качество.
Ну или просто жить в лесу и трогать траву каждый день.
Please open Telegram to view this post
VIEW IN TELEGRAM
💯10❤4👍3😁1
Ai molodca
Как контент-фабрики убивают интернет 🌸 Каждый второй в IG — "эксперт" по контент-фабрикам и автоматизации. YouTube — завален тоннами "образовательного" контента и рыжими котами, которые вечно дерутся и беременеют. Проблема — не в том, что контент поверхностный.…
Не удивлюсь, если скоро при подаче книги в издательство или статьи в журнал будут спрашивать рукописный черновик ✍️
Please open Telegram to view this post
VIEW IN TELEGRAM
💯10❤4😁1
В S3 папок нет!
Не все понимают свойства и ограничения такого сервиса как S3.
Все считают что это такая большая файлопомойка, к которой можно примонтировать все что нужно. Хоть Windows проводник.
Но нет.
В S3 даже файлов и папок нет. Вместо файлов - объекты, вместо папок - некоторым образом похожие ключи.
Отсюда и то, что если ты прямо серьезно собрался работать с S3 на больших объемах и нагрузках (привет Лейкхаус и ML-at-Scale), то и подходы надо менять.
Пример:
Вместо листинга положить в "папку" с данными маленький мета файл с тем, что должно оказаться в листинге. Листинг дорогой, файл поднять - дешево.
Это не зашквар, это Айсберг Манифест 😎
Не все понимают свойства и ограничения такого сервиса как S3.
Все считают что это такая большая файлопомойка, к которой можно примонтировать все что нужно. Хоть Windows проводник.
Но нет.
В S3 даже файлов и папок нет. Вместо файлов - объекты, вместо папок - некоторым образом похожие ключи.
Отсюда и то, что если ты прямо серьезно собрался работать с S3 на больших объемах и нагрузках (привет Лейкхаус и ML-at-Scale), то и подходы надо менять.
Пример:
Вместо листинга положить в "папку" с данными маленький мета файл с тем, что должно оказаться в листинге. Листинг дорогой, файл поднять - дешево.
Это не зашквар, это Айсберг Манифест 😎
Там Яндекс рост облаков в 3 раза к 2030 году нашел.
Пока же у нас нередки заказчики, у которых в ТЗ на облако написано требование каждый день предоставлять фотоотчет о состоянии их серверов.
Многие не понимают как управлять ИТ инфраструктурой когда нет решетки, бирочек, ключиков и Яков Саныча с журналом доступа.
Пока же у нас нередки заказчики, у которых в ТЗ на облако написано требование каждый день предоставлять фотоотчет о состоянии их серверов.
Многие не понимают как управлять ИТ инфраструктурой когда нет решетки, бирочек, ключиков и Яков Саныча с журналом доступа.
😁20 3❤1
Forwarded from VK Cloud
👏 Вчера на TAdviser SummIT 2025 сразу два проекта VK Tech берут награды в номинации «Проект года».
🛢 ПАО Сургутнефтегаз
Компания перешла на технологическую платформу на базе VK Private Cloud: запустила первые бизнес-приложения, выстраивает собственный центр компетенций и внедряет DevSecOps-подходы. Это модульное частное облако в ЦОДе заказчика — с надежностью, катастрофоустойчивостью и масштабированием под цифровые инициативы.
🏛 Федеральное казначейство
«Электронный бюджет» ускорили за счет миграции неструктурированных объектов из реляционных баз данных в S3-совместимое хранилище VK Object Storage. В итоге получили –50% к отклику БД, 30–60% экономии пространства хранения, 5 миллиардов объектов в хранилище и +50 миллионов объектов каждую неделю.
🎉 Поздравляем команды и продолжаем делать проекты, которые двигают инфраструктуру страны вперед.
🛢 ПАО Сургутнефтегаз
Компания перешла на технологическую платформу на базе VK Private Cloud: запустила первые бизнес-приложения, выстраивает собственный центр компетенций и внедряет DevSecOps-подходы. Это модульное частное облако в ЦОДе заказчика — с надежностью, катастрофоустойчивостью и масштабированием под цифровые инициативы.
🏛 Федеральное казначейство
«Электронный бюджет» ускорили за счет миграции неструктурированных объектов из реляционных баз данных в S3-совместимое хранилище VK Object Storage. В итоге получили –50% к отклику БД, 30–60% экономии пространства хранения, 5 миллиардов объектов в хранилище и +50 миллионов объектов каждую неделю.
🎉 Поздравляем команды и продолжаем делать проекты, которые двигают инфраструктуру страны вперед.
1👍10 5❤3
VK Cloud
👏 Вчера на TAdviser SummIT 2025 сразу два проекта VK Tech берут награды в номинации «Проект года». 🛢 ПАО Сургутнефтегаз Компания перешла на технологическую платформу на базе VK Private Cloud: запустила первые бизнес-приложения, выстраивает собственный центр…
Во время запуска таких проектов на прод атеистов в компании нет 😇
Please open Telegram to view this post
VIEW IN TELEGRAM
😁12🫡2
Forwarded from 5 minutes of data
Увидел в Airflow одну очень прикольную фичу — Human-in-the-Loop операторы.
Можно просто встроить человеческое подтверждение прямо в DAG.
Работает это так:
AI или любая задача что-то генерит → Airflow ставит паузу и ждёт решения → человек получает ссылку, жмёт approve/reject → пайплайн продолжает работу.
Никаких кастомных сенсоров, костылей и блокировок воркеров — всё из коробки в 3.1.
Очень удобная штука для тех, кто запускает AI в проде и хочет держать ручной контроль там, где это реально важно.
@five_minutes_of_data
Можно просто встроить человеческое подтверждение прямо в DAG.
Работает это так:
AI или любая задача что-то генерит → Airflow ставит паузу и ждёт решения → человек получает ссылку, жмёт approve/reject → пайплайн продолжает работу.
Никаких кастомных сенсоров, костылей и блокировок воркеров — всё из коробки в 3.1.
Очень удобная штука для тех, кто запускает AI в проде и хочет держать ручной контроль там, где это реально важно.
@five_minutes_of_data
👍20👏4👀4🔥2
Архитектор Данных
А можно я лучше в колбасный цех?
ЧатГПТ 5.1 подтверждает что разницы с архитектурой данных никакой.
Интересно, когда пинский комбинат догадается переименовать должность в Senior Pig Engineer для повышения престижа профессии.
И тогда вперед к новым карьерным перспективам.
Интересно, когда пинский комбинат догадается переименовать должность в Senior Pig Engineer для повышения престижа профессии.
И тогда вперед к новым карьерным перспективам.
😁15 6❤1