Ситуационный центр данных
То, чего как правило нет.
Должен отвечать на вопросы:
⁃ Какой сейчас статус прогрузки данных?
⁃ Какие инциденты активны? Какого типа: мисы по SLA, ошибки качества, нарушения контрактов, недоступность источников. Кто ответственный и какой текущий статус?
⁃ Потребление ресурсов ХД, ЕТЛ и других систем данными различного типа, качества и различных владельцев
⁃ Текущие Request For Change
⁃ Текущие контракты на поставку данных и история их (не)исполнения
Но как правило хорошо если есть графана с данными о статусах пайплайнов из Airflow да таблица размеров объектов в КХД.
То, чего как правило нет.
Должен отвечать на вопросы:
⁃ Какой сейчас статус прогрузки данных?
⁃ Какие инциденты активны? Какого типа: мисы по SLA, ошибки качества, нарушения контрактов, недоступность источников. Кто ответственный и какой текущий статус?
⁃ Потребление ресурсов ХД, ЕТЛ и других систем данными различного типа, качества и различных владельцев
⁃ Текущие Request For Change
⁃ Текущие контракты на поставку данных и история их (не)исполнения
Но как правило хорошо если есть графана с данными о статусах пайплайнов из Airflow да таблица размеров объектов в КХД.
👍8❤5💯3
О чем поговорим?
Anonymous Poll
11%
Greenplum
23%
Airflow + DBT
30%
Lakehouse + Trino
16%
Как строить офис данных
20%
Мемы😁
👍3
Forwarded from Некстджен и Усиление+ (Yuri Krupenin)
Хозяйке на заметку: облачный бэкап файлов абсолютно бесплатен, если использовать файловую систему WhenFS, которая будет хранить ваши данные в гугл-календаре, кодируя их base64-чанками и запихивая в названия встреч. Это лучший подход, я уверяю вас.
😁5✍4🤝3❤2
Лучший на всем Западе облачный Гринплам
Бывают моменты, когда хочется подвести черту под некоторыми этапами.
Два года мы с командой делали лучший облачный Гринплам.
Что нам удалось достигнуть
1️⃣ Мы поняли, что этот не самый простой для облачной среды сервис можно заставить хорошо работать. И что конкретно для этого надо сделать.
2️⃣ Мы разобрались с процессами поддержки на нескольких уровнях. От дежурных к внутренним экспертам и далее до вендора. Несколько раз влетали в серьезные аварии, один раз поднимались из бекапа. Было непросто и в техническом, и в человеческом плане, но у нас получилось выйти на новый этап.
3️⃣ Сделали простой но эффективный мониторинг ГП. Не бог весть что, но кастомизируемо и шлет алерты по типовым проблемам вроде отвала сегментов, забитии дисков, очередях в ресурсных группах - там, где 90% проблем. И по 90% проблемам мы стремимся к проактивной реакции на возникающие проблемы. Принцип Парето в действии.
4️⃣ Вместе с клиентами проработали, как правильно применить Гринплам по назначению. Как известно, от СУБД до КХД еще очень большая дорога, и мы научились ее проходить, а где-то даже и пробегать.
Если Лейкхаус это пока что платформа для экспериментов, то Гринплам - отраслевой стандарт. Машина тяжелая, но хорошая, убойная.
Хочу сказать огромное спасибо всем, кто был с нами на этом пути.
🧗♂️ Клиентам - за терпение
💯 Вендору (Аренадата) - за отличный продукт и поддержку в трудных ситуациях.
😎 Команде - за буйство в хорошем смысле. Вашу храбрую дружину, предпочту я многотысячному войску!
Хочется углубить наши изыскания, изучить лучше и глубже. Добавить больше полезных сервисов. Мы точно будем этим заниматься.
🚀🚀🚀🚀🚀🚀
Но в то же время, реальность требует развиваться в новые технологии. Для меня это Лейкхаус и аналитические приложения стека LLM.
Всем побед!
Бывают моменты, когда хочется подвести черту под некоторыми этапами.
Два года мы с командой делали лучший облачный Гринплам.
Что нам удалось достигнуть
1️⃣ Мы поняли, что этот не самый простой для облачной среды сервис можно заставить хорошо работать. И что конкретно для этого надо сделать.
2️⃣ Мы разобрались с процессами поддержки на нескольких уровнях. От дежурных к внутренним экспертам и далее до вендора. Несколько раз влетали в серьезные аварии, один раз поднимались из бекапа. Было непросто и в техническом, и в человеческом плане, но у нас получилось выйти на новый этап.
3️⃣ Сделали простой но эффективный мониторинг ГП. Не бог весть что, но кастомизируемо и шлет алерты по типовым проблемам вроде отвала сегментов, забитии дисков, очередях в ресурсных группах - там, где 90% проблем. И по 90% проблемам мы стремимся к проактивной реакции на возникающие проблемы. Принцип Парето в действии.
4️⃣ Вместе с клиентами проработали, как правильно применить Гринплам по назначению. Как известно, от СУБД до КХД еще очень большая дорога, и мы научились ее проходить, а где-то даже и пробегать.
Если Лейкхаус это пока что платформа для экспериментов, то Гринплам - отраслевой стандарт. Машина тяжелая, но хорошая, убойная.
Хочу сказать огромное спасибо всем, кто был с нами на этом пути.
🧗♂️ Клиентам - за терпение
💯 Вендору (Аренадата) - за отличный продукт и поддержку в трудных ситуациях.
😎 Команде - за буйство в хорошем смысле. Вашу храбрую дружину, предпочту я многотысячному войску!
Хочется углубить наши изыскания, изучить лучше и глубже. Добавить больше полезных сервисов. Мы точно будем этим заниматься.
🚀🚀🚀🚀🚀🚀
Но в то же время, реальность требует развиваться в новые технологии. Для меня это Лейкхаус и аналитические приложения стека LLM.
Всем побед!
👍12❤3👏3
Отвечу на вопрос от уважаемого подписчика
1️⃣ Нет никакой сложности оркестрации DBT + Airflow. Есть подготовленные DBT-операторы, которыми очень приятно пользоваться.
2️⃣ Dagster модный, вот про него и пишут. 😎 Лично им мало пользовался, все же Airflow стандарт, но не предвижу никаких проблем или особенностей в оркестрации DBT проекта и на Dagster тоже. Что в лоб, что по лбу.
3️⃣ Правильно - как удобнее. В не сильно большой команде удобнее в монорепо DAGs + DBT. Тогда в одном коммите видны все изменения пайплайнов.
Когда команда больше, то может быть удобнее разделить. Одна команда делает DBT проект для общего пользования, другие подключают его через DBT Packages. Или когда один AF оркестрирует несколько DBT проектов: для лейка(-хауса) и для КХД с разным стеком.
4️⃣ Не, DBT не для миграций.
5️⃣ На кластере Airflow в любом случае должна быть синхронизрованная кодовая база на всех мастерах и воркерах.
Спасибо за вопрос!
1️⃣ Нет никакой сложности оркестрации DBT + Airflow. Есть подготовленные DBT-операторы, которыми очень приятно пользоваться.
2️⃣ Dagster модный, вот про него и пишут. 😎 Лично им мало пользовался, все же Airflow стандарт, но не предвижу никаких проблем или особенностей в оркестрации DBT проекта и на Dagster тоже. Что в лоб, что по лбу.
3️⃣ Правильно - как удобнее. В не сильно большой команде удобнее в монорепо DAGs + DBT. Тогда в одном коммите видны все изменения пайплайнов.
Когда команда больше, то может быть удобнее разделить. Одна команда делает DBT проект для общего пользования, другие подключают его через DBT Packages. Или когда один AF оркестрирует несколько DBT проектов: для лейка(-хауса) и для КХД с разным стеком.
4️⃣ Не, DBT не для миграций.
5️⃣ На кластере Airflow в любом случае должна быть синхронизрованная кодовая база на всех мастерах и воркерах.
Спасибо за вопрос!
✍6❤4👍4🔥2
Офис данных (сущ.) - Группа людей, осознанно и целенаправленно развивающая стек обработки данных.
Без такой организации рискуем оказаться в ситуации, когда инструменты куплены, люди наняты, процессы сделаны, но культура данных стагнирует, а фундаментальные проблемы не решаются.
Не обязательно отдел/департамент/руководитель, но обязательно кто-то способный ответить на вопросы:
- какие типовые проблемы есть?
- какой план борьбы с ними?
- какая в целом стратегия?
- как повысить эффективность обработки данных?
А в идеале:
- как превратить данные из центра затрат в центр прибыли?
Без такой организации рискуем оказаться в ситуации, когда инструменты куплены, люди наняты, процессы сделаны, но культура данных стагнирует, а фундаментальные проблемы не решаются.
Не обязательно отдел/департамент/руководитель, но обязательно кто-то способный ответить на вопросы:
- какие типовые проблемы есть?
- какой план борьбы с ними?
- какая в целом стратегия?
- как повысить эффективность обработки данных?
А в идеале:
- как превратить данные из центра затрат в центр прибыли?
👍6👏3❤2
Крик души о том как выглядят приложения от больших компаний.
И ничего с этим не сделаешь - так экономически эффективнее. Пользователь не уходит из приложения, на нем можно срубить дополнительную копеечку, компонентная и кодовая база переиспользуется эффективнее.
С точки зрения аналитики как раз тут и нужна та самая Huge Data, потому как в каждом разделе, в каждой фиче и микро-фиче есть своя воронка, есть свои ARPU, свои АБ-тесты. Все эти кофеварки, микроволновки, и даже софа внимательно следят за вами, пока вы идете мимо.
Сегодня ваш заход в Озон/ВБ/Авито/Тинек/СБОЛ генерирует по 20-50 мегабайт джсон-логов, которые потом парсятся и раскладываются в витрины. Все складывается безумные объемы данных.
Пользователи думают, что приложения распухли во много раз за 5 лет, в то время как аналитика, которую они отправляют, говорит: «подержи мое пиво».
И ничего с этим не сделаешь - так экономически эффективнее. Пользователь не уходит из приложения, на нем можно срубить дополнительную копеечку, компонентная и кодовая база переиспользуется эффективнее.
С точки зрения аналитики как раз тут и нужна та самая Huge Data, потому как в каждом разделе, в каждой фиче и микро-фиче есть своя воронка, есть свои ARPU, свои АБ-тесты. Все эти кофеварки, микроволновки, и даже софа внимательно следят за вами, пока вы идете мимо.
Сегодня ваш заход в Озон/ВБ/Авито/Тинек/СБОЛ генерирует по 20-50 мегабайт джсон-логов, которые потом парсятся и раскладываются в витрины. Все складывается безумные объемы данных.
Пользователи думают, что приложения распухли во много раз за 5 лет, в то время как аналитика, которую они отправляют, говорит: «подержи мое пиво».
🔥8👍7👌4
Хакатоны это то еще развлечение. Работа после работы.
Страдают от натуги организаторы, страдают эксперты, страдают участники. Когда страдают все трое, значит, вечеринка удалась. 😎
С Samsung был очень крутой. Участники оптимизировали прохождение того самого отраслевого бенчмарка. Подробный отчет есть на Хабре от крутейшего архитекторв Паши.
Страдают от натуги организаторы, страдают эксперты, страдают участники. Когда страдают все трое, значит, вечеринка удалась. 😎
С Samsung был очень крутой. Участники оптимизировали прохождение того самого отраслевого бенчмарка. Подробный отчет есть на Хабре от крутейшего архитекторв Паши.
Telegram
Данные на стероидах
Хакатон Samsung IT Academy Hack 2025: обзор задачи от VK Tech
В прошлом месяце IT Академия Samsung провела уже второй хакатон IT Academy Hack 2025. Темой в этот раз стала оптимизация и работа с большими данными.
VK Tech выступил индустриальным партнером…
В прошлом месяце IT Академия Samsung провела уже второй хакатон IT Academy Hack 2025. Темой в этот раз стала оптимизация и работа с большими данными.
VK Tech выступил индустриальным партнером…
👍6😁2❤1🔥1
Плейлист видео про Лейкхаус DLH #2
1. Предыдущий плейлист
2. Мой небольшой доклад про хайп вокруг DLH и что мы теряем если не используем эту технологию.
3. Плейлист Iceberg Summit 2025. Осторожно - много часов! Но заглавный доклад рекомендую посмотреть - там анонсы фичей v3
В числе фичей
- Шифрование на уровне таблицы - позволяет хранить в S3 шифрованные данные
- Тип данных VARIANT - решение проблемы полу-структурированных данных, стримов событий, JSON
- Тип файлов Гео
- Оптимизации DELETE
и другие
4. Анонс DuckLake
Приятного просмотра!
1. Предыдущий плейлист
2. Мой небольшой доклад про хайп вокруг DLH и что мы теряем если не используем эту технологию.
3. Плейлист Iceberg Summit 2025. Осторожно - много часов! Но заглавный доклад рекомендую посмотреть - там анонсы фичей v3
В числе фичей
- Шифрование на уровне таблицы - позволяет хранить в S3 шифрованные данные
- Тип данных VARIANT - решение проблемы полу-структурированных данных, стримов событий, JSON
- Тип файлов Гео
- Оптимизации DELETE
и другие
4. Анонс DuckLake
Приятного просмотра!
Telegram
Архитектор Данных
Плейлист хороших видео про Лейкхаусы
1.
Вебинар - Поднимаем Lakehouse на основе Trino.
Старался раскрыть мотивацию, зачем нужен лейкхаус и какая его ниша применения. Во второй половине - воркшоп, как сделать лейкхаус в облаке за 20 минут.
2.
Доклад от…
1.
Вебинар - Поднимаем Lakehouse на основе Trino.
Старался раскрыть мотивацию, зачем нужен лейкхаус и какая его ниша применения. Во второй половине - воркшоп, как сделать лейкхаус в облаке за 20 минут.
2.
Доклад от…
❤6👍4✍2🔥1
Архитекторский Стрим - Выпуск 1-й.
Сегодня в 17:00 настраивайте ваши радиоприемники на канал "Данные на стероидах" ( @sterodata ), где будет первый архитекторский стрим!
С Вадимом Беловым, руководителем разработки платформы данных X5 поговорим про последние тренды в развитии технологий огромных данных и Лейкхаусы.
Задавайте вопросы в комментариях под постом, и топовые мы обязательно обсудим!
До встречи!
Сегодня в 17:00 настраивайте ваши радиоприемники на канал "Данные на стероидах" ( @sterodata ), где будет первый архитекторский стрим!
С Вадимом Беловым, руководителем разработки платформы данных X5 поговорим про последние тренды в развитии технологий огромных данных и Лейкхаусы.
Задавайте вопросы в комментариях под постом, и топовые мы обязательно обсудим!
До встречи!
🔥7❤1👏1
Forwarded from Вправо Вверх 📈 Михаил Табунов
Стреляю себе в ногу каждый день
Встретил ребят, которые не знают куда улучшать свой собственный продукт.
Все настолько улучшено, настолько крутые метрики, что ну просто идеал, а делать что-то надо.
Оценка в сторе 4.99, NPS 80+, пользователи мега счастливы, трафик окупается x5, но только что-то они не растут уже 5 лет, и в траф тратят только $20k / мес.
Мне стало подозрительно интересно, и я выяснил следующее:
– С продуктом работали
– Куча событий и метрик
– Куча дашбордов
– Вся аналитика подогнана так, чтобы казалось что с продуктом всё круто
– В конторе начальник, который не любит плохих новостей
Типа, оценки ниже 4 тупо не пишутся в базу (пользователя просят написать что не так), органика записывается в платный трафик, чтобы было побольше, ну и везде фигурирует какой-то предикт, который тупо добавляет в окупаемость когорт два хвоста)))
Я уж думал такого не бывает, но нет.
Всегда интересно посмотреть на людей, которые каждый день с удовольствием сами себе стреляют в ногу.
Встретил ребят, которые не знают куда улучшать свой собственный продукт.
Все настолько улучшено, настолько крутые метрики, что ну просто идеал, а делать что-то надо.
Оценка в сторе 4.99, NPS 80+, пользователи мега счастливы, трафик окупается x5, но только что-то они не растут уже 5 лет, и в траф тратят только $20k / мес.
Мне стало подозрительно интересно, и я выяснил следующее:
– С продуктом работали
– Куча событий и метрик
– Куча дашбордов
– Вся аналитика подогнана так, чтобы казалось что с продуктом всё круто
– В конторе начальник, который не любит плохих новостей
Типа, оценки ниже 4 тупо не пишутся в базу (пользователя просят написать что не так), органика записывается в платный трафик, чтобы было побольше, ну и везде фигурирует какой-то предикт, который тупо добавляет в окупаемость когорт два хвоста)))
Я уж думал такого не бывает, но нет.
Всегда интересно посмотреть на людей, которые каждый день с удовольствием сами себе стреляют в ногу.
😁11🤨3👍2🤔1