Отвечу на вопрос от уважаемого подписчика
1️⃣ Нет никакой сложности оркестрации DBT + Airflow. Есть подготовленные DBT-операторы, которыми очень приятно пользоваться.
2️⃣ Dagster модный, вот про него и пишут. 😎 Лично им мало пользовался, все же Airflow стандарт, но не предвижу никаких проблем или особенностей в оркестрации DBT проекта и на Dagster тоже. Что в лоб, что по лбу.
3️⃣ Правильно - как удобнее. В не сильно большой команде удобнее в монорепо DAGs + DBT. Тогда в одном коммите видны все изменения пайплайнов.
Когда команда больше, то может быть удобнее разделить. Одна команда делает DBT проект для общего пользования, другие подключают его через DBT Packages. Или когда один AF оркестрирует несколько DBT проектов: для лейка(-хауса) и для КХД с разным стеком.
4️⃣ Не, DBT не для миграций.
5️⃣ На кластере Airflow в любом случае должна быть синхронизрованная кодовая база на всех мастерах и воркерах.
Спасибо за вопрос!
1️⃣ Нет никакой сложности оркестрации DBT + Airflow. Есть подготовленные DBT-операторы, которыми очень приятно пользоваться.
2️⃣ Dagster модный, вот про него и пишут. 😎 Лично им мало пользовался, все же Airflow стандарт, но не предвижу никаких проблем или особенностей в оркестрации DBT проекта и на Dagster тоже. Что в лоб, что по лбу.
3️⃣ Правильно - как удобнее. В не сильно большой команде удобнее в монорепо DAGs + DBT. Тогда в одном коммите видны все изменения пайплайнов.
Когда команда больше, то может быть удобнее разделить. Одна команда делает DBT проект для общего пользования, другие подключают его через DBT Packages. Или когда один AF оркестрирует несколько DBT проектов: для лейка(-хауса) и для КХД с разным стеком.
4️⃣ Не, DBT не для миграций.
5️⃣ На кластере Airflow в любом случае должна быть синхронизрованная кодовая база на всех мастерах и воркерах.
Спасибо за вопрос!
✍6❤4👍4🔥2
Офис данных (сущ.) - Группа людей, осознанно и целенаправленно развивающая стек обработки данных.
Без такой организации рискуем оказаться в ситуации, когда инструменты куплены, люди наняты, процессы сделаны, но культура данных стагнирует, а фундаментальные проблемы не решаются.
Не обязательно отдел/департамент/руководитель, но обязательно кто-то способный ответить на вопросы:
- какие типовые проблемы есть?
- какой план борьбы с ними?
- какая в целом стратегия?
- как повысить эффективность обработки данных?
А в идеале:
- как превратить данные из центра затрат в центр прибыли?
Без такой организации рискуем оказаться в ситуации, когда инструменты куплены, люди наняты, процессы сделаны, но культура данных стагнирует, а фундаментальные проблемы не решаются.
Не обязательно отдел/департамент/руководитель, но обязательно кто-то способный ответить на вопросы:
- какие типовые проблемы есть?
- какой план борьбы с ними?
- какая в целом стратегия?
- как повысить эффективность обработки данных?
А в идеале:
- как превратить данные из центра затрат в центр прибыли?
👍6👏3❤2
Крик души о том как выглядят приложения от больших компаний.
И ничего с этим не сделаешь - так экономически эффективнее. Пользователь не уходит из приложения, на нем можно срубить дополнительную копеечку, компонентная и кодовая база переиспользуется эффективнее.
С точки зрения аналитики как раз тут и нужна та самая Huge Data, потому как в каждом разделе, в каждой фиче и микро-фиче есть своя воронка, есть свои ARPU, свои АБ-тесты. Все эти кофеварки, микроволновки, и даже софа внимательно следят за вами, пока вы идете мимо.
Сегодня ваш заход в Озон/ВБ/Авито/Тинек/СБОЛ генерирует по 20-50 мегабайт джсон-логов, которые потом парсятся и раскладываются в витрины. Все складывается безумные объемы данных.
Пользователи думают, что приложения распухли во много раз за 5 лет, в то время как аналитика, которую они отправляют, говорит: «подержи мое пиво».
И ничего с этим не сделаешь - так экономически эффективнее. Пользователь не уходит из приложения, на нем можно срубить дополнительную копеечку, компонентная и кодовая база переиспользуется эффективнее.
С точки зрения аналитики как раз тут и нужна та самая Huge Data, потому как в каждом разделе, в каждой фиче и микро-фиче есть своя воронка, есть свои ARPU, свои АБ-тесты. Все эти кофеварки, микроволновки, и даже софа внимательно следят за вами, пока вы идете мимо.
Сегодня ваш заход в Озон/ВБ/Авито/Тинек/СБОЛ генерирует по 20-50 мегабайт джсон-логов, которые потом парсятся и раскладываются в витрины. Все складывается безумные объемы данных.
Пользователи думают, что приложения распухли во много раз за 5 лет, в то время как аналитика, которую они отправляют, говорит: «подержи мое пиво».
🔥8👍7👌4
Хакатоны это то еще развлечение. Работа после работы.
Страдают от натуги организаторы, страдают эксперты, страдают участники. Когда страдают все трое, значит, вечеринка удалась. 😎
С Samsung был очень крутой. Участники оптимизировали прохождение того самого отраслевого бенчмарка. Подробный отчет есть на Хабре от крутейшего архитекторв Паши.
Страдают от натуги организаторы, страдают эксперты, страдают участники. Когда страдают все трое, значит, вечеринка удалась. 😎
С Samsung был очень крутой. Участники оптимизировали прохождение того самого отраслевого бенчмарка. Подробный отчет есть на Хабре от крутейшего архитекторв Паши.
Telegram
Данные на стероидах
Хакатон Samsung IT Academy Hack 2025: обзор задачи от VK Tech
В прошлом месяце IT Академия Samsung провела уже второй хакатон IT Academy Hack 2025. Темой в этот раз стала оптимизация и работа с большими данными.
VK Tech выступил индустриальным партнером…
В прошлом месяце IT Академия Samsung провела уже второй хакатон IT Academy Hack 2025. Темой в этот раз стала оптимизация и работа с большими данными.
VK Tech выступил индустриальным партнером…
👍6😁2❤1🔥1
Плейлист видео про Лейкхаус DLH #2
1. Предыдущий плейлист
2. Мой небольшой доклад про хайп вокруг DLH и что мы теряем если не используем эту технологию.
3. Плейлист Iceberg Summit 2025. Осторожно - много часов! Но заглавный доклад рекомендую посмотреть - там анонсы фичей v3
В числе фичей
- Шифрование на уровне таблицы - позволяет хранить в S3 шифрованные данные
- Тип данных VARIANT - решение проблемы полу-структурированных данных, стримов событий, JSON
- Тип файлов Гео
- Оптимизации DELETE
и другие
4. Анонс DuckLake
Приятного просмотра!
1. Предыдущий плейлист
2. Мой небольшой доклад про хайп вокруг DLH и что мы теряем если не используем эту технологию.
3. Плейлист Iceberg Summit 2025. Осторожно - много часов! Но заглавный доклад рекомендую посмотреть - там анонсы фичей v3
В числе фичей
- Шифрование на уровне таблицы - позволяет хранить в S3 шифрованные данные
- Тип данных VARIANT - решение проблемы полу-структурированных данных, стримов событий, JSON
- Тип файлов Гео
- Оптимизации DELETE
и другие
4. Анонс DuckLake
Приятного просмотра!
Telegram
Архитектор Данных
Плейлист хороших видео про Лейкхаусы
1.
Вебинар - Поднимаем Lakehouse на основе Trino.
Старался раскрыть мотивацию, зачем нужен лейкхаус и какая его ниша применения. Во второй половине - воркшоп, как сделать лейкхаус в облаке за 20 минут.
2.
Доклад от…
1.
Вебинар - Поднимаем Lakehouse на основе Trino.
Старался раскрыть мотивацию, зачем нужен лейкхаус и какая его ниша применения. Во второй половине - воркшоп, как сделать лейкхаус в облаке за 20 минут.
2.
Доклад от…
❤6👍4✍2🔥1
Архитекторский Стрим - Выпуск 1-й.
Сегодня в 17:00 настраивайте ваши радиоприемники на канал "Данные на стероидах" ( @sterodata ), где будет первый архитекторский стрим!
С Вадимом Беловым, руководителем разработки платформы данных X5 поговорим про последние тренды в развитии технологий огромных данных и Лейкхаусы.
Задавайте вопросы в комментариях под постом, и топовые мы обязательно обсудим!
До встречи!
Сегодня в 17:00 настраивайте ваши радиоприемники на канал "Данные на стероидах" ( @sterodata ), где будет первый архитекторский стрим!
С Вадимом Беловым, руководителем разработки платформы данных X5 поговорим про последние тренды в развитии технологий огромных данных и Лейкхаусы.
Задавайте вопросы в комментариях под постом, и топовые мы обязательно обсудим!
До встречи!
🔥7❤1👏1
Forwarded from Вправо Вверх 📈 Михаил Табунов
Стреляю себе в ногу каждый день
Встретил ребят, которые не знают куда улучшать свой собственный продукт.
Все настолько улучшено, настолько крутые метрики, что ну просто идеал, а делать что-то надо.
Оценка в сторе 4.99, NPS 80+, пользователи мега счастливы, трафик окупается x5, но только что-то они не растут уже 5 лет, и в траф тратят только $20k / мес.
Мне стало подозрительно интересно, и я выяснил следующее:
– С продуктом работали
– Куча событий и метрик
– Куча дашбордов
– Вся аналитика подогнана так, чтобы казалось что с продуктом всё круто
– В конторе начальник, который не любит плохих новостей
Типа, оценки ниже 4 тупо не пишутся в базу (пользователя просят написать что не так), органика записывается в платный трафик, чтобы было побольше, ну и везде фигурирует какой-то предикт, который тупо добавляет в окупаемость когорт два хвоста)))
Я уж думал такого не бывает, но нет.
Всегда интересно посмотреть на людей, которые каждый день с удовольствием сами себе стреляют в ногу.
Встретил ребят, которые не знают куда улучшать свой собственный продукт.
Все настолько улучшено, настолько крутые метрики, что ну просто идеал, а делать что-то надо.
Оценка в сторе 4.99, NPS 80+, пользователи мега счастливы, трафик окупается x5, но только что-то они не растут уже 5 лет, и в траф тратят только $20k / мес.
Мне стало подозрительно интересно, и я выяснил следующее:
– С продуктом работали
– Куча событий и метрик
– Куча дашбордов
– Вся аналитика подогнана так, чтобы казалось что с продуктом всё круто
– В конторе начальник, который не любит плохих новостей
Типа, оценки ниже 4 тупо не пишутся в базу (пользователя просят написать что не так), органика записывается в платный трафик, чтобы было побольше, ну и везде фигурирует какой-то предикт, который тупо добавляет в окупаемость когорт два хвоста)))
Я уж думал такого не бывает, но нет.
Всегда интересно посмотреть на людей, которые каждый день с удовольствием сами себе стреляют в ногу.
😁11🤨3👍2🤔1
Миграция Huge Data
Одно дело просто работать с гигантскими данными и уметь извлекать из них ценность на объемах 200-500 ПБайт. Совсем другое - мигриговать одни системы в другие.
Сегодня на Кейсариуме обсуждали, как проходит централизация 5 бизнесов группы ВК с точки зрения данных. Тысячи вовлеченных людей, колоссальное поле для улучшения бизнес-перфа данных. И в довесок - практически не берущиеся челенжи как технические, так и организационные.
Есть над чем подумать, есть где поразмыслить.
Какие ваши топ советы по консолидации нескольких уже сложившихся хранилищ данных с устоявшимися практиками сбора и потребления данных?
Одно дело просто работать с гигантскими данными и уметь извлекать из них ценность на объемах 200-500 ПБайт. Совсем другое - мигриговать одни системы в другие.
Сегодня на Кейсариуме обсуждали, как проходит централизация 5 бизнесов группы ВК с точки зрения данных. Тысячи вовлеченных людей, колоссальное поле для улучшения бизнес-перфа данных. И в довесок - практически не берущиеся челенжи как технические, так и организационные.
Есть над чем подумать, есть где поразмыслить.
Какие ваши топ советы по консолидации нескольких уже сложившихся хранилищ данных с устоявшимися практиками сбора и потребления данных?
❤5🤔3✍1🏆1