Канал для аналитиков, инженеров и архов. Говорим про инструменты и подходы.
👍1
Спасибо всем посетившим вебинар!
Обсудили как построить легковесную платформу данных на основе GreenPlum PaaS + Airflow + DBT.
https://www.youtube.com/watch?v=1m9qqa9jGGE
Обсудили как построить легковесную платформу данных на основе GreenPlum PaaS + Airflow + DBT.
https://www.youtube.com/watch?v=1m9qqa9jGGE
👍2
Forwarded from VK Team
Нам есть что обсудить!
VK JT — это не только доклады, но и мнения, ожидания и личные истории. Мы готовим много интерактивных форматов, чтобы познакомить вас с самыми разными проектами VK.
Мастер-классы и воркшопы:
🔹 ОК — строим процессы для дизайнеров, продактов и разработчиков;
🔹 VK Tech — проектируем и запускаем систему аналитики за 40 минут;
🔹 VK Play — используем игровые механики в своём проекте.
🔧 ML-хакатон — задача бинарной классификации с необычными условиями.
Дискуссии и круглые столы:
🔹 VK Education — чему, зачем и как учить разработчиков-джунов;
🔹 Учи.ру — как геймифицировать продукт, чтобы школьники проводили с ним больше времени;
🔹 RuStore — какие метрики помогут без слёз команды оценить продуктовую разработку;
🔹 VK Mini Apps — открытые платформы: кому они нужны и как бустят отрасль.
До встречи 6 марта в Доме культуры «ГЭС-2» и онлайн: vkjt.ru
VK JT — это не только доклады, но и мнения, ожидания и личные истории. Мы готовим много интерактивных форматов, чтобы познакомить вас с самыми разными проектами VK.
Мастер-классы и воркшопы:
🔹 ОК — строим процессы для дизайнеров, продактов и разработчиков;
🔹 VK Tech — проектируем и запускаем систему аналитики за 40 минут;
🔹 VK Play — используем игровые механики в своём проекте.
🔧 ML-хакатон — задача бинарной классификации с необычными условиями.
Дискуссии и круглые столы:
🔹 VK Education — чему, зачем и как учить разработчиков-джунов;
🔹 Учи.ру — как геймифицировать продукт, чтобы школьники проводили с ним больше времени;
🔹 RuStore — какие метрики помогут без слёз команды оценить продуктовую разработку;
🔹 VK Mini Apps — открытые платформы: кому они нужны и как бустят отрасль.
До встречи 6 марта в Доме культуры «ГЭС-2» и онлайн: vkjt.ru
👍1
❤2
Инструменты - гринплам
#Инструменты #Хранилище #БазыДанных #Greenplum
🍈🍈🍈🍈🍈
База greenplum - отличный выбор для построения хранилищ данных. Это относительно старая и проверенная технология. В текущих реалиях в России сейчас практически безальтернативна для он-прем инсталляций и для облака.
База обладает большим коммьюнити и достаточной энтерпрайзностью, чтобы быть уверенным в том что внезапно возникающие функциональные и нефункциональные требования будут удовлетворены.
✅✅✅✅✅
К основным достоинствам можно отнести
⁃ Колоночнае хранение данных. Строковое хранение данных также возможно для небольших часто изменяемых данных, например, етл таблиц со статусами загрузок.
⁃ MPP Shared Nothing архитектура. Можно использовать всю мощь кластера для обработки запросов.
⁃ Горизонтальная масштабируемость кластера
⁃ Внутренний механизм распределения ресурсов между группами пользователей - ресурсные группы. В gp v.7 можно квотировать не только цпу и память, но и чтение диска.
⁃ Совместимость с прикладным ПО по протоколу postgresql. Снаружи бд выглядит как постгрес.
⁃ Наличие сервисов для распределенной загрузки данных: PXF, gpfdist. В случае работы из скейлящихся источников данных (s3, hdfs, hive, kafka) чтение и запись данных происходит с ноды на ноду минуя мастер.
⁃ ANSI SQL
⁃ ACID, транзакции
⁃ Отказоустойчивость на уровне шардов и мастера.
👎👎👎👎👎
Недостатки
⁃ Трудный скейл кластера вверх с перераспределением данных
⁃ Трудности с бекапом. Частично решено в вендорских сборках.
⁃ Хотя система и умеет переключаться на шарды зеркала но в случае восстановления доступа к шардам обратного переключения нет. Нет самопочинки и самобалансировки.
⁃ Кластер требователен к сети, требует mtu 9000, который не всегда доступен.
⁃ Не Cloud Ready. Очень плохо контейниризуется.
⁃ В работе под тяжелыми запросами может дать 100% нагрузку одновременно на цпу, память, диск, сеть. Что крайне негативно влияет на любой контейнерный и виртуализированный деплоймент. В облаках для Managed решается выделением специальных сегментов и агрегатов гипервизоров.
🛠🛠🛠🛠🛠
Сборки
⁃ ванильная
⁃ Аренадата в версии коммьюнити и энтерпрайз.
⁃ Яндекс. Только как managed в облаке
⁃ Ростелеком
⁃ Глоубайт
Есть свои карманные сборки у сбербанка, тинькова и в других крупных организациях.
Самая популярная в России сборка - ArenadataDB. Есть в бесплатном варианте коммьюнити (до 20тб дисков) и энтерпрайз. Предлагает графический инструмент развертывания и администрирования Arenadata Cluster Manager
В платную Arenadata Enterprise дополнительно входят
⁃ Параллельные коннекторы clickhouse, kafka, adb-to-adb
⁃ Дополнительные инструментарий администрирования
⁃ Неблокирующий бекап на основе pgbackrest
⁃ Инструменты для офлайн развертывания в закрытом контуре без доступа в интернет.
⁃ Поддержка российских ОС: Alt, Astra, RedOS.
Managed ArenadataDB Enterprise предлагают облака VK, cloud.ru (sber cloud), mts
🔧🔧🔧🔧🔧
Деплоймент
Базовый - на онпрем. Есть варианты в облаке managed в Яндексе, Вк, Сбер и других.
Облачная инсталляция требует специального приспособленного сегмента с отключенной переподпиской, улучшенным схд, высокочастотными цпу (intel platinum), mtu-9000 сетью.
Система будет плохо себя чувствовать на обычных виртуальных машинах с переподпиской и сетевыми дисками под прод нагрузкой.
⚖️⚖️⚖️⚖️⚖️
В целом
В целом greenplum предлагает надежное решение для реализации и развития КХД. В нем не будет сюрпризов по части ИБ, интеграций с другими сервисами. За деньги можно легко найти решение с вендорской поддержкой. К тому же в 2024 году уже не так сложно найти DBA со знанием GreenPlum или попросту купить поддержку на рынке.
Также хорошим вариантом будет покупка облачного managed решения, где проблемы с падением сегментов и бекапами будет решать за вас команда эксплуатации облака. Благо выбрать уже есть из чего.
Если у вас есть деньги на покупку этого относительно недешевого решения и экспертизы для его поддержки - берите “Зеленую Сливу” и не прогадаете.
#Инструменты #Хранилище #БазыДанных #Greenplum
🍈🍈🍈🍈🍈
База greenplum - отличный выбор для построения хранилищ данных. Это относительно старая и проверенная технология. В текущих реалиях в России сейчас практически безальтернативна для он-прем инсталляций и для облака.
База обладает большим коммьюнити и достаточной энтерпрайзностью, чтобы быть уверенным в том что внезапно возникающие функциональные и нефункциональные требования будут удовлетворены.
✅✅✅✅✅
К основным достоинствам можно отнести
⁃ Колоночнае хранение данных. Строковое хранение данных также возможно для небольших часто изменяемых данных, например, етл таблиц со статусами загрузок.
⁃ MPP Shared Nothing архитектура. Можно использовать всю мощь кластера для обработки запросов.
⁃ Горизонтальная масштабируемость кластера
⁃ Внутренний механизм распределения ресурсов между группами пользователей - ресурсные группы. В gp v.7 можно квотировать не только цпу и память, но и чтение диска.
⁃ Совместимость с прикладным ПО по протоколу postgresql. Снаружи бд выглядит как постгрес.
⁃ Наличие сервисов для распределенной загрузки данных: PXF, gpfdist. В случае работы из скейлящихся источников данных (s3, hdfs, hive, kafka) чтение и запись данных происходит с ноды на ноду минуя мастер.
⁃ ANSI SQL
⁃ ACID, транзакции
⁃ Отказоустойчивость на уровне шардов и мастера.
👎👎👎👎👎
Недостатки
⁃ Трудный скейл кластера вверх с перераспределением данных
⁃ Трудности с бекапом. Частично решено в вендорских сборках.
⁃ Хотя система и умеет переключаться на шарды зеркала но в случае восстановления доступа к шардам обратного переключения нет. Нет самопочинки и самобалансировки.
⁃ Кластер требователен к сети, требует mtu 9000, который не всегда доступен.
⁃ Не Cloud Ready. Очень плохо контейниризуется.
⁃ В работе под тяжелыми запросами может дать 100% нагрузку одновременно на цпу, память, диск, сеть. Что крайне негативно влияет на любой контейнерный и виртуализированный деплоймент. В облаках для Managed решается выделением специальных сегментов и агрегатов гипервизоров.
🛠🛠🛠🛠🛠
Сборки
⁃ ванильная
⁃ Аренадата в версии коммьюнити и энтерпрайз.
⁃ Яндекс. Только как managed в облаке
⁃ Ростелеком
⁃ Глоубайт
Есть свои карманные сборки у сбербанка, тинькова и в других крупных организациях.
Самая популярная в России сборка - ArenadataDB. Есть в бесплатном варианте коммьюнити (до 20тб дисков) и энтерпрайз. Предлагает графический инструмент развертывания и администрирования Arenadata Cluster Manager
В платную Arenadata Enterprise дополнительно входят
⁃ Параллельные коннекторы clickhouse, kafka, adb-to-adb
⁃ Дополнительные инструментарий администрирования
⁃ Неблокирующий бекап на основе pgbackrest
⁃ Инструменты для офлайн развертывания в закрытом контуре без доступа в интернет.
⁃ Поддержка российских ОС: Alt, Astra, RedOS.
Managed ArenadataDB Enterprise предлагают облака VK, cloud.ru (sber cloud), mts
🔧🔧🔧🔧🔧
Деплоймент
Базовый - на онпрем. Есть варианты в облаке managed в Яндексе, Вк, Сбер и других.
Облачная инсталляция требует специального приспособленного сегмента с отключенной переподпиской, улучшенным схд, высокочастотными цпу (intel platinum), mtu-9000 сетью.
Система будет плохо себя чувствовать на обычных виртуальных машинах с переподпиской и сетевыми дисками под прод нагрузкой.
⚖️⚖️⚖️⚖️⚖️
В целом
В целом greenplum предлагает надежное решение для реализации и развития КХД. В нем не будет сюрпризов по части ИБ, интеграций с другими сервисами. За деньги можно легко найти решение с вендорской поддержкой. К тому же в 2024 году уже не так сложно найти DBA со знанием GreenPlum или попросту купить поддержку на рынке.
Также хорошим вариантом будет покупка облачного managed решения, где проблемы с падением сегментов и бекапами будет решать за вас команда эксплуатации облака. Благо выбрать уже есть из чего.
Если у вас есть деньги на покупку этого относительно недешевого решения и экспертизы для его поддержки - берите “Зеленую Сливу” и не прогадаете.
👍3