Архитектор Данных
1.12K subscribers
154 photos
9 videos
2 files
119 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Канал для аналитиков, инженеров и архов. Говорим про инструменты и подходы.
👍1
Channel name was changed to «Analyst Joe»
Channel name was changed to «Data Tavern»
Спасибо всем посетившим вебинар!

Обсудили как построить легковесную платформу данных на основе GreenPlum PaaS + Airflow + DBT.

https://www.youtube.com/watch?v=1m9qqa9jGGE
👍2
Forwarded from VK Team
Нам есть что обсудить!

VK JT — это не только доклады, но и мнения, ожидания и личные истории. Мы готовим много интерактивных форматов, чтобы познакомить вас с самыми разными проектами VK.

Мастер-классы и воркшопы:
🔹 ОК — строим процессы для дизайнеров, продактов и разработчиков;
🔹 VK Tech — проектируем и запускаем систему аналитики за 40 минут;
🔹 VK Play — используем игровые механики в своём проекте.

🔧 ML-хакатон — задача бинарной классификации с необычными условиями.

Дискуссии и круглые столы:
🔹 VK Education — чему, зачем и как учить разработчиков-джунов;
🔹 Учи.ру — как геймифицировать продукт, чтобы школьники проводили с ним больше времени;
🔹 RuStore — какие метрики помогут без слёз команды оценить продуктовую разработку;
🔹 VK Mini Apps — открытые платформы: кому они нужны и как бустят отрасль.

До встречи 6 марта в Доме культуры «ГЭС-2» и онлайн: vkjt.ru
👍1
Начинаем серию постов с более подробными разборами инструментария для КХД.

#Инструменты
2
Инструменты - гринплам

#Инструменты #Хранилище #БазыДанных #Greenplum

🍈🍈🍈🍈🍈
База greenplum - отличный выбор для построения хранилищ данных. Это относительно старая и проверенная технология. В текущих реалиях в России сейчас практически безальтернативна для он-прем инсталляций и для облака.

База обладает большим коммьюнити и достаточной энтерпрайзностью, чтобы быть уверенным в том что внезапно возникающие функциональные и нефункциональные требования будут удовлетворены.



К основным достоинствам можно отнести

⁃ Колоночнае хранение данных. Строковое хранение данных также возможно для небольших часто изменяемых данных, например, етл таблиц со статусами загрузок.
⁃ MPP Shared Nothing архитектура. Можно использовать всю мощь кластера для обработки запросов.
⁃ Горизонтальная масштабируемость кластера
⁃ Внутренний механизм распределения ресурсов между группами пользователей - ресурсные группы. В gp v.7 можно квотировать не только цпу и память, но и чтение диска.
⁃ Совместимость с прикладным ПО по протоколу postgresql. Снаружи бд выглядит как постгрес.
⁃ Наличие сервисов для распределенной загрузки данных: PXF, gpfdist. В случае работы из скейлящихся источников данных (s3, hdfs, hive, kafka) чтение и запись данных происходит с ноды на ноду минуя мастер.
⁃ ANSI SQL
⁃ ACID, транзакции
⁃ Отказоустойчивость на уровне шардов и мастера.


👎👎👎👎👎
Недостатки

⁃ Трудный скейл кластера вверх с перераспределением данных
⁃ Трудности с бекапом. Частично решено в вендорских сборках.
⁃ Хотя система и умеет переключаться на шарды зеркала но в случае восстановления доступа к шардам обратного переключения нет. Нет самопочинки и самобалансировки.
⁃ Кластер требователен к сети, требует mtu 9000, который не всегда доступен.
⁃ Не Cloud Ready. Очень плохо контейниризуется.
⁃ В работе под тяжелыми запросами может дать 100% нагрузку одновременно на цпу, память, диск, сеть. Что крайне негативно влияет на любой контейнерный и виртуализированный деплоймент. В облаках для Managed решается выделением специальных сегментов и агрегатов гипервизоров.


🛠🛠🛠🛠🛠
Сборки

⁃ ванильная
⁃ Аренадата в версии коммьюнити и энтерпрайз.
⁃ Яндекс. Только как managed в облаке
⁃ Ростелеком
⁃ Глоубайт

Есть свои карманные сборки у сбербанка, тинькова и в других крупных организациях.

Самая популярная в России сборка - ArenadataDB. Есть в бесплатном варианте коммьюнити (до 20тб дисков) и энтерпрайз. Предлагает графический инструмент развертывания и администрирования Arenadata Cluster Manager

В платную Arenadata Enterprise дополнительно входят

⁃ Параллельные коннекторы clickhouse, kafka, adb-to-adb
⁃ Дополнительные инструментарий администрирования
⁃ Неблокирующий бекап на основе pgbackrest
⁃ Инструменты для офлайн развертывания в закрытом контуре без доступа в интернет.
⁃ Поддержка российских ОС: Alt, Astra, RedOS.

Managed ArenadataDB Enterprise предлагают облака VK, cloud.ru (sber cloud), mts

🔧🔧🔧🔧🔧
Деплоймент

Базовый - на онпрем. Есть варианты в облаке managed в Яндексе, Вк, Сбер и других.
Облачная инсталляция требует специального приспособленного сегмента с отключенной переподпиской, улучшенным схд, высокочастотными цпу (intel platinum), mtu-9000 сетью.
Система будет плохо себя чувствовать на обычных виртуальных машинах с переподпиской и сетевыми дисками под прод нагрузкой.

⚖️⚖️⚖️⚖️⚖️
В целом

В целом greenplum предлагает надежное решение для реализации и развития КХД. В нем не будет сюрпризов по части ИБ, интеграций с другими сервисами. За деньги можно легко найти решение с вендорской поддержкой. К тому же в 2024 году уже не так сложно найти DBA со знанием GreenPlum или попросту купить поддержку на рынке.
Также хорошим вариантом будет покупка облачного managed решения, где проблемы с падением сегментов и бекапами будет решать за вас команда эксплуатации облака. Благо выбрать уже есть из чего.

Если у вас есть деньги на покупку этого относительно недешевого решения и экспертизы для его поддержки - берите “Зеленую Сливу” и не прогадаете.
👍3