Структура хранения Apache Paimon
Как похоже на Айсберг, не правда ли?
А по механике скорее MergeTree (LSN-дерево). Последовательный компакшен от маленьких кусочков в большие, да еще можно в процесс компакшена засунуть дедупликацию или агрегацию. Бывалые пользователи кликхауса точно найдут здесь много знакомых моментов.
В целом - формат более Write Optimised, в то время как Iceberg - Read Optimised. зато более подходит для частой вставки.
Я бы сказал, что более сложный для понимания формат чем Iceberg. С большим числом скрытых внутненних особенностей.
Вроде как можно подключить в Trino как таблицу. Проверим?
Как похоже на Айсберг, не правда ли?
А по механике скорее MergeTree (LSN-дерево). Последовательный компакшен от маленьких кусочков в большие, да еще можно в процесс компакшена засунуть дедупликацию или агрегацию. Бывалые пользователи кликхауса точно найдут здесь много знакомых моментов.
В целом - формат более Write Optimised, в то время как Iceberg - Read Optimised. зато более подходит для частой вставки.
Я бы сказал, что более сложный для понимания формат чем Iceberg. С большим числом скрытых внутненних особенностей.
Вроде как можно подключить в Trino как таблицу. Проверим?
👍17🤯2
Закончил читать курс по DLH, Iceberg, Modern Data Stack. Полагаю, что несколько человек (и я точно в их числе) продвинулись в понимании этого стека.
Курс показал себя востребованным. В нашей небольшой группе наступил SOLD-OUT за неделю до старта самих занятий. Хочу сказать огромное спасибо слушателям! За то, что помогли этому курсу случиться. За терпение к неизбежным косяками первого запуска. За то, что занесли в процессе много полезных сервисов и статей. За то что огромное количество раз заставили задуматься: «Хмм, а почему это вот так?», или «Блин, а действительно, почему бы не попробовать сделать вот эдак!»
Что хочется сказать о самой технологии Lakehouse+Iceberg - несколько пунктов, в которые я верю и вижу подтверждения своей веры.
📈 Она точно рано или поздно будет во всех местах, где есть 100+ ТБайт полезных реально используемых данных.
🔬 С нее точно удобнее сразу начинать, если вы амбициозная команда, и ищете способ продолжить технологическую экспансию в точке, где 1 ТБайт данных на Postgres начинают уже скрипеть.
📈 Мы точно увидим активное развитие экосистемы в ближайшие годы. А сервисы, которые делают стек более удобным, безопасным, быстрым точно будут востребованы рынком.
Ссылка на запись та же. Второй поток стартует в феврале. До встречи в новом году!
Курс показал себя востребованным. В нашей небольшой группе наступил SOLD-OUT за неделю до старта самих занятий. Хочу сказать огромное спасибо слушателям! За то, что помогли этому курсу случиться. За терпение к неизбежным косяками первого запуска. За то, что занесли в процессе много полезных сервисов и статей. За то что огромное количество раз заставили задуматься: «Хмм, а почему это вот так?», или «Блин, а действительно, почему бы не попробовать сделать вот эдак!»
Что хочется сказать о самой технологии Lakehouse+Iceberg - несколько пунктов, в которые я верю и вижу подтверждения своей веры.
Ссылка на запись та же. Второй поток стартует в феврале. До встречи в новом году!
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Архитектор Данных
Запускаю курс по Lakehouse, Iceberg, Modern Data Stack.
В этом году по этим темам я провел 2 вебинара, 3 доклада на конференциях, 1 круглый стол, 2 эфира, написал несколько статей и постов.
Все это время мне много пишут в личку с техническими и организацонными…
В этом году по этим темам я провел 2 вебинара, 3 доклада на конференциях, 1 круглый стол, 2 эфира, написал несколько статей и постов.
Все это время мне много пишут в личку с техническими и организацонными…
❤9 6👏5😁1
Пока не совсем понимаю, зачем мне это, но, пожалуй, запишу в итоги года.
Так что зовите на конференции и в гости - прилечу.
Бизнес-классом😁
Так что зовите на конференции и в гости - прилечу.
Бизнес-классом
Please open Telegram to view this post
VIEW IN TELEGRAM
🫡7😁6🏆5