Архитектор Данных
1.11K subscribers
152 photos
8 videos
2 files
117 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Как посчитать нужное число аналитиков?

Берем среднюю цену аналитика. Допустим 10 млн. руб, считая все з/п, налоги, технику, место в офисе, съеденные печеньки и т.д.

Допустим аналитик растит эффективность своего БЮ +10% против его отсутствия.

Тогда эффективно держать 1 аналитика на каждый 100 млн. ЕБИДТы. Лучше на 150 потому что аналитики складываются в группы, группам нужны тимлиды, PM, и вообще с ростом хед-каунта предельная эффективность падает.

Получаем простое правило.

Каждому БЮ положен 1 фулл-тайм дата аналитик при достижении 100-150 млн. ЕБИДТы. Если ИТ компания, то можно брать выручку так как % маржинальность по ЕБИДТе высокая.

До того мелкие БЮ могут запрашивать аналитику как сервис из негоего общего котла дата-офиса - эта возможность также должна быть.

Если у Авито есть 60-90 млрд ЕБИДТы, то никаких вопросов большая цифра хедкаунта аналитиков не вызывает.

Ваш архитектор, отягощенный дипломом по экономике 😄
👍13🔥51💩1
Ух ты какую штуку пропустил!

«И ты, САП!»
(С) Гай Юлий Лейкхаус
1🫡86🥴3
Самые быстро развивающиеся продукты мира Data и Streaming
1👍2092👏1
1😁17👏41😭11
Пятничное кадровое

ЛинкедИн-мышка!
2😁27👍4🥴2🤣21💯1
Структура хранения Apache Paimon

Как похоже на Айсберг, не правда ли?

А по механике скорее MergeTree (LSN-дерево). Последовательный компакшен от маленьких кусочков в большие, да еще можно в процесс компакшена засунуть дедупликацию или агрегацию. Бывалые пользователи кликхауса точно найдут здесь много знакомых моментов.

В целом - формат более Write Optimised, в то время как Iceberg - Read Optimised. зато более подходит для частой вставки.

Я бы сказал, что более сложный для понимания формат чем Iceberg. С большим числом скрытых внутненних особенностей.

Вроде как можно подключить в Trino как таблицу. Проверим?
👍15🤯2