Архитектор Данных
1.12K subscribers
153 photos
8 videos
2 files
118 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Инсайты из рассказа Дмитрия Реймана (Авито) о Трино

Доклад: Trino 2 года спустя

Инсталляция

1️⃣2 года назад начата миграция из Вертики в Трино

2️⃣Разделение Compute - Storage на сервисах Trino + Ceph. Суммарно 15 кластеров Трино

3️⃣Данные поднимаются по протоколу S3 из Ceph. Формат данных ORC.

4️⃣Канал: теоретический пик 80 Гбайт/сек, реально достижимое значение 40 Гбайт/сек. В один запрос может разогнаться до 10 ГБайт/сек.

5️⃣Все новое создается в Trino уже сейчас.

6️⃣Нагрузка 50/50 Vertica / Trino

7️⃣Нагрузка от Trino в сторону Ceph - топ-1 из всех потребителей Ceph. Не все цефовцы это любят.

8️⃣Потребовалась конфигурация Ceph с выносом метаданных на NVMe диски


Нагрузка

1️⃣300 потребителей Ad-Hoc

2️⃣1 ПБ / день обрабатывается в Трино

3️⃣Свой оркестратор на 100к+ задач в день


Советы

1️⃣Всем кто строит Лейкхаус обязательно провести нагрузочный тест на Troughput от вычисления до хранения.

2️⃣(ТОП СОВЕТ) В архитектуре ETL действует правило - максимальная длина джоба = 1 час

3️⃣(ТОП СОВЕТ) Также в архитектуре любого потребителя данных DWH - обязательный retry.

4️⃣Pandas to_sql - боль 🙂


Trino

1️⃣Голое Trino - не воин. Придется развернуть или дописать многое вокруг.

2️⃣fs.cache.enabled = true - включение локальных кешей в Трино (с 439 версии).

3️⃣Hive Metastore хоть и легаси, но используется для больших данных. Iceberg для относительно маленьких потребителей, где важна консистентность. Hive движок для Trino как будто чуть более оптимизирован по сравнению с Iceberg. Hive любит делать лишние листинги в объектный Storage, когда оно не нужно, что убивает S3.

4️⃣SDK Trino очень развитый. Авито используют для написания собственных движков чтения SQL. Также можно написать свои обертки для API, специфических БД в таблицы.

5️⃣ETL / ELT в Trino для 6NF (!) - ок! По крайней мере не хуже Вертики.

6️⃣Написали свой Trino Catalog для метаданных

7️⃣Иногда падает Трино Координатор. Но быстро восстанавливается, так как Stateless

Доклад тут
Please open Telegram to view this post
VIEW IN TELEGRAM
107👍44
Когда-то меня чуть не уволили с первой работы спустя 1 месяц, когда я принес расчет, не совпадающий с видением генерального.

Спросили что-то вроде - какой % клиентов пользуется опцией Х. Ну и младший аналитик (который теперь архитектор) честно написал - число такое-то от общего количества НН пользователей. Проблема в том что число НН (реальных пользователей по которым хоть что-то есть) в 4 раза отличалось от отчетов генерального наверх.

С тех пор если меня спрашивали долю чего-то, я никогда не отображал исходные числа (числитель и знаменатель). Ну его нафиг, себе дороже.
😁16💯3👍2
Forwarded from Kantor.AI
Как оно бывает, когда биг босс говорит, что у компании миллионы клиентов

Лет 10 назад одна компания, продававшая и подключавшая (в числе прочих услуг) iptv приставки, захотела потеснить Mediascope на рынке измерения телевизионной рекламы. Медиаскоп, на секундочку, это многолетний монополист, по которому в мире тв-рекламы меряют всех: от завалящих региональных канальчиков до «Первого канала».

Гендиректор этого продавца iptv серьезно заявлял: «у нас есть 2 миллиона приставок, а у Медиаскопа всего десяток тысяч панелистов, мы сделаем инструмент намного лучше». Для реализации амбициозного проекта позвали умных программистов из топовой Российской айти компании, потому что ГД компании-продавца iptv дружил с ГД айтишников и заранее ударил с ним по рукам, что делать будут вместе.

Когда два биг босса договорились, подчиненным остается брать под козырек и приступать к неохотному, но неизбежному исполнению. Но стоило дискуссии спуститься на один уровень иерархии ниже, оказалось, что приставок все же 200 тысяч. Ну напутал босс, бывает. Однако подчиненные ГД это тоже не тот уровень, чтобы данные отгрузить, поэтому диалог делегировали и еще ниже. Оказалось, что там все в шоке, что приставок 200к, ведь 20к было всего! В конечном счете до айтишников вместо обещанных миллионов дошло 12 тысяч (даже с зарплатой и то разрыв обещаний и факта не так драматичен), но самое веселое выяснилось в конце. Оказалось, что из 12 тысяч приставок только по 2 тысячам есть данные о составе домохозяйства (кто живет-то в квартире), причем в некоторых случаях в одну квартиру были записаны 50 и более человек.

Когда вы станете биг боссом (если еще не), обязательно помните, что числа, принесенные вам менеджером в отчете, могут быть реально на порядок выше чисел, которые он сам получил от своих подчиненных. И чем выше вы в иерархии, тем более беспросветное вранье к вам иногда приносят. Это очень грустный эффект, потому что как следствие он приводит к инфляции реальных достижений - в них тоже перестают верить, а разбираться становится лень, когда 9 из 10 утверждений об успехах сформулированы с большой натяжкой, творческим додумыванием, "правильным" способом подсчета и умелым стоянием рядом в нужное время в нужном месте.

P.S.: Медиаскоп по-прежнему стандарт измерения тв-рекламы, а ГД из истории по слухам успешно устроил свою жизнь в счастье вдали от Родины. Еще и до того, как его объявили в розыск. Как-никак матёрый был менеджер.
🔥9😁54🤔41
Как если бы Архитектор Данных была бы Doom Metal бандой
😁9🤔21
😎
😁1352
Аналогия данных и пельменей

Пельмени, как известно, бывают разные. От состояния "в морозилке в ближайшей Пятерочке" (raw) до поданных на стол с укропчиком и соусом на фарфоровой тарелке (витрина)

Но пельмени - это простой случай. Реальная аналитика - это скорее суп. Сложный комплексный продукт из многих компонент, провал в каждой из которых портит все блюдо. Несвежая свекла или кислая сметана - борщ насмарку, все усилия зря.

При этом при запросе на аналитику большинство заказчиков получает не суп, как ожидали, а скорее ингридиенты для супа.

А потом дата офис удивляется, что в нем не видят ценности и режут бюджеты. Вкусный супчик делайте и все у вас будет хорошо.

Видео тут
👍14441
Через неделю
👍10👏5321
О чем это Владимир Семенович?

О том что только нагрузочное и стресс-тестирование может выявить истинные свойства системы.
Неважно, система кремниевая или белковая.
💯13🔥85
ИИ во все поля!

Робособаки на строке и робо-штукатуры-маляры!

Конец печален.
This media is not supported in your browser
VIEW IN TELEGRAM
Помните робособак Самолета? Их украли 🙈

Пару лет назад застройщик хайповал на том, что выпустил на стройплощадки робособак. Они должны были следить за техникой безопасности и проводить измерения. Мы сразу были настроены скептично. Долго о них ничего не было слышно, а тут гендиректор компании Анна Акиньшина призналась, что робопсов украли и разобрали на запчасти.

Но это не все проблемы застройщика с роботами. Например, роботы-штукатуры в случае косяков с квартирографией ползут не туда, и их приходится ловить по всей квартире.

Наступление будущего из научной фантастики откладывается.
😱11😁10🤔4😎1
Подгон аналитики от альма-матер.

Эксель всему голова!
1😁13🤣52
Одна из моих платформ данных из 2022 года.

Стек накинут за 2 месяца. Работает без смены парадигмы 4-й год.

Удовлетворен.
🔥7🤔2🏆2😎21
Лейкхаус плейлист

на ВК Видео лежит плейлист полезных видео про лейкхаусы. (Там можно на него подписаться!)

За последнее время добавил 2 видео

1️⃣ Запись последнего тейхнического вебинара про устройство Айсберг.

2️⃣ Обзор от Cedrus + Avito по миграции на Trino + Ceph

Стараюсь обновлять по мере возможности
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥156👍4😎21
Часть визуала с доклада послезавтра.

Воин пришел к мастеру за помощью потому что 31 декабря его старый Оракл выключат, а миграция не доделана.

(Никому не желаю оказаться в такой ситуации)
😁1743🔥1
Критерии внедрения инноваций в вашей компании.

Должно произойти одно из двух

1️⃣новые технологии дают прирост производительности в традиционных видах деятельности
2️⃣новые технологии дают новые потребительские качаства предлагаемым товарам и услугам

Внедрение офиса данных - ровно та же логика.
Please open Telegram to view this post
VIEW IN TELEGRAM
6💯52🥱2
Под конец первого дня SmartData - приходите прослушать про Hadoop.

Записи не будет )
8👍52
Forwarded from VK Team
Обсуждаем данные на умном 🧐

Встречаемся в Санкт-Петербурге и онлайн на самой технической тусовке года по инженерии данных — SmartData 2025. Погружаемся на глубину: от отказоустойчивости до MLOps, BI и разбора внутреннего устройства баз данных.

Ищите наших спикеров в центре офлайн-нетворкинга: только честные обсуждения без записи и без купюр — сверяйтесь с расписанием.
И ждём в гости на стенд VK Tech, обещаем дата-понг, архитектурные игры и техногадалку.

Подробная программа и билеты 👉 тут.
5👍32