Это разве аналитика? – Telegram

Это разве аналитика?

4.68K subscribers

977 photos

75 videos

102 files

1.48K links

Привет, я Андрей @ab0xa, bi / de / java dev

Анализ данных и визуализация, интересные ссылки, вакансии, уроки, юмор) и личный опыт

Стек технологий Python, Java, SQL, Tableau, Knime, Yandex.Облако, Yandex DataLens

Download Telegram

About

Blog

Apps

Platform

Это разве аналитика?

4.68K subscribers

Это разве аналитика?

This media is not supported in your browser

VIEW IN TELEGRAM

🚀 Сегодня аналитик данных — это не просто человек с Excel-отчётами, а стратегический партнер бизнес-команды, влияющий на ключевые решения. И рынок это отлично понимает!

🔍 Готовы стать востребованным специалистом? Тогда наш курс «Аналитик данных» в OTUS — ваш путь к профессии через 3 ключевых блока:

✅ Анализ требований и понимание бизнес-запросов
✅ Статистика без сложных теорий
✅ BI и визуализация данных

Чему вы научитесь?
🔹 Работать с сырыми данными и строить понятные отчёты
🔹 Общаться с бизнесом и объяснять выводы
🔹 Использовать SQL и Python для анализа
🔹 Создавать и интерпретировать BI-дашборды

Курс создан практиками, отражает реальные задачи рынка. Подходит для junior-аналитиков, специалистов по отчётности, маркетологов, продакт-менеджеров и всех, кто хочет перейти от рутины к осознанной работе с данными.

Старт уже скоро! Пройдите короткое тестирование, чтобы определить свой уровень и получите спецпредложение на обучение в OTUS: https://clck.ru/3RPbJf

🔗 Не упустите шанс стать аналитиком, который влияет!

Реклама. ООО «Отус онлайн-образование», ОГРН 1177746618576, www.otus.ru, erid 2VtzqvFbYmy

👍3

777 views05:01

Это разве аналитика?

Forwarded from MyDB

🔥 Alibaba представила open-source интеграцию DuckDB — AP-движок для аналитических запросов прямо в MySQL

Крупнейший китайский облачный вендор Alibaba открыл исходный код глубокой интеграции аналитической СУБД DuckDB в AliSQL (форк MySQL). Это позволяет запускать аналитические запросы (OLAP) в тысячи раз быстрее, чем на InnoDB, с полным сохранением MySQL-синтаксиса.

Проект доступен полностью в open source — разработчики и компании могут использовать, модифицировать и внедрять эту технологию самостоятельно, без привязки к облачным сервисам.

🛠 Как это работает:

DuckDB встроен как плагинный storage-движок в архитектуру MySQL. Аналитические реплики синхронизируются через бинарный лог (binlog), что обеспечивает согласованность данных и отказоустойчивость. Под капотом реализованы оптимизации:
- Пакетное выполнение транзакций
- Поддержка DDL через INPLACE / INSTANT или COPY - механизмы
- Многопоточная конвертация таблиц

📊 Производительность:

На тестах TPC-H SF100 DuckDB показал впечатляющие результаты — общее время выполнения 22 запросов:
• DuckDB: 15.31 сек (в 1648 раз быстрее!)
• InnoDB: 25 234.31 сек

🌐 Исходный код и документация:

Решение полностью открыто и доступно в репозитории AliSQL. Сообщество может изучать, использовать и развивать эту интеграцию.

👉 Репозиторий и подробная документация

#OpenSource #AliSQL #DuckDB #MySQL #OLAP #Database #Analytics #Alibaba #GitHub

👍4❤1🔥1

870 views03:38

Это разве аналитика?

Forwarded from Бидон (BI-DONE)

🏍

Бидон (BI-DONE)

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥8😁5💯1

845 views10:55

Это разве аналитика?

Немного изучил такую модную штуку, как Starrocks - убийца кликхауса и трино в одном флаконе)

Русская справка https://docs.starrockspro.ru/docs/

Бесплатный курс на степике по самым самым азам. По сути это содержание презентации) https://stepik.org/course/267743/info

Базовая презентация из этого курса (наглядно о ключевых особенностях): https://drive.google.com/file/d/1mTPE187oK4gh17iNSbL-meBCMAQ_IFWP/view

Есть продвинутый курс:
https://stepik.org/course/StarRocks-Certified-Administrator-Preparation-Course-266678/

В целом, мне понравился этот курс. Я пошел на него в целях получить представление о возможностях starrocks в сжатые сроки и это получилось. Курс небольшой, прошел его часов за 10 суммарного времени. Содержание представляет собой перевод с китайского оригинала и иногда это сильно режет глаз (обратная связь была очень оперативно принята авторами и сделаны необходимые исправления). Охватываются основные моменты работы с starrocks - от загрузки и экспорта данных до создания таблиц и настройки ролей доступа. Есть презентации с сводной информацией по каждой теме - это плюс. Мне не хватило информации по материализованным представлениям - судя по всему это одна из фишек starrocks для построения внутренних слоев данных и etl. Также было бы удобно если бы были ссылки на документацию для каждого раздела, к тому же есть русскоязычный вариант документации, доступный тут https://docs.starrockspro.ru/docs/introduction/StarRocks_intro Цена курса для личного прохождения кусается, но со скидкой (поймал, т.к. курс только появился) терпима. В целом, курсом доволен.

Рассматривал возможность замены староксом кликхауса (а точнее многоджойновых запросов), но особо значительной разницы не увидел.

Starrocks представляет собой вариант современного модного подхода федеративных запросов к самым разным источникам данным (озеро данных), т.е. когда данных у нас настолько много, что затянуть их все в одну базу данных нецелесообразно
отличие от другого популярного движка trino заключается, что starrocks предлагает для критичных запросов перетянуть данные в свою внутреннюю колоночную базу данных.

По загрузке данных starrocks ориентирован на потоковые механизмы из внешних источников, простое выполнение insert into пусть даже и крупными батчами поддерживается, но не является рекомендуемым, т.к. деградирует внутреннюю структуру данных хранения (создается много мелких файлов, которые потом в фоне долго объединяются)

Starrocks позиционируется как универсальный комбайн с поддержкой асинхронной загрузки данных по расписанию, создания внутреннего etl с помощью материализованных представлений

В общем, как инструмент масштаба компании - интересная вещь. Как замена кликхаусу для расчета статистик - не уверен, но понаблюдать за развитием стоит.

Stepik: online education

Введение в Starrocks

Современные аналитические системы всё чаще сталкиваются с противоречием: бизнесу нужны данные в реальном времени, единый аналитический слой и высокая производительность, а инфраструктура должна оставаться гибкой и экономичной.
Этот курс посвящён StarRocks…

👍5❤1

1.12K views18:36

Это разве аналитика?

Получил по предзаказу, планирую читать по 1 кейсу в день. Пока прям хороший перекос в гео сервисы.

Первая книжка была довольно популярной, посмотрим как эта пойдет.

В прошлом году проходил курс по system design от курсов Карпова, хочу сказать, что, судя по всему, эти две книжки точно покрывают содержание курса

✍7

816 viewsedited 06:08

Это разве аналитика?

Forwarded from Книжный куб (Alexander Polomodov)

Сайт по system design (Рубрика #Architecture)

Многие мои подписчики знают, что я планировал написать книгу ... но я не уточнял какую. Суть была в том, что я параллельно занимался работой над несколькими книгами. Ближе всего к готовности была книга по System Design (с фокусом на подготовке к интервью) - мне просто было проще всего ее собрать из своих материалов. Я работал по стартинке - сделал желаемое оглавление, собрал часть глав из своих материалов и получил большой Google Doc. Но на каникулах меня осенило, что цель-то не в книге, а в удобной компиляции моих мыслей. Поэтому я поменял подход - скормил google doc сервису Lovable для создания интерактивного сайта, а дальше инкрементально начал его дорабатывать. Я этим занимался больше месяца и получился такой вот сайт system-design.space. Конечно, нет предела совершенству и я собираюсь продолжить его наполнение, но думаю, что он уже может принести пользу тем, кто хочет прокачаться в проектировании.

Если найдете какие-то ошибки или опечатки, то пишите - я буду править их по мере своих сил. В ближайшие месяцы я планирую добавить еще рекомендованных книг, поработать над пулом задачек, чтобы тут были не только классические из других книг + сделаю побольше красивых визуализаций. На более далеком горизонте я планирую пойти в стороне не только классическо system design, но и других типов, что описаны в главе про специфику интервью.

#SystemDesign #Interview #Career #Architecture #DistributedSystems #Databases #Engineering #Software

system-design.space

System Design Space — Проектируй лучшие системы

Изучай System Design для создания надёжных масштабируемых систем и успешного прохождения интервью.

👍6🔥4

665 views03:42

Это разве аналитика?

Сегодня день рождения у Романа Бунина @revealthedata - классного профессионала, вдохновляющего наставника, создателя интересных курсов в области визуализации данных и построения дашбордов.

С работой Романа впервые познакомился, когда изучал Табло. В его канале море всяких интересных фишек по этой программе. Потом уже сходил на курс по дашбордам на Карпов курсез (еще первую версию по табло), познакомился с фрейморками по проектированию дашбордов. Даже собеседование у него проходил) и это было очень классное собеседование похожее больше на наставничество) В общем, русской сфере bi аналитики повезло, что есть Роман)

Если вы не слышали про Романа и интересуетесь дашбордами, то вот краткий обзор его проектов, книг, курсов, видео. Рекомендую!
https://xn--r1a.website/revealthedata/987

Роман, счастья и радости, крепкого здоровья, исполнения желаний, удачи во всем и новых проектов!

Reveal the Data

📈 Рома Бунин про BI, датавиз и дашборды 📈

🛠 Инструменты
Dashboard Canvas и Dashboard Map — фреймворк разработки системы отчетности и отдельных дашбордов. Кейсы и теория собраны на доске в миро.

Матрица компетенций BI-аналитика — самые важные навыки BI-аналитика…

🎉9👍2🔥2❤1

707 views07:39

Это разве аналитика?

📁

300+ экспертов и каналов, за которыми следят аналитики

В 2025 году мы в NEWHR завершили сбор данных для нашего ежегодного исследования рынка аналитиков. Такие исследования позволяют в динамике наблюдать за тем, как меняется профессия, задачи, зарплаты аналитиков, их амбиции, желанные и нежеланные компании для работы и многое другое.

Сейчас мы обрабатываем результаты, и уже готовы поделиться с вами первыми инсайтами. А именно — рейтингом экспертов отрасли и каналами, которые читают и смотрят наши респонденты-аналитики. Выборка респондентов в этом году — 1493 человека!

🔗 Полный список экспертов-аналитиков

Что вы найдёте на лендинге:

➖

Рейтинги ТОП-15 экспертов и ТОП-30 Telegram-каналов, интересных аналитикам

Они разделены специализациям: отдельно для продуктовых, маркетинговых, дата-, веб- и BI-аналитиков и отдельно для системных и бизнес-аналитиков — потому что предпочтения отличаются.

➖

Полные списки экспертов (100+), Telegram-каналов (130+), подкастов и YouTube-каналов которые аналитики находят интересными

Telegram-каналы для удобства разделены по темам: аналитика, обучение и карьера, BI/UX/Data Viz, Data Engineering и разработка, ML/DS, Product Managment, продуктовая и HR аналитика.

Отдельно мы выделили блок экспертов, которых читаем сами — именно к ним мы обратились за информационной поддержкой. Благодарим всех, кто помог собрать такую выборку 💙

Полные результаты исследования мы опубликуем весной, следите за обновлениями!

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3🔥2👻1

823 views09:36

Это разве аналитика?

Forwarded from SmartData — конференция по инженерии данных

#видеозаписи

Открываем новую видеозапись выступления:
Евгений Глотов — «Spark — ВСЁ!»

😉

YouTube | 📺 VK Видео

Please open Telegram to view this post

VIEW IN TELEGRAM

Евгений Глотов — Spark — ВСЁ!

Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Скачать презентацию с сайта — https://jrg.su/nX9PNR

Поговорим про Spark. Что он дал дата-инженерам? Почему многие из нас используют именно его?

Spark уже более 15 лет. С какими проблемами мы сталкиваемся…

👍3🔥1

872 views16:03

Это разве аналитика?

Lakehouse для аналитиков и инженеров данных

Изучи набирающий популярность подход к построению хранилищ данных Data Lakehouse c разделенным Compute и Storage на основе Iceberg и Trino.

🌐

В программе курса:
▪️Современная архитектура аналитических систем от DWH и Data Lake до Lakehouse с разделением Compute и Storage на базе Apache Iceberg и Trino.
▪️Iceberg: управление файлами, снимками, каталогами, схемами изменений и очисткой.
▪️Практическое использование Iceberg Catalog, работа с кластером Trino (на Kubernetes), подключение данных на S3 и выполнение SQL/Python-запросов.
▪️Работа с Iceberg+Trinо на больших масштабах: сложные запросы к датасету TPC-DS (2.8 млрд строк), интеграция с DBT, Apache Airflow, оценка производительность систем.
▪️Построение пайплайнов, инструменты для корректной поддержки, обновления и масштабирования Lakehouse-инфраструктуры на уровне предприятия.

🥸

Кто мы: R&D-центр Devhands.io, наш канал. Автор курса — Алексей Белозерский, руководитель направления Big Data Services в компании VK Tech.

🗓

Старт курса: 5 февраля, 18:00, 6 недель обучения.

Изучить программу и записаться можно здесь.

Ждем вас!

Реклама. ИП Рыбак А.А. ИНН 771407709607 Erid: 2Vtzqx9YS8B

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥7👍4

940 views06:04

Это разве аналитика?

Forwarded from Reveal the Data

📘 От дашборда к системе
Вышли две следующих главы книги! 🥳

Глава 2. Типы дашбордов
В этой главе обсуждаем, что на самом деле дашборды бывают разными и стоит разделять их по типам и задачам. А ещё разбираемся почему классическая система «стратегический, аналитический, операционный» на самом деле не работает. Для каждого типа рассматриваем примеры реальных дашбордов и как они соединяются в систему.

Глава 3. Dashboard Map
В этой главе по шагам разбираем теорию как составить карту дашбордов для подразделения и подобрать необходимые типы дашбордов. В этот раз больше теория, а много примеров применения будет в следующей главе.

Ещё собрали отдельно материалы из книги на доске в miro, так как не всегда удобно смотреть скриншоты на платформе.
#книга #от_дашборд_к_системе

👍3🔥1

770 views03:45

Это разве аналитика?

Forwarded from Ненастоящий биайщик

Залетай в AI в BI

В работе с ИИ-агентами (Cursor) есть одна проблемка: начинаешь о них рассказывать — и сначала всё идёт хорошо, а через пару минут ты уже телевизор. Вещаешь что-то в пространство, а в ответ — ни вопросов, ни комментариев. Аудитория потерялась. Ну разве что кто-нибудь начнёт теоретизировать про то, как бы придумать такой ИИ-тул, чтобы он прям всё и прям сразу решил aka «размышления про волшебный ящик».
(Каюсь, сам иногда в это скатываюсь.)

А всё почему? У агентов довольно приличный порог входа.

Во-первых, настройка агента — это по сути та же настройка рабочего окружения. С теми же самыми «да кто писал эти инструкции» и «у меня ни-че-го не работает».

Во-вторых, функционал агентов отличается от чат-ботов. Его больше, он специфичный, и в нём реально нужно ориентироваться (ну, например, режимы работы: Plan, Agent, Ask или Cursor Rules).

В-третьих, хочешь хорошо решённую задачу — правильно подготовь контекст. Не слишком мало, не слишком много.

В-четвёртых, как вообще дебажить то, что там нейронка нагенерила?

И так далее.

Пока лучшее, что я смог придумать, — это проводить человека за руку. То есть он шарит экран, и вы вместе настраиваете и решаете боевой кейс. Медленно, зато не теряешь человека на «очевидных» для тебя моментах (над которыми сам когда-то мучился).

К чему это я. В следующий четверг 05.02 19.00 [GMT+4] попробуем с @Balobanovvv провести что-то подобное: в лайв-режиме настроим ему Cursor и попробуем решить end-to-end BI-задачку (запрос → ETL → дашборд). Ну или хотя бы пройти по этому пути максимально.

Присоединяйтесь, будем учиться вместе)

❤2🔥2👍1

703 views10:59

Это разве аналитика?

Forwarded from LEFT JOIN

СУБД made in China
Пополнение в копилку необычных СУБД — AliSQL от Alibaba Group, которая владеет известным китайским маркетплейсом. Это форк от MySQL со всевозможными улучшениями производительности и стабильности. Полный список поддерживаемых фич в официальной документации выглядит очень внушительно.

🔵На Githab отдельно подсветили то, что AliSQL использует аналитическую DuckDB в качестве подсистемы хранения и поддерживает векторный поиск. За счет этого подходит для аналитических задач и работы с ИИ.
🔵В роадмапе — оптимизация DDL, RTP и репликации.

В Alibaba Group AliSQL использовали для своих внутренних нужд, но в конце 2025 поделились исходным кодом. Так что вы можете стать контрибьютором или просто потестить, как она работает.

Please open Telegram to view this post

VIEW IN TELEGRAM

👌1🌚1

557 views11:39

Это разве аналитика?

Forwarded from Архитектор Данных

Репо со вчерашнего вебинара можно посмотреть тут!

Автоматизация через содержимое папки scripts.

https://github.com/alex-belozersky/local_lakehouse

Не забудьте поставить GitHub звездочку!

GitHub - alex-belozersky/local_lakehouse: Your Own data lakehouse

Your Own data lakehouse. Contribute to alex-belozersky/local_lakehouse development by creating an account on GitHub.

👍2🔥1

598 views17:48

Это разве аналитика?

Очная программа «Дата-инженерия» от ФКН НИУ ВШЭ

Программа подготовит к профессии дата-инженера — архитектора конвейеров обработки данных и инфраструктуры работы с данными, востребованного в любой современной ИТ-компании. Обучение подойдет аналитикам, разработчикам и другим техническим специалистам, которые хотят систематизировать знания, освоить промышленные инструменты и собирать масштабируемые, отказоустойчивые системы.

Курс рассчитан на слушателей, которые уже уверенно владеют Python и SQL.

В ходе обучения вы:
🟣научитесь проектировать, собирать и оптимизировать конвейеры обработки данных (ETL)
🟣освоите хранилища данных и подходы к построению инфраструктуры работы с данными
🟣разберете обработку больших объемов данных и потоковую обработку
🟣научитесь формировать витрины данных и применять инструменты бизнес-аналитики
🟣получите базовые навыки администрирования баз данных и работы с аналитическими СУБД
🟣познакомитесь с NoSQL-системами и принципами управления данными (Data Governance)
🟣освоите применение машинного обучения на практике и работу с Apache Spark
🟣реализуете итоговый индивидуальный проект — полноценный пайплайн обработки данных для портфолио

📁

Старт курса: 4 февраля, очный формат. Присоединиться можно до 11 февраля.

Узнать подробнее о программе

📍

Реклама. НИУ "ВШЭ". ИНН 7714030726. erid:2SDnjdmaL9e

Please open Telegram to view this post

VIEW IN TELEGRAM

👍2🔥2

632 views06:46

Это разве аналитика?

Forwarded from Архитектор Данных

Обновление плейлиста Lakehouse!

Выложили доклад маэстро Озерова (@cedrusdata) на Smart Data 2025.

Владимир здесь делает обзор на стейт и развитие экосистемы Iceberg. Часть материалов была здесь на канале раньше в этом перезаливе. Там же можно посмотреть и само видео от создателей и контрибьюторов Айсберга на английском с таймкодами.

Это про Variant, geo data, row lineage, row_id.

Потом Владимир идет дальше и касается уже предполагаемых фич Iceberg v4/v5.

Что есть нового:

1️⃣ Внесение вьюх в стандарт Айсберга. Сейчас вьюшка это просто хранимая строка SQL, и проблема в том, что в разных движках SQL разный. Вьюха записанная в Spark SQL не будет работать в Trino или StarRocks. Поэтому сообществу нужно изобрести промежуточный сериализованный стандарт хранения вьюхи, которая будет хранить что-то вроде плана ее выполнения.

2️⃣ Материализованные вьюшки. Тут не легче - нет способа валидировать что таблицы, от которых зависит матвью, обновились.

3️⃣ UDF. Есть гиганский документ с очень сложным пропозалом, как сделать стандартизированный вид хранимых UDF. Интересно, что в спаке-то справились с этой задачей!

4️⃣ Iceberg Wide Tables. Сейчас под айсбергом лежит одномерный массив паркетов. То есть каждый паркет содержит примерно все колонки таблицы. Но что делать, если в таблице 1000 или 10000 колонок! Такие приложения уже вполне есть, например в области фиче сторов для МЛ. Было бы неплохо уметь разбивать массив колонок таблицы на несколько логических блоков и хранить их в разных паркетах.

5️⃣

❗️Транзакции! Многостейтовые и много-объектные транзакции.

6️⃣ Securable Objects или по-простому RBAC. Сейчас в стандарте Айсберга нет единого способа сделать ролевую модель, и разные движки, команды и метасторы колхозят что-то свое. Цитата: "Добавлять это в стандарт - это форма безумия. Надеюсь не сделают"

7️⃣ FGAC - Fine Grained Access Control. Маскирование, колоночные гранты и так далее. Строчные авто-фильтры - Васе можно смотреть только строки по своему региону/отделу. Идея в том, что права отправляется на движок, и движок его применяет. Или не применяет, потому что не умеет. От этого движки делятся на Trusted / Non Trusted. Ах да, снова надо придумать универсальный метод описания пермишенов.

8️⃣ Disaster Recovery на уровне логических объектов айсберга: таблиц, манифестов, снапшотов и т.д. Первое, что надо сделать - научить метадату работать по относительным путям. Здесь я вообще не понимаю, как так вышло, что я не могу перенести Айсберг таблицу в соседний бакет S3 или с S3 на папку и оно перестанет работать потому что во всей метадате прописано s3://myonebucket/

9️⃣ REST Planning. Как насчет сделать функционал в Iceberg REST каталоге для того, чтобы можно было кинуть в него запрос и получить план. Или хотя бы список паркетов которые он реально будет читать по запросу SELECT SUM(rev) FROM SALES WHERE [my-filter]. Как было бы удобно разрабатывать движки. И это почти готово!

Интересных идей, очень много, жаль, что многое находится хронически на этапе пространных обсуждений.

Из зала мой первый вопрос - что нужно сделать S3 как софту, чтобы Iceberg экосистеме было комфортно с ним общаться.
Ответ: STS, Vended Credentials.

———————————————————————-

Приглашаю ознакомиться с плейлистом по Лейкхаус на ВК, и подписаться на него. Туда я добавляю свои стримы и интересные доклады ведущих экспертов. А также на канал Архитектор Данных на ВК Видео.

———————————————————————-

Please open Telegram to view this post

VIEW IN TELEGRAM

Владимир Озеров — Перспективы развития Apache Iceberg

Ближайшая конференция SmartData: https://vk.cc/cu1MVg #SmartData #DataEngineering #IT #conference #jugrugroup Популярность Apache Iceberg в аналитическом стеке компаний стремительно растет. Вместе с этим растут и требования к зрелости решений на основе этой…

👍1🔥1

634 views18:14

Это разве аналитика?

📊 Рады представить новое исследование российского рынка ESB-решений 2025

Отчет посвящён сравнению решений для построения ESB и iPaaS в условиях растущих требований к безопасности, отказоустойчивости и работе в отечественной ИТ-инфраструктуре.

Что внутри:
➡️ Сравнение 20+ как отечественных проприетарных (1С:Интеграция КОРП, Интегра, FESB, RedMule, USEBUS AI-Code, DataReon Platform, MARS ESB, Atom.Most, Bercut ESB, Dataguru), так и open-source решений (Apache Camel, Kafka, Node-RED, n8n, Istio и др.)
➡️ Детальное сравнение платформ по критериям: от отказоустойчивости и безопасности до DevOps и Data Governance.
➡️ Практические рекомендации по выбору и внедрению ESB.
➡️ Типовые сценарии применения для госсектора, финтеха, корпоративного сегмента и SMB.

📘 Исследование основано на анализе документации и реальных кейсах внедрения решений. Полный отчёт доступен на сайте проекта «Круги Громова» – скачать бесплатно!

#кругигромова #gromovcircles

👍2🔥2

694 views05:02

Это разве аналитика?

Forwarded from StarRocks and modern data stack

Снаряд два раза в одну воронку не падает

Интересно, что у архитектора данных вышел цикл постов о том, почему стоит ехать в облако. А тем временем в нашей вселенной идет все ускоряющийся цикл ухода от облачной инфраструктуры во внутреннюю платформу данных чисто на реализовавшихся рисках (деньги смысла считать даже нет, стоимость рисков с лихвой покрывает всё).

Про что речь? В своем докладе что на смартдате, что в остальных местах я рассказывал про блокировку аккаунта в Google BigQuery в прошлом году на время уточнения данных, и заняло это 3 недели. Что случилось 2 недели назад? Да, аккаунт опять заблокировали, опять уточнение, ну а работа - потерпите, чай не сахарные. И следом уже вчера заблокировали целый пул ip адресов европейских цодов из стран вокруг РФ - запрет на использование api своих сервисов (BQ, GCP). То есть ты находишься не в РФ, платишь не с РФ, но никого не волнует.

Итого последние 3 недели мы перевозим проекты в StarRocks днем и ночью. Но почему-то получилось, что вместо расчета их там все заехало в Spark. Причина достаточно простая - наши эксперименты с бигквери проходили на проектах малого размера, почти все модели в dbt считались на table материализации. Spark такие штуки раскладывает примерно за 10-15 секунд на витринку, нагружать же mpp бд такого рода нагрузкой кажется напрасной затеей. Ведь в чем всегда была притензия к данным в хадупе - медленное чтение, а вот витринки собираются порой быстрее вертики (да что там, кликхауз у меня тоже получалось когда-то в телекоме обогнать). В итоге пользователи, биай и сервисы читают и делают эдхоки через StarRocks, а счет идет в кластере хадупа - все по заветам современных историй лейкхаузов, правда без перекладывания данных в слой доступа.

Ну а какие выводы можно сделать за эти 2 недели? А вот такие:
* перевозить витрины можно очень быстро
* сверять результаты между системами - чудовищная по трудоемкости операция
* витрины начинают разбегаться между системами буквально на следующей недели после переноса - надо или следить, или очень быстро ехать

Даже если функции выглядят в двух системах похоже (именуются одинаково), то совсем не факт что их аргументы или возвращаемые результаты будут идентичными. И поверх накладывается проблема вскрывания ошибок во время написания витрин в исходной системе, когда мы вынуждены или переносить расчет данных и найденную ошибку, либо мы теряем возможность построчной сверки :(

Вообщем печаль, беда и разорение. Если кто знает уже готовый тулсет для сверки таблиц построчно-поколоночно на спарке - напишите в комментарии, пожалуйста. Написать свой вроде несложно, но вдруг древние уже учли все проблемы. Почему spark? Потому что можно в нем внутри сравнивать разные системы без материализации и копирования данных, а еще легко сделать select sha1(*) from...

👍3❤1👏1

500 views19:41

Это разве аналитика?

Forwarded from Делаю BI

BI стажеры и BI стажировка

Дисклеймер 1 - Мы не первый раз нанимаем стажеров, и они реально вырастают в крутых спецов
Дисклеймер 2 - Мы сейчас нанимаем стажеров BI - в том числе в мою команду. Стажировка интенсивная, задача за год вырасти intern-> junior->middle. Будем делать масштабные вещи и переворачивать BI на 360 градусов
Дисклеймер 3 - Да, у меня примерно такое чувство юмора и я не очень хорошо понимаю что такое дисклеймер

В процессе подготовки процесса специфичного BI найма для этой волны стажировок у меня возникли небольшие "философские" размышления

Кто такой идеальный стажер и как его найти? Основные критерии у меня получились вот такие:

Понимает кто такой BI разработчик и чем тот отличается от дата-аналитика.
Очень важный пункт, часто сталкивался с позицией "Биайщик это аналитик который не знает статистику" - от такого становится грустно. Как фильтровать это? Наверное только на скоринге уже спрашивать у кандидата и явно подсвечивать на входе в воронку найма

Уже работал с BI системой / делал дэши в учебных или пет проектах.
В прошлый раз когда я нанимал стажера этот пункт вызвал бурные обсуждения в некоторых профильных каналах "Почему вы требуете у стажеров опыт работы с биай системой?". Мой ответ остался тем же - это базовый навык для биайщика, человек который никогда не делал дашборды не может утверждать что он хочет этим действительно заниматься. Как проверять? Как и везде - с помощью портфолио

Знает SQL и понимает работу с табличными данными
BI разработчик в зависимости от команды и проекта от 30 до 70 процентов времени тратит на трансформацию данных в том или ином виде. Если кандидату сложно думать "таблицами" и абстрактными потоками данных, это не значит что он глупый или плохой. Просто другой склад ума. Я встречал людей, которые органически не могут понять как формируется сводная таблица в экселе, но при этом могут посмотреть на принципиальную схему платы и в уме прикинуть как она будет работать и какие токи выдавать. Проверить можно задачами на SQL, тут ничего нового

Понимает что такое хорошо и что такое плохо в визуале
Это из рубрики насмотренности и понимания восприятия визуальной информации, она развивается поэтапно. Первый этап - посмотреть на визуал и понять что он плохой. Второй этап - понимать почему он плохой. Третий - понимать почему именно эти решения не работают. Четвертый - как это исправить. Пятый этап - подбирать визуал с учетом всего бизнес и пользовательского контекста. Дальше идет дзен и отрицание визуальной кодировки данных как концепции, тут главное не проскочить (см. Дисклеймер 3) От стажера мы ожидаем хотя бы уровни 1 и 2 - осознанно различать ужасные и хорошие дэши. Проверяется это на техскоринге.

Как будто это основное и самое важное.

Если вы считаете, что вы будете крутым стажером и хотите работать в Авито - велком в наш буткемп. Стажировка оплачиваемая, задачи самые что ни на есть реальные и сложные, BI комьюнити крутое. Подробности можно посмотреть на лендинге, вопросы позадавать в комментариях

🔥2👍1

392 views16:04

Это разве аналитика?

Авито ищет будущих аналитиков данных и ВІ-разработчиков

Запускаем Avito Analyst Bootcamp 2026 — годовую программу, где вы сможете вырасти от стажёра до уверенного мидла 🚀

Что такое Avito Analyst Bootcamp?

Это ваш шанс погрузиться в мир больших данных, решать реальные бизнес-задачи под руководством экспертов Авито и проходить дополнительное обучение от Академии Аналитиков Авито.

В каком направлении будете развиваться?

➡️ Продуктовая аналитика: А/В-тестирование, воронки, логирование, анализ гипотез.
➡️ ВІ-разработка: дашборды, пайплайны, метрики.

Почему стоит участвовать?

➡️

Карьерный рост по чёткому плану — с контрольными точками и прозрачными критериями.

➡️

Сильное комьюнити — общение, обмен опытом и поддержка таких же целеустремлённых ребят.

➡️

Комфортные условия — зарплата, корпоративная техника, занятость от 30 часов в неделю и возможность совмещать с учёбой.

⚡️Не упустите шанс стать частью команды Авито! Регистрация продлится до 17 февраля.

Please open Telegram to view this post

VIEW IN TELEGRAM

❤2👍2

437 views05:01