Data Nature 🕊
6.11K subscribers
400 photos
7 videos
3 files
208 links
Канал о жизни BI аналитики и инфо-дизайна в корп реалиях с фокусом на работающих практиках управления.
Веду как летопись полезного для себя и людей с такими же неврозами.

александр бараков @alexbarakov
datanature.ru
data-nature.com

(рекламу не размещаю)
Download Telegram
🔮 Только что закончился Gartner Data & Analytics summit в Орландо США и некоторые из тех, кто там не был (как я) думают стоит ли ехать на него в другие локации.

Два обзора дают некое представление о ключевых тезисах конференции:
️ Видео 1 - Час обзора конференции на канале SuperDataBrothers
️ Видео 2 - GartnerDA: Top Data and Analytics Predictions, 2023

👀 За что зацепился глаз:

1) 💰Компании почти перестали пытаться показывать ROI data проектов через краткосрочную прямую фин ценность (сокращение затрат и рост выручки) и фокусируются на обосновании через инновационные продукты, дата активы, бренд и стратегическую экспертизу. Нормально для западных компаний живущих на длинных трендах. Хотя может и в пи...цовые времена всем нужно думать стратегично
2) ☕️Аналогия отношений D&A CoE с юнитами как "Модели франчайзинга". Смысл прежний - но термин свежий и доступный. Типа Data Self-Service в линейке бизнеса - как открыть кофейню в регионе: помочь проанализировать рынок, продать оборудование, обучить персонал, мониторить перфоманс, надеяться что не загнется)
3) 🤖Все метнулись пилотировать ChatGPT-like for Enterprise проекты - в этом году все продукты резко впихнут в релиз планы и выпустят что-то конкретное. Отличие этого хайпа от других похожих, что он реально работает и вопрос по сути в "опромышливании" решений и подборе UI. Риски все обсуждают походу дела
4)💡Semantic layer / Headless BI - был бы главным трендом если бы не влез ChatGPT. Проблема Analytics Governance как одна из центральных для BI решений. Тут все понятно, надо уже пробовать.
5) 🤔Якобы есть тренд от идеи микросервисов снова к новым большим платформенным 'all in one' BI системам, построенным при этом с гибкой архитектурой (Gooddata, Tellius). Спорно, возможно тренд ради тренда. Хотя что-то в этом есть, типа есть усталость постоянно "женить решения" не имея в моменте счастливой семейной жизни.
6) к 2026 году половина организаций начнет рассматривать ABI (Analytics&BI) and DSML (Data Science & Machine Learning) тулы как одну скомпонованную систему, на фоне сближений сегментов

Отличие Gartner Data & Analytics summit от вендорских сабантуев:

тут нет атмосферы религиозности. Позиция Gartner относительно равноудаленная. Озвучиваются тренды из практики Gartner, что возникает - что уходит, поднимаются более сложные "неприятные" вопросы, которых вендоры избегают.

Из минусов - большая часть спикеров престарелые эксперты-аналитики Gartner - грузят обобщенными речами без иллюстраций из жизни реальных компаний и не особо вдохновляют.

В целом, многие слайды выглядят интересно, но без комментариев сложно до конца понять их замыслы.
Возможно подъедут еще хорошие анализы саммита, глядишь и ехать в Мумбай/Лондон не придется.
Ну и картинка. Не поместилась в пост.
О том как Gartner переобулся за год на тему интеграции AI 😎
Forwarded from Клуб CDO (PostoplanBot)
Очень интересная статья от Uber о том, как они борются с такой проблемой как Data Shift. Особенно интересная статистика в разрезе существующих проблем с данными.

Для контроля качества компания разработала собственную систему D3 (Dataset Drift Detector).

Система отслеживает качество данных в режиме реального времени, красивые дашборды реализованы. В статье так же довольно детально описана архитектура.

Вот что у них на постоянном мониторинге:
- Null Percentage
- False Percentage
- Percentile (P50, P75, P99, P1)
- Standard Deviation, Mean, Median
- Count Distinct

https://www.uber.com/en-BG/blog/d3-an-automated-system-to-detect-data-drifts/
🤯 Передозировка от Data Governance - Провели с BI Consult 5-ти дневный курс. Прошло отлично, но кажется на ближайший год желания и сил повторять не будет)

Для курса было отсмотрено тонны нового по теме в мире, побочным продуктом был рожден Miro board Data Governance Program Guide. На курсе показано 600+ слайдов и потерян голос. Приму как знак.

Добавил немного фасилитации (когда нет своих мыслей - проси других высказать свои🙈).
В итоге есть чем поделиться - см. итоги голосований по вопросам о дата каталогах 👆

Спасибо участникам из Альфабанка, Северстали, Абсолют Банка, Банка Raiffeisen, VK, Visiology, Novartis, Лига Ставок и других компаний за мощный и живой обмен опытом. Я поймал хорошие инсайты по вовлечению data stawards и важности федеративной структуры.

Всем качественных данных, адекватных коллег и любви на пути развития своих каталогов в новом мире
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Канвасианство понемногу захватывает Data-мир -
MIRO-подобный тул Count.co (известный в узких кругах) просек фишку и выпустил Guide to hiring your data team.

Тут хороший набор практик:
- Описание ролей и требований к кандидатам
- Обзор зарплат
- Схемы процесса найма
- Типология интервью
- Детальные списки вопросов
- Темплейты тестовых заданий и скрипты оценки

Выглядит зрело, хотя у больших data команд все посложнее.

Фишка Count здесь показана лицом миру:
🔥 - прямо в канвасе собрано несколько дашбордов по зарплатам на основе Stackoverflow 2022 survey и др источников. Цифры даже выглядят правдиво. Есть данные по России
🔥 - прямо в канвасе - скриптинг в рамках code review тестового задания. Выглядит отлично, но при копировании канваса коннект к данным слетает. Можно скачать с оригинала csv-шки и восстановить. Ну или подключиться к своей базе

На этой неделе общались с продактом MIRO - у них этого функционала не предвидится: не видят они себя как IDE платформу, интеграции с BI тулами очень условные 😒

+ Канвас ссылается на десятки статей и ресурсов компаний, Slack-треды и репозитории Github

🔗 Guide to hiring your data team - можно скопировать и переиспользовать в рамках Count
🔗 Статья - удобно смотреть материал в мобиле
🎙 Наговорил мыслей в подкаст Data Heroes уважаемого Николая Valiotti (aka LEFTJOIN) о ведении telegram каналов. В выпуске также BI-интеллектуал @rbunin, поэтому мне ничего не оставалось как выступить с маргинально-юмористической позицией для баланса 🤌😁

Надо ли уточнять что контент получился топовый. Спасибо хостам за приглашение.
Больше телеграм каналов - богу телеграм каналов 👹

C
сылки на выпуск на всех подкаст платформах для прослушивания в посте у ребят: https://xn--r1a.website/leftjoin/987
Отлично проработанный Data Maturity Self Assessment Framework опубликован в паблик с удобными, понятными экселями для самооценки. Авторы - Британцы - UK Government Data Quality Hub разработали для своего правительства как страновой стандарт, на базе консалтингового продукта компании Data Orchard.. Не суть. Важно что модель хороша. не перегруженная и не поверхностная: 10 топиков, 97 критериев.

🔗 Описание в PDF
🔗
Self-assessment excel
🔗 Excel с описанием критериев (зачем то отдельно, удобнее все в один сложить)
🔗 Статья на Medium

🔥 Самое ценное - смысловое описание 5 градаций выраженности каждого критерия - в результате гайд задает понятные направления работы.

Мне понравились:
🔹 Критерий - Making data available to those who need it
Level 5: 'Data can be accessed and directly shared appropriately by all users who need it. All internal and external users can access data they need when they need it, without specialist support.'
🔹Критерий - Linking decisions that affect organisational outcomes to data
Level 5: 'Consistently links decisions that affect all critical and important organisational outcomes to data. Takes a customer-focused approach, incorporating the value that the organisation’s data has to its users into decision making.'
🔹Критерий - Collecting data with user needs in mind
Level 5: 'Has a clear understanding of the needs of the user providing data, and of user-centred design and methods in all relevant areas of the organisation. Fully embeds application of this understanding in product design and development from beginning to end.'

Прям чувствую, что не зря в команде выносим себе мозг, рисуя Analytics usecases maps и information demand matrices. 🤯
Капец какие же мы мачурные 😎

Тул будет полезен enterprise проектам с системным и массовым подходом в работе с данными. Которые при этом могут найти сейчас время для стратегического анализа 😅

Фреймворк может неплохо сочетаться с упражнением по разработке / обновлению data стратегии компании.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌐 Вместе с @mac_seem, BI team lead из Exness планирую оказаться на Data Innovation Summit 2023 в Стокгольме в Четверг - Пятницу этой недели.
Незнакомое мероприятие, но зато вендор-агностик подход, кажется без налета старперства Gartner и регилиозности конференций Tableau. Короче ожидания оптимистичные.🤔

📌 Кому интересно - посмотрите с нами агенду👇 и напишите на какие выступления надо попасть, на ваш взгляд.
Будем стараться учесть предложения, отпишу впечатления по итогу.

И да, кто (волею судеб) будет тоже на данном ивенте - пишите, блекджек и нетворкинг здесь самое главное. Время смутное, нужна взаимная поддержка. Как было у классиков "... у меня есть бутылка Шеридана, нам же надо как-то плыть ... "🍷
Please open Telegram to view this post
VIEW IN TELEGRAM
(Осторожно, в посте нет ни одного эмоджи)

Помните мы сделали Прожарку HR дашбордов с @rbunin? Мы решили, что справедливо будет критикуя предлагать.
В итоге каждый из нас сделал свой заход на редизайн одного из отчетов. Ну и накидали лукошко критики друг другу.

Далее покритикую версию Ромы и потом поясню за свою. Зеркальный пост ищите в канале Романа

Комментарии к версии Ромы
Линка на tableau public
1️⃣
Можно было бы подумать что за год работы с DataLens Рома растерял табло скилл и скатился в примитив, но тут возможно другое: Автор решил не заполнять спейс в панели метрик справа просто ради красивой картинки - наглый ход, черта уверенного в себе дашбордиста. Я такое еще себе не позволяю )
2️⃣ В результате у борда чище видится его юзкейс - анализ структуры headcount и текучести в разрезах. «расческа» из вертикальных баров способствует. Однообразие здесь плюс. В сочетании с кросс-кликабельностью это решение более чем оправдано.
3️⃣ Метрик я бы все таки добавил. Для красоты Для широты контекста. Тема текучести не раскрыта, прям хочется динамики. Видно что Рома поленился делать воркэраунды с сорсом для этого.
4️⃣ По закону жанра должен накинуть на пайчарт бублик, но он тут вроде уместен, разве что выбор цвета не понял. Брать желтый и зеленый не имея при этом оценочного умысла странно, тем более рядом в барах красный работает для хайлайта негатива. Детская ошибка, Ром)

Больше и подробнее на доске в Miro.
Комментарии к моей версии
Линка на tableau public

1️⃣ Почему мы посчитали исходный дашборд плохим - мы как могли рассказали тут. Собственно часть этих проблем я и устранял, не буду повторять пункты. Мы договорились при этом остаться в стилистике автора - поэтому палитры, шрифты, иконки не менял.

2️⃣ Основная идея была сделать дашборд более подчиненным бизнес идее - анализу структуры хедкаунта и текучести. При этом убрать не имеющие логики метрики, неоднородность визуального ряда, «поджать» картинку

3️⃣ Пришлось доработать источник - была сделана и добавлена в модель табличка с искусственным таймлайном - где по каждому сотруднику строка в каждый месяц где он работал на базе дат найма и увольнения. Без этого никакой анализ движения персонала невозможен

4️⃣ Добавил несколько неочевидных решений - типа выдвигающихся фильтров справа (нужно быть немного неидеальным). Забыл сделать легенду для цвета бара по attrition и некоторые другие неаккуратности пропустил, заметил когда отдал Роме на критику. Точно заметит и ткнет)

Больше и подробнее на доске в Miro.
9 умных мыслей, которые я вынес из Data Innovation Summit 2023, прошедшего в Стокгольме, полезных для применения в нашей команде

(Часть 1)

1️⃣ Появилось сомнение, что нужно гнать с пилотированием своих решений с ChatGPT для BI, что даже с реализацией сценария data консультанта в корп-мессенждере мы среднесрочно получим значительный импакт на BI адопшн. Новые версии дадут новые решения, другие более крупные команды зашарят свои результаты. Пока играемся и следим. Переключаемся на гигиенические задачи качества дата платформы: заниматься полнотой метадаты, инвестируем в семантический слой метрик, делаем связанный с дата моделью глоссарий, повышаем покрытие каталога и качаем на него трафик.

2️⃣ Понял, что нужно освободить дедикейтед людей на data/BI operations проекты. Как бы текущие бизнес проекты не тянули на себя ресурс. Сейчас мы драйвим их как проектные "инициативы", размывая среди BI аналитиков в команде. BI команда нужно делить на доменные экспертные группы и core работающие с развитием bi operations. А DWH team должны быстрее переключаться на работу с платформой и core моделью и отказываться от работы по инжинирингу datamart задач. Мысль не нова, но осознанна заново.

3️⃣Много смотрели стенд Thoughtspot их GPT-based решение. Интригует. Хочется ввязаться в пилот, но не потянем по ресурсу в этому году. Интересовала механика лейблинга источников - звучат убедительно. Но имеет смысл раскатывать только с семантическим слоем - они прямо рекомендуют dbt. Еще говорят - отлично сочетаемся с классическим BI (Tableau для дашбордов, Thoughtspot чат для self-service data exploration).
Модная ценовая политика по query usage немного мутная - такое не спланировать, только через поэтапные замеры в процессе.
Отличие Thoughtspot в видении с Tableau Pulse сильные. Их подход с фокусом на метриках и алертенге их поведения тоже кажется неплохим. Но тут совсем мало инфы. Вангую, tableau pulse будет только на табло Cloud, с отдельным прайсингом - тоже по запросам и ресурсным юнитам

Часть 2 | Часть 3 | Часть 4
Please open Telegram to view this post
VIEW IN TELEGRAM