Data Nature 🕊
6K subscribers
385 photos
6 videos
3 files
197 links
Канал о жизни BI аналитики и инфо-дизайна в корп реалиях с фокусом на работающих практиках управления.
Веду как летопись полезного для себя и людей с такими же неврозами.

александр бараков @alexbarakov
datanature.ru
data-nature.com

(рекламу не размещаю)
Download Telegram
Мальчишкам и девчонкам а также их родителям

Изучению истории (как и многим школьным предметам) всегда не хватало визуализации.
Супер интересно соотносить события в разных странах в одно время - иметь линзу для сквозного анализа.
Я даже начал делать этот визуал с параллельным таймлайном разных цивилизаций.
Едва ли я бы довел это конца - Тем круче что уже сделали, с дизайном и надеюсь с критическим анализом без "исторических симулякров" (👋 @Alex_S_Vilkov)
Напоминает немного московское метро.
Визуальный кайф.

🔗 https://hronotop.ru/
Нашел в канале DZENDESIGN

(не реклама)
Классная статья (перевод) про то, что «эффект Даннинга-Крюгера» булшит.

Эффект в том, что неквалифицированные люди склонны переоценивать свою компетентность.


Это было заманчивое обоснование для интеллектуалов возвысить себя над другими.

Забавно, что в итоге авторы исследования подтвердили свой эффект, но не данными, а своей ошибкой, переоценив свою компетентность.

Теперь, когда приходит джун и говорит, что он синьор, уже нельзя будет сослаться на этот закон и придется объяснять на фактах.

Меня кстати всегда преследует ощущение переоценки своей компетентности, но теперь можно не волноваться)

Источник: канал Чартомойка
Фрейморки, борды, темплейты, сколько можно 😵‍💫

За год я произвел какое-то количество тулов для data/bi менеджеров.
Поток этого "творчества" не унять, это побочный продукт основной работы. Но нужно хотя бы структурировать. Вот последние:
- Data & Analytics Maturity Canvas
- BI Adoption guide и темплейт, PDF версия
- Data & Analytics Strategy & Tactics Guide 2.0
- Борд - Почему Data Catalogs не взлетают?
- BI Leader Ramble
- Info Design Songbooks (вместе с Настей)
- Some Dashboards Roasting (вместе с Ромой)

Удачные из них останутся, остальные переродятся во что то другое. Все надо касдевить в этой жизни - напишите в коментах кто чем пользовался.

Не только вам, но и мне требуется усилие, чтобы переварить эти борды, подружить с новыми мыслями и c задачами в работе, убедиться что они реально помогают решать
проблемы. Сложно не скатываться в итоге в инфо-продукты формата so-what и спасибо-кэп.

В том числе для этого я использую свой курс по BI стратегии. Кстати логичнее его переназвать в Разработка Data&Analytics стратегии и тактики, чтоб соответствовало содержанию.
Старт 15 мая, можем взять еще 2-3 человека, кому интересно, пишите. Если коротко - это 3-недельный марафон с длинными встречами по вечерам, "лекциями и домашками", tg-чатом и общением.

🤱Сейчас в работе есть еще несколько новых исследований - будущих Miro бордов, на разных стадиях:
- BI about BI: контент менеджмент гайд о том, что имеет смысл трекать в своей BI системе + примеры дашбордов
- Карта d&a болей: типология проблем разных дата и бизнес ролей + шаблон для воркшопа
- Коллекция шаблонов упражнений для воркшопа по дата/BI стратегии (полноценный экстеншн к этому гайду)
- Data Governance Program Guide 2.0 - сильно переосмысленный и дополненный
- Типология Оргструктур дата команд
- Tableau Report Optimization Guide
- ...

✍️Напишите в коменты, как думаете - в какие темы вложить больше усилий и продвинуть к готовности в первую очередь?
Часть добью и покажу на курсе в мае и потом выведу в паблик. Остальные будут созревать дальше.

#cамореклама
Please open Telegram to view this post
VIEW IN TELEGRAM
Какие вызовы возникают у корпораций при внедрении визуализации данных?

Меня попросили ответить а этот вопрос на конференции, но потом не хватило времени озвучить ответ.
Оставляю здесь свои мысли:

1️⃣ Первая мысль

Большинство data профессионалов не имеют интуитивного чувства, что хорошо и что плохо в визуализации данных. И это неисправимо.
После тренингов по визуализации аналитики учатся создавать разные типы графиков механически, без чувства дизайна.
Стайлгайды и шаблоны помогают избежать создания слишком уродливого контента, делая средний уровень более-менее нормальным.

Но создание высококачественных визуализаций остается исключительным сервисом отдельной команды с фокусом на дизайн.

2️⃣ Вторая мысль

Ценность визуализации данных не очень высока в корпоративном мире.
Она была преувеличена, в основном, Tableau, поскольку это их основное преимущество.
Это вызывает разочарование у аналитиков при начале работы бизнес-дешбординге.
Каждый сначала ищет как «применить» все многообразие чартинга, но потом осознает оптимальные типы графиков для любой метрики.
95% - BANs, бары и таблицы. Нет никакой необходимости их улучшать.
Релевантность аналитики и доверие к ней в разы важнее.
Поэтому я предпочитаю говорить больше например о процессах сертификации контента, чем о визуализации данных.
В ней нет ничего критически важного для бизнес-аналитики.
К сожалению.

3️⃣ И третье:

Качество визуализации - это фактор гигиенический. Оно не должно быть ниже определенного уровня в любом случае.

Поэтому я вижу тренд к вендоров (не у всех) в упрощении BI разработки.
Вместо множества модных экстеншенов для «сложных» графиков у BI-инструментов должен быть набор стандартных строительных блоков и готовых лейаутов.
Это ограничивает визуальное разнообразие, но обеспечивает единый формат (без ручных аудитов), ускоряет разработку и доводит время отклика отчетов на уровень приложений.

И вероятно это правильный тренд.
Please open Telegram to view this post
VIEW IN TELEGRAM
Парадокс Жевона в дата аналитике

Парадокс или Эффект Жевона описал английский экономист Уильям Жевон в 1865 году, изучая влияние улучшений в эффективности использования угля.


Прогресс в области инженерии данных снизил затраты на производство, распространение моделей данных и дашбордов. Задачи, которые раньше требовали недель работы команды из 3-4 BI/Data инженеров, теперь могут быть выполнены одним за несколько дней. Те же Копайлоты дали ощутимый буст времени на написание и аудит кода.

С уменьшением затрат на производство, растет спрос на данные и все их деривативы, что приводит к дальнейшему размножению датасетов и дашбордов.

Поддержание этого множества контента сокращает полученные выгоды: увеличиваются затраты на обслуживание, становится все сложнее для потребителей найти нужную информацию.
Сложность обнаружения и часто низкое качество дата контента стимулирует создание еще большего количества датасетов и дашбордов, поддерживая этот цикл.

Чтобы прервать этот отрицательный цикл, нужно более радикально переосмыслить способ работы, чем просто архивация ненужного:

1. Введение новых абстракций поверх базовых наборов данных. metric store связанный с семантическим слоем помогает повышать переиспользование и адаптацию мастер слоя для бОльшего количества кейсов использования.

2. Дата продукты и связанный с ними процесс сертификации и гавернанса. Создание объектов в местах наибольших пересечений требований разных потребителей и развитие этого слоя на аналитике их потребления.

Мораль: Если не начать эти инициативы сейчас, через 2-3 года вас с командой совсем не будет видно за кучей таблиц и отчетов, к которым добавятся еще и AI/ML модели 😭 😬

Осмыслил пост из Linkedin
Please open Telegram to view this post
VIEW IN TELEGRAM
DataBar - успехом стартовал наш скромный движ для людей про данные и алкоголь

Вместе с Я-Tableau-Бог-Егором и RevealTheData-Ромой таки подавили социофобию и провели первый оффлайн ивент в парке в Амстердаме.

Пришло около 25 незнакомых друг с другом людей из России, Белоруссии, Украины, Марокко, Италии и Индии.
Все пришедшие были в жутком адеквате - аналитики, инженеры и предприниматели. Небольшие стартапы, глобальные компании.

Была идея, что нужно будет как-то развлекать всех, знакомить и модерировать обсуждения, разгоняя темы про AI, данные и аналитику. Рома подготовил пантомиму фасилитацию.
Но народ просто взял пива и начал общаться. Заготовки не пригодились и талант Ромы не был востребован.

Было супер короче. Будем делать второй ивент в июне. Присоединяйтесь кто недалеко.

Следующий 29 июня -
https://www.meetup.com/databar-data-analytics-meetups/

И кстати - недавно по совпадению появился канал крутого Саши Варламова - с таким же названием Data Bar - https://xn--r1a.website/data_bar. Тут ссылки на работы и мысли на премиальном уровне. Каждый пост - интеллектуальный тест на настоящего эксперта продвинутого датавиза. Я прохожу через раз)
Немного пустой философии.
После 10 лет абьюзивных отношений с data governance - поймал себя на том, что начал вешать ярлыки на дата лидеров, с которыми обсуждаю data governance. Вот мой неэтичный топ:

Упорные Идеалисты
Вера в ритуалы и следование им не смотря на сопротивление. Поиск истины в чтении DAMA DMBOK. Упорно попытки понять и внедрять то, как там написано. Верят в медленные изменения. Органичны в бюрократии. Терпимы к неэффективности.

Инфантильные Пессимисты
Видят проблемы, но не думают что могут изменить сопротивление, ссылаясь не положение вещей, и не верят в других, стараются не замечать DG и не говорить о нем.

Технологичные Нигилисты
Игнорирование формальных понятий DG и ритуальных процессов и ролей, но планомерное внедрение "встроенного" управления данными в разные этапы жизненного цикла данных. При этом бегство от сложных вопросов требующих отношений с Бизнесом. Часто это - лиды продвинутых дата платформ в технологических компаниях.

Технологичные Анархисты
Не видят проблем. Агрессивно отрицают необходимость системного управления данными. Всадники дата апокалипсиса в компании. Органичны в стартап культуре. При переходе компании из растущего стартапа в размеренный бизнес, часто не замечают смены приоритетов и тянут назад изменения.

Уставшие Рационалисты
Эволюционная форма отношения к DG основанная на опыте успешных и неудачных тестов разных подходов и практик. Вторичное и третичное переосознание. Отрыв от конвенциональных понятий. Создание кастомного DG фреймворка далекого от учебника с поправкой на зрелость компании, готовность, и реальную пользу. Фокус на сложных проблемах и решениях.
Проблема этого типа - доходя до него люди часто не особо хотят уже заниматься DG.

Есть дополнения?

(тот случай когда использую pie chart по назначению, то есть для фана)
Экспертная фасилитация - как формат аудита и доработки плана развития дата платформы.

Расскажу про интересный проект, который сделали этой весной вместе с мощным Женей Ермаковым (Toloka, ex-Yandex) для одной классной компании.

Задача была буквально:
сделать ревью существующего плана - убрать лишнее, добавить нужное, получив "структурированные рельсы" в виде набора рекомендаций и практик, которые бы подходили непосредственно нам, а не просто набор общемировых практик в вакууме.


Еще для длинного проекта по дата стратегии не было времени ни у нас ни у клиента, поэтому ...изобрели новый формат.

Основные этапы

1. Подготовка - 2-3 уточняющие встречи, подготовка шаблонов для обсуждений
2. Онлайн Воркшопы - 12 человек, 3 сессии по 3 часа по обсуждению ключевых тем. Работа в MIRO, Aнализ болей (описывал шаблон тут), дизайн TO BE решений и проч и проч
3 - Сведение результатов - упаковка инициатив, параметры их внедрения, слайдообразная преза для боссов.

Концепт

В основе идеи лежит наблюдение что весь консалтинг "под ключ" часто оторван от реалий компании, содержит много декларативности. Хотелось это убрать.

В этом формате фасилитатор должен быть сильно в предмете с высокой насмотренностью, при этом рулить групповыми обсуждениями, быстро реагировать, вникать в контексты и набрасывать мысли по ходу.
Делили с Женей роли и было круто.
Было опасение что получится неглубоко, но в итоге клиент доволен.

Мысли

Не склонен переоценивать пользу. Есть такой bias консультанта - ощущение что бог только что спустил на землю откровение и выбрал тебя проводником.

Ребятам (сюрприз) самим нужно будет уже все это реализовывать, но теперь уверенность в роудмапе сильно выше, выше поддержка менеджмента и команды. Больше вдохновения и воли. Важная штука.

Часть из предложенных решений не взлетит из-за проблем, которые мы не рассмотрели.
Будем наблюдать.
Ведь совершенство это не цель, это путь. 🚴‍♂️
Тем более в дата аналитике.

Если кому тема зашла - пишите, расскажу подробнее 🎩

Кому не зашла - перечитайте пост снова 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
Пример как в одном банке массово поиграли в настолку по теме federated data governance.

…игра была с более чем 300 коллегами из финансового домена и домена рисков. Цель - распространить осведомленность и понимание подхода компании к Federated Data Governance Model initiative, критической роли data quality, security, and compliance в организации.

Интересно получилось ли сделать что-то увлекательное само по себе, или это сработало разово и только в принудительном порядке.
Если игру можно закастомить, чтоб там были элементы именно вашей дата платформы, ваши команды и домены и проч - то есть шанс.

В любом случае вдохновляющий прием. Я узнаю игровые механики. Давайте сделаем свою. Звучит как задача.

Кто-то есть из банков с бюджетом ? напишите. Сделаем под вас первую версию.

За ссылку спасибо Пете Травкину.
Новый продукт, новый повод понудеть про новую эру в BI

Databricks по-тихому выпустил свой BI. Но не простой. Назвали AI/BI Genie. Продукт умеет и в дашборды, но интересен в нём именно Generative AI.
Databricks, пожалуй, самая мощная в мире cloud дата-платформа, теперь закрывает BI пробел.
В основе лежит экспертиза Mosaic AI (куплен год назад за 1,3 млрд долларов).

Попытался понять, что уникального в этом релизе Databricks. Вот мысли:

Когда традиционные BI-вендоры создают Conversational BI в чатах, они часто делают это красиво, но не интероперабельно. Они опираются на свой дата-слой, который в BI всегда слабый. Семантический слой, как правило, отсутствует или выполнен поверхностно (исключение - Looker). Взаимодействие с внешним слоем метрик и метаданными хранилища у таких решений также поверхностное. Вот ThoughtSpot + dbt обещали что-то супернативное, но пока затихли.

Databricks, имея всё необходимое у себя — Lakehouse, Unity Catalog (дефолтный метадатастор и админка), свою трансформацию и семантический слой (yaml-файлы, определяющие метрики и связывающие физические и логические метаданные), имеет все, чтобы сделать наиболее качественный путь text->SQL->text->Viz.
Условно не нужно будет ничего, если все компоненты платформы настроены.

Главная проблема семантических моделей в том, что их нужно кому-то строить. Инженеры не умеют в бизнес-логику, а бизнес-аналитиков трудно принудить. В итоге настоящий семантический слой живет в сотнях голов разработчиков, а все попытки его зафиксировать отстают.
AI Databricks, как я понимаю, сам создаёт собственную доработанную семантическую модель, опираясь на действия пользователей и их фидбек поверх метаданных и метрик, взятых из платформы данных. Интересно, что AI просит тебя рассказать о метрике, если сам её не знает. (Кто-то точно будет над ним издеваться или неумышленно давать просто неверные знания)

Эту модель можно обучать, предзаписывая в неё промты и запросы в отношении конкретных доменов.

Идеальный путь, к которому это идёт — AI будет работать как аналитик, самостоятельно строить семантический слой и уточнять у команды: "я правильно понимаю, эта метрика определяется таким кодом и текущим значением?", а "эта её вариация — вот этим?", а дата-команда будет ему говорить: "да, да, нет, нет".

Другой плюс — сквозная безопасность на уровне Unity позволяет AI-BI давать ответы исходя из доступов пользователя, исключая необходимость доп настроек. То есть если согласован сам Databricks, дальше уже к безопасникам ходить не надо.

Лицензий отдельных вроде как нет. Но есть требования к компонентам.

Как итог, в таком сетапе - Databricks наверняка будет иметь все для самого цельного на рынке решения.

Однако остаётся вопрос: станет ли в итоге BI чат-бот (даже в идеальном свом воплощении) дополнением к производству и потреблению привычных отчётов, или дашборды останутся придатком к мейнстримному интерфейсу чат-бота?

Что думаете?
Я уже писал про плюсы и минусы Self-Service и Centralized моделей в аналитике.

Еще одна мысль пришла в проекте. Вслед.
Такая занудная мысль, что большинство ее не дочитают.

Вот она.

Есть соблазн - считать что тренды идут друг за другом и им просто нужно следовать.
Но вернее будет сказать, что одновременно есть разнонаправленные тренды в компании.
И их сила меняется в процессе эволюции дата культуры этой конкретной компании. Так происходит в нашем любимом вопросе Self-Service vs Centralized.

Пример.

Любая компания обнаруживает себя в определенный момент перед вакуумом ответственности за данные.

Встает вопрос - возложить ответственность за управление
▪️ на бизнес домены, создавая в них инженерно-аналитические команды
▪️ на дата платформу, наращивая экспертизу в центральных DWH и BI командах

Оба решения можно принять с повернуть в одну и другую сторону.

Но есть нюанс, наблюдаемый в физическом мире:

Успешная децентрализация происходит только после качественной централизации.

Компании часто пропускают этот шаг, в итоге домены, получая автономию, не играют по правилам.
Общий гавернанс не формируются или отторгается.

Создавая сначала цельные процессы управления жизненным циклом данных, настраивая сервисы, найм и обучение, и проч - ты используешь все это как базу для децентрализации, хотя вернее сказать федерализации.

Поэтому возникает парадокс. Перед любым дата мешем имеет смысл минимум 3 года заниматься хардовой централизацией. А потом уже думать нужен будет вам дата меш, и в какой степени.

(датамэш или датамеш, мем или мэм 🤔)

🅿️ Эти и другие мысли по теме паркую тут:
https://miro.com/app/board/o9J_lha8MnM=/
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда долго смотришь на джазовый оркестр - выходишь на аналогию с аналитической командой.

Джаз хорош как аналогия еще и потому, что джем неповторим, но подготовлен как удачный аналитический проект. И там и там есть и строгая базовая часть и импровизация.
И там и там есть синьоры берущие сложные партии.
Ударные, гитара и контрабас дают основу как дата инженеры. Тромбоны, трубы и саксофоны дают форму как BI разрабы.

В джазе нет дирижера, есть аранжировщик/бэндлидер. Отличное определение. Сергей на видео дает драйв как бодрый тимлид на сонном планинге в понедельник.

Как вы поняли - я не шарю за джаз. Но я в отпуске.
А на видео - Mussorgsky Jazz Orchestra п/у Сергея Богданова.

С кем еще не выпил в Питере за неделю - напишите.
Всем среды!