Data Nature 🕊
6K subscribers
385 photos
6 videos
3 files
197 links
Канал о жизни BI аналитики и инфо-дизайна в корп реалиях с фокусом на работающих практиках управления.
Веду как летопись полезного для себя и людей с такими же неврозами.

александр бараков @alexbarakov
datanature.ru
data-nature.com

(рекламу не размещаю)
Download Telegram
DataBar - успехом стартовал наш скромный движ для людей про данные и алкоголь

Вместе с Я-Tableau-Бог-Егором и RevealTheData-Ромой таки подавили социофобию и провели первый оффлайн ивент в парке в Амстердаме.

Пришло около 25 незнакомых друг с другом людей из России, Белоруссии, Украины, Марокко, Италии и Индии.
Все пришедшие были в жутком адеквате - аналитики, инженеры и предприниматели. Небольшие стартапы, глобальные компании.

Была идея, что нужно будет как-то развлекать всех, знакомить и модерировать обсуждения, разгоняя темы про AI, данные и аналитику. Рома подготовил пантомиму фасилитацию.
Но народ просто взял пива и начал общаться. Заготовки не пригодились и талант Ромы не был востребован.

Было супер короче. Будем делать второй ивент в июне. Присоединяйтесь кто недалеко.

Следующий 29 июня -
https://www.meetup.com/databar-data-analytics-meetups/

И кстати - недавно по совпадению появился канал крутого Саши Варламова - с таким же названием Data Bar - https://xn--r1a.website/data_bar. Тут ссылки на работы и мысли на премиальном уровне. Каждый пост - интеллектуальный тест на настоящего эксперта продвинутого датавиза. Я прохожу через раз)
Немного пустой философии.
После 10 лет абьюзивных отношений с data governance - поймал себя на том, что начал вешать ярлыки на дата лидеров, с которыми обсуждаю data governance. Вот мой неэтичный топ:

Упорные Идеалисты
Вера в ритуалы и следование им не смотря на сопротивление. Поиск истины в чтении DAMA DMBOK. Упорно попытки понять и внедрять то, как там написано. Верят в медленные изменения. Органичны в бюрократии. Терпимы к неэффективности.

Инфантильные Пессимисты
Видят проблемы, но не думают что могут изменить сопротивление, ссылаясь не положение вещей, и не верят в других, стараются не замечать DG и не говорить о нем.

Технологичные Нигилисты
Игнорирование формальных понятий DG и ритуальных процессов и ролей, но планомерное внедрение "встроенного" управления данными в разные этапы жизненного цикла данных. При этом бегство от сложных вопросов требующих отношений с Бизнесом. Часто это - лиды продвинутых дата платформ в технологических компаниях.

Технологичные Анархисты
Не видят проблем. Агрессивно отрицают необходимость системного управления данными. Всадники дата апокалипсиса в компании. Органичны в стартап культуре. При переходе компании из растущего стартапа в размеренный бизнес, часто не замечают смены приоритетов и тянут назад изменения.

Уставшие Рационалисты
Эволюционная форма отношения к DG основанная на опыте успешных и неудачных тестов разных подходов и практик. Вторичное и третичное переосознание. Отрыв от конвенциональных понятий. Создание кастомного DG фреймворка далекого от учебника с поправкой на зрелость компании, готовность, и реальную пользу. Фокус на сложных проблемах и решениях.
Проблема этого типа - доходя до него люди часто не особо хотят уже заниматься DG.

Есть дополнения?

(тот случай когда использую pie chart по назначению, то есть для фана)
Экспертная фасилитация - как формат аудита и доработки плана развития дата платформы.

Расскажу про интересный проект, который сделали этой весной вместе с мощным Женей Ермаковым (Toloka, ex-Yandex) для одной классной компании.

Задача была буквально:
сделать ревью существующего плана - убрать лишнее, добавить нужное, получив "структурированные рельсы" в виде набора рекомендаций и практик, которые бы подходили непосредственно нам, а не просто набор общемировых практик в вакууме.


Еще для длинного проекта по дата стратегии не было времени ни у нас ни у клиента, поэтому ...изобрели новый формат.

Основные этапы

1. Подготовка - 2-3 уточняющие встречи, подготовка шаблонов для обсуждений
2. Онлайн Воркшопы - 12 человек, 3 сессии по 3 часа по обсуждению ключевых тем. Работа в MIRO, Aнализ болей (описывал шаблон тут), дизайн TO BE решений и проч и проч
3 - Сведение результатов - упаковка инициатив, параметры их внедрения, слайдообразная преза для боссов.

Концепт

В основе идеи лежит наблюдение что весь консалтинг "под ключ" часто оторван от реалий компании, содержит много декларативности. Хотелось это убрать.

В этом формате фасилитатор должен быть сильно в предмете с высокой насмотренностью, при этом рулить групповыми обсуждениями, быстро реагировать, вникать в контексты и набрасывать мысли по ходу.
Делили с Женей роли и было круто.
Было опасение что получится неглубоко, но в итоге клиент доволен.

Мысли

Не склонен переоценивать пользу. Есть такой bias консультанта - ощущение что бог только что спустил на землю откровение и выбрал тебя проводником.

Ребятам (сюрприз) самим нужно будет уже все это реализовывать, но теперь уверенность в роудмапе сильно выше, выше поддержка менеджмента и команды. Больше вдохновения и воли. Важная штука.

Часть из предложенных решений не взлетит из-за проблем, которые мы не рассмотрели.
Будем наблюдать.
Ведь совершенство это не цель, это путь. 🚴‍♂️
Тем более в дата аналитике.

Если кому тема зашла - пишите, расскажу подробнее 🎩

Кому не зашла - перечитайте пост снова 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
Пример как в одном банке массово поиграли в настолку по теме federated data governance.

…игра была с более чем 300 коллегами из финансового домена и домена рисков. Цель - распространить осведомленность и понимание подхода компании к Federated Data Governance Model initiative, критической роли data quality, security, and compliance в организации.

Интересно получилось ли сделать что-то увлекательное само по себе, или это сработало разово и только в принудительном порядке.
Если игру можно закастомить, чтоб там были элементы именно вашей дата платформы, ваши команды и домены и проч - то есть шанс.

В любом случае вдохновляющий прием. Я узнаю игровые механики. Давайте сделаем свою. Звучит как задача.

Кто-то есть из банков с бюджетом ? напишите. Сделаем под вас первую версию.

За ссылку спасибо Пете Травкину.
Новый продукт, новый повод понудеть про новую эру в BI

Databricks по-тихому выпустил свой BI. Но не простой. Назвали AI/BI Genie. Продукт умеет и в дашборды, но интересен в нём именно Generative AI.
Databricks, пожалуй, самая мощная в мире cloud дата-платформа, теперь закрывает BI пробел.
В основе лежит экспертиза Mosaic AI (куплен год назад за 1,3 млрд долларов).

Попытался понять, что уникального в этом релизе Databricks. Вот мысли:

Когда традиционные BI-вендоры создают Conversational BI в чатах, они часто делают это красиво, но не интероперабельно. Они опираются на свой дата-слой, который в BI всегда слабый. Семантический слой, как правило, отсутствует или выполнен поверхностно (исключение - Looker). Взаимодействие с внешним слоем метрик и метаданными хранилища у таких решений также поверхностное. Вот ThoughtSpot + dbt обещали что-то супернативное, но пока затихли.

Databricks, имея всё необходимое у себя — Lakehouse, Unity Catalog (дефолтный метадатастор и админка), свою трансформацию и семантический слой (yaml-файлы, определяющие метрики и связывающие физические и логические метаданные), имеет все, чтобы сделать наиболее качественный путь text->SQL->text->Viz.
Условно не нужно будет ничего, если все компоненты платформы настроены.

Главная проблема семантических моделей в том, что их нужно кому-то строить. Инженеры не умеют в бизнес-логику, а бизнес-аналитиков трудно принудить. В итоге настоящий семантический слой живет в сотнях голов разработчиков, а все попытки его зафиксировать отстают.
AI Databricks, как я понимаю, сам создаёт собственную доработанную семантическую модель, опираясь на действия пользователей и их фидбек поверх метаданных и метрик, взятых из платформы данных. Интересно, что AI просит тебя рассказать о метрике, если сам её не знает. (Кто-то точно будет над ним издеваться или неумышленно давать просто неверные знания)

Эту модель можно обучать, предзаписывая в неё промты и запросы в отношении конкретных доменов.

Идеальный путь, к которому это идёт — AI будет работать как аналитик, самостоятельно строить семантический слой и уточнять у команды: "я правильно понимаю, эта метрика определяется таким кодом и текущим значением?", а "эта её вариация — вот этим?", а дата-команда будет ему говорить: "да, да, нет, нет".

Другой плюс — сквозная безопасность на уровне Unity позволяет AI-BI давать ответы исходя из доступов пользователя, исключая необходимость доп настроек. То есть если согласован сам Databricks, дальше уже к безопасникам ходить не надо.

Лицензий отдельных вроде как нет. Но есть требования к компонентам.

Как итог, в таком сетапе - Databricks наверняка будет иметь все для самого цельного на рынке решения.

Однако остаётся вопрос: станет ли в итоге BI чат-бот (даже в идеальном свом воплощении) дополнением к производству и потреблению привычных отчётов, или дашборды останутся придатком к мейнстримному интерфейсу чат-бота?

Что думаете?
Я уже писал про плюсы и минусы Self-Service и Centralized моделей в аналитике.

Еще одна мысль пришла в проекте. Вслед.
Такая занудная мысль, что большинство ее не дочитают.

Вот она.

Есть соблазн - считать что тренды идут друг за другом и им просто нужно следовать.
Но вернее будет сказать, что одновременно есть разнонаправленные тренды в компании.
И их сила меняется в процессе эволюции дата культуры этой конкретной компании. Так происходит в нашем любимом вопросе Self-Service vs Centralized.

Пример.

Любая компания обнаруживает себя в определенный момент перед вакуумом ответственности за данные.

Встает вопрос - возложить ответственность за управление
▪️ на бизнес домены, создавая в них инженерно-аналитические команды
▪️ на дата платформу, наращивая экспертизу в центральных DWH и BI командах

Оба решения можно принять с повернуть в одну и другую сторону.

Но есть нюанс, наблюдаемый в физическом мире:

Успешная децентрализация происходит только после качественной централизации.

Компании часто пропускают этот шаг, в итоге домены, получая автономию, не играют по правилам.
Общий гавернанс не формируются или отторгается.

Создавая сначала цельные процессы управления жизненным циклом данных, настраивая сервисы, найм и обучение, и проч - ты используешь все это как базу для децентрализации, хотя вернее сказать федерализации.

Поэтому возникает парадокс. Перед любым дата мешем имеет смысл минимум 3 года заниматься хардовой централизацией. А потом уже думать нужен будет вам дата меш, и в какой степени.

(датамэш или датамеш, мем или мэм 🤔)

🅿️ Эти и другие мысли по теме паркую тут:
https://miro.com/app/board/o9J_lha8MnM=/
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда долго смотришь на джазовый оркестр - выходишь на аналогию с аналитической командой.

Джаз хорош как аналогия еще и потому, что джем неповторим, но подготовлен как удачный аналитический проект. И там и там есть и строгая базовая часть и импровизация.
И там и там есть синьоры берущие сложные партии.
Ударные, гитара и контрабас дают основу как дата инженеры. Тромбоны, трубы и саксофоны дают форму как BI разрабы.

В джазе нет дирижера, есть аранжировщик/бэндлидер. Отличное определение. Сергей на видео дает драйв как бодрый тимлид на сонном планинге в понедельник.

Как вы поняли - я не шарю за джаз. Но я в отпуске.
А на видео - Mussorgsky Jazz Orchestra п/у Сергея Богданова.

С кем еще не выпил в Питере за неделю - напишите.
Всем среды!
БиАйГрафия - серия коротких интервью с BI лидерами

Я люблю общение в профессии.
За барной стойкой или в онлайне на курсе.
Много креативных людей/команд сейчас делают топовые вещи, делятся и вдохновляют других.
Так работает здоровая коммуникация в сообществе.
Так я узнал, что наш BI проект не самый крутой в мире, а только один из самых крутых.

И вот ощутил я еле уловимый позыв к журналистике.
Конечно есть
- много статей на хабре и vc
- хорошие корпоративные каналы, где выделяются - авито, тинек.
- каналы-конференции, которые часть выступлений дают в паблик - например smartdata, матемаркетинг.
- еще и подкасты - вот ребята из datacoffee и karpov.courses фигачат инсайты как не в себя.
Везде много хорошего - только успевай слушать.

Мне же тут хочется показать BI в лицах, в виде коротких историй о мощных дата аналитических менеджерах - как активных спикерах так и непубличных людях, тихо мастерящих крутые BI проекты.
Дать ощущение, что несмотря на то, что все разные - есть единство проблем и много идей по их решению. Показать "как бывает у других" и "что не боги горшки обжигают".. вот это вот все, и как итог - вдохновить людей на развитие и обмен практиками.

Никакой рекламы или иных задач кроме озвученных выше.

Встречайте серию коротких интервью с BI лидерами по тегу #БиАйГрафия:

Выпуск #1 - Ринат Хабибрахманов (Лемана ПРО - Леруа Мерлен)
Выпуск #2 - Максим Иванов (Finyard)
Выпуск #3 - Антон Клюге (Лига Ставок)
Выпуск #4 - Наталья Любимова (T-Bank)
Выпуск #5 - Настя Кузнецова (Semrush)
...
Продолжение следует
#БиАйГрафия - Серия коротких интервью с BI лидерами, подробнее

Выпуск #1 - Ринат Хабибрахманов

🏠Компания: Лемана ПРО (Леруа Мерлен)
📍Локация: Самара
👤Должность: Руководитель практики BI
💬Контакт: телега, linkedin
Стек:
⚡️Power BI - Основной
⚡️Tableau, 10% отчетов, без перспектив масштабирования
⚡️Самописный сервис grafana+clickhouse с историей по продажам
⚡️К началу 2025 + Российский BI тул

Ответы на 6 вопросов ➡️
Please open Telegram to view this post
VIEW IN TELEGRAM
(Ринат Хабибрахманов - Часть 1)

Какие 1 - 3 главные проблемы - боли есть у вашего BI проекта сейчас?


1. Все проблемы, присущие негативной стороне self service подхода:
shadow data -> игнорирование норм и стандартов -> бардак в проде -> дубли отчетов, отсутствие единой точки правды, низкое качество отчетов, влияющее на производительность BI сервиса -> недовольство пользователей, нет ясности каким отчетам можно верить.
Лечим так:
- уже запустили процесс ревью отчетов версии 1, в процессе - ревью отчетов 2.0, где часть проверок будет автоматизирована;
- есть навигатор отчетов, позволяющий ориентироваться в массе всех созданных инструментов;
- в процессе запуска - сертификация отчетов - знак качества, показывающий что отчету можно доверять.

2. Низкая производительность сервиса + отсутствие поддержки.
Лечим так:
- менеджер сервиса в процессе постоянной оптимизации сервиса, но скоро уткнемся в предел, который потребует полностью пересмотреть архитектуру и подходы к публикации отчетов;
- входящее ревью, которое помогает исключать отчеты содержащие классические антипаттерны, съедающие ресурсы;
- поиск нового сервиса, который в перспективе либо заменит текущий сервис, либо заберет на себя часть нагрузки.

3. Пользователи, которые продолжают выгружать все в Excel😂

Что тебе нравится в работе ? Что дает тебе силы продолжать двигаться вперед и вести за собой ?

Изначально мне нравится создавать инструменты, помогающие быть эффективным и быстро принимать верные решения. Сейчас, когда я уже не создаю сам аналитические инструменты, вдохновляюсь людьми, которые на моих глазах растут в компетенциях, которые помимо своей работы находят возможность участвовать в мета-проектах, делающих наш BI ландшафт лучше, которые меняют вместе c нами наш маленький BI мир и делают его более комфортным и правильным, помогая нашему бизнесу двигаться вперед.
Ну и, конечно же, результаты, c каждым завершенным проектом, c каждой новой благодарностью за улучшение наших сервисов хочется сделать что-то ещё, чтобы быть лучше.

Что самое крутое ты и твоя команда сделали за последнее время?
Опиши коротко суть


Школа BI. Написали программу подготовки "с нуля до джуна BI", нашли 9 ребят из бизнеса, кто наиболее продвинут и перспективен в работе c данными, c командой наставников провели их через нашу программу (из 9 до конца дошли 6). Сейчас эти ребята в кадровом резерве, они понимают бизнес + обладают базовыми hard skills (бизнес-анализ, SQL, Power BI, датавиз, наши внутренние нормы и стандарты). На них уже есть запрос, так как периодически нам нужны джуны: кого-то мы уже устроили, кто-то ещё ждёт своего часа.

Какие 1-3 инициативы развития вы сейчас драйвите в команде?

1. Сертификация отчетов.
2. Приложение RepApp – сервис, который объединит заказчиков и разработчиков в одном месте. Там планируется широкий функционал, но из основного это:
- любой бизнес пользователь может через приложение сообщить о потребностях в аналитических инструментах,
- дата-партнер будет перенаправлять запросы в соответствующую команду,
- вопрос либо будет закрываться, так как, скорее всего, инструмент уже есть и пользователь просто его не нашел, либо будет падать в бэклог,
- разработчик в этом приложении будет идти четко по процессу разработки, некий микс трекера и вики
- и много чего ещё, но это целая отдельная история☺️
3. Поиск решения для конструктора отчетов – сервис, в котором пользователь сможет самостоятельно собрать нужные ему данные.

——- Формальные вопросы для бенчмарков ——-

Каков размер BI практики в вашей компании?
Сейчас 40 профессиональных bi-щиков.
+ около 90 прочих сотрудников, кто делает отчёты разного уровня, в том числе продвинутые бизнес пользователи.

Сколько бизнес-пользователей у Вашей BI системы ? Какой процент из них заходит в BI как минимум раз в месяц?

Потенциально мы ожидаем, что все наши 45 000 сотрудников будут пользоваться отчетами, показывающими результаты из их области ответственности.
Но по факту уникальных пользователей за последние 30 дней примерно 16 тысяч, за последние 90 дней - 20 тысяч.


Круто. Спасибо, Ринат, что поделился!

#БиАйГрафия
Бодрое утро у людей:
Еще один плюс работы в Табло клауде, "пришел" ты на работу, а тут такое, и все что ты можешь сделать - это налить себе кофе и расслабиться :) Максим Иванов (@mac_seem)

🔽
❗️Сбой в работе облачной платформы для хранения данных Microsoft Azure стал причиной отмены как минимум 130 и задержки более 200 рейсов американских авиакомпаний, сообщил телеканал CNN.

🔽
Таблошники пишут такое в инциденте - Initial investigations suggest that the issue is due to a third-party vendor’s issue. The team is coordinating with the vendor to investigate further. Максим Иванов (@mac_seem)


Да.. Облака - белогривые лошадки.
Такое похоже у большинства клауд вендоров.
Интересно хватит у них денег покрыть все иски.
"А выводы вы как всегда делаете сами"
Как же сложно будет теперь лоббировать клауд

Продолжаем следить
https://status.salesforce.com/current
Please open Telegram to view this post
VIEW IN TELEGRAM
«Тема дата гавернанс хороша пока ее не трогаешь» ©️Евгений Ермаков

🎙️Лампово поговорили с data coffee о data governance

Ребята застали меня в низкой точке веры в data governance и обманом вовлекли в разговор вместо BI и аналитики 🫢

Получилось немного тяжело, но как есть.
Кто в теме возможно послушает и найдет таки для себя пользу.
(Как всегда рекомендую ускорять воспроизведение)

Гайз @datacoffee - спасибо за приглашение и дайте потом мне еще шанс - про BI я могу говорить в 3 раза быстрее и веселее )

Идея Жени описать bullshit-free “data governance для стартапа” - отличная.
До конца года осмыслю и нарисую что-то.

🗺️ В конце выпуска упоминаю miro-борд по data governance - ссылка.
До конца лета будет полностью новая его версия. Зреет 🌱
Please open Telegram to view this post
VIEW IN TELEGRAM
Дата Каталог при покрытии описанием 30% объектов отбивает затраты за 2 квартала, при покрытии 50% уже в первом квартале.

Я тут упомянул про анализ окупаемости дата каталога на цифрах, который мне показался честным и наглядным.
Его автор - Александр Платонов (telegram, linkedin) пошарил презу и я ее выкладываю здесь с его согласия (см. файл в первом комментарии)

Много вопросов можно накидать к этим расчетам, да тут остается немало допущений.
Скорее всего уровень сложности здесь диктуется готовностью менеджмента вникать - сложнее - и уже никто бы не стал.
В конце концов, такое упражнение делают чтобы совершить внутреннюю продажу проекта и потом редко повторяют.

Но я не удержусь от размышлений поверх презы:

- Затраты и усилия возникают у одних людей в компании, ценность в виде экономии времени у других. И между ними часто бюджетная стена. Это первое препятствие на любом пути к продаже идеи каталога

- Экономия времени на data discovery и t2m нематериальна, она упирается скорее всего в операционный предел следующих этапов - доступность заказчика к взаимодействию, производительность дата инженеров и т.д. (мысль Жени Ермакова). Затраты на сам каталог и документирование абсолютно реальны, а сейвинги в большой степени растворяются. Было бы круто увидеть доходимость эффекта на t2m всего цикла дата проекта и как следствие повышение кпд всей фабрики инсайтов или сокращении необходимого штата дата аналитиков...

- Ну и совсем придираясь, замечу что в расчете есть затраты на разовое документирование, но не видны затраты на поддержание их актуальными. Ну и в каталог с описанием 30% аудитория не будет ходить 2 квартала - будет быстрое затухание трафика после первого всплеска.

И тем не менее это редкий пример попытки реального замера. Надеюсь вдохновит кого то повторить и улучшить.

Пример другого анализа - The Total Economic Impact Of The Alation Data Catalog. Пятилетней давности документ, но все еще актуально.
Еще вот такая статья хорошая своей понятностью, хоть и вендорская.

У кого то есть еще примеры по теме?