Классная статья (перевод) про то, что «эффект Даннинга-Крюгера» булшит.
Это было заманчивое обоснование для интеллектуалов возвысить себя над другими.
Забавно, что в итоге авторы исследования подтвердили свой эффект, но не данными, а своей ошибкой, переоценив свою компетентность.
Теперь, когда приходит джун и говорит, что он синьор, уже нельзя будет сослаться на этот закон и придется объяснять на фактах.
Меня кстати всегда преследует ощущение переоценки своей компетентности, но теперь можно не волноваться)
Источник: канал Чартомойка
Эффект в том, что неквалифицированные люди склонны переоценивать свою компетентность.
Это было заманчивое обоснование для интеллектуалов возвысить себя над другими.
Забавно, что в итоге авторы исследования подтвердили свой эффект, но не данными, а своей ошибкой, переоценив свою компетентность.
Теперь, когда приходит джун и говорит, что он синьор, уже нельзя будет сослаться на этот закон и придется объяснять на фактах.
Меня кстати всегда преследует ощущение переоценки своей компетентности, но теперь можно не волноваться)
Источник: канал Чартомойка
rationalnumbers.ru
Эффект Даннинга-Крюгера — автокорреляция
Перевод статьи Блейра Фикса
Фрейморки, борды, темплейты, сколько можно 😵💫
За год я произвел какое-то количество тулов для data/bi менеджеров.
Поток этого "творчества" не унять, это побочный продукт основной работы. Но нужно хотя бы структурировать. Вот последние:
- Data & Analytics Maturity Canvas
- BI Adoption guide и темплейт, PDF версия
- Data & Analytics Strategy & Tactics Guide 2.0
- Борд - Почему Data Catalogs не взлетают?
- BI Leader Ramble
- Info Design Songbooks (вместе с Настей)
- Some Dashboards Roasting (вместе с Ромой)
Удачные из них останутся, остальные переродятся во что то другое. Все надо касдевить в этой жизни - напишите в коментах кто чем пользовался.
Не только вам, но и мне требуется усилие, чтобы переварить эти борды, подружить с новыми мыслями и c задачами в работе, убедиться что они реально помогают решать
проблемы. Сложно не скатываться в итоге в инфо-продукты формата so-what и спасибо-кэп.
В том числе для этого я использую свой курс по BI стратегии. Кстати логичнее его переназвать в Разработка Data&Analytics стратегии и тактики, чтоб соответствовало содержанию.
Старт 15 мая, можем взять еще 2-3 человека, кому интересно, пишите. Если коротко - это 3-недельный марафон с длинными встречами по вечерам, "лекциями и домашками", tg-чатом и общением.
🤱Сейчас в работе есть еще несколько новых исследований - будущих Miro бордов, на разных стадиях:
- BI about BI: контент менеджмент гайд о том, что имеет смысл трекать в своей BI системе + примеры дашбордов
- Карта d&a болей: типология проблем разных дата и бизнес ролей + шаблон для воркшопа
- Коллекция шаблонов упражнений для воркшопа по дата/BI стратегии (полноценный экстеншн к этому гайду)
- Data Governance Program Guide 2.0 - сильно переосмысленный и дополненный
- Типология Оргструктур дата команд
- Tableau Report Optimization Guide
- ...
✍️ Напишите в коменты, как думаете - в какие темы вложить больше усилий и продвинуть к готовности в первую очередь?
Часть добью и покажу на курсе в мае и потом выведу в паблик. Остальные будут созревать дальше.
#cамореклама
За год я произвел какое-то количество тулов для data/bi менеджеров.
Поток этого "творчества" не унять, это побочный продукт основной работы. Но нужно хотя бы структурировать. Вот последние:
- Data & Analytics Maturity Canvas
- BI Adoption guide и темплейт, PDF версия
- Data & Analytics Strategy & Tactics Guide 2.0
- Борд - Почему Data Catalogs не взлетают?
- BI Leader Ramble
- Info Design Songbooks (вместе с Настей)
- Some Dashboards Roasting (вместе с Ромой)
Удачные из них останутся, остальные переродятся во что то другое. Все надо касдевить в этой жизни - напишите в коментах кто чем пользовался.
Не только вам, но и мне требуется усилие, чтобы переварить эти борды, подружить с новыми мыслями и c задачами в работе, убедиться что они реально помогают решать
проблемы. Сложно не скатываться в итоге в инфо-продукты формата so-what и спасибо-кэп.
В том числе для этого я использую свой курс по BI стратегии. Кстати логичнее его переназвать в Разработка Data&Analytics стратегии и тактики, чтоб соответствовало содержанию.
Старт 15 мая, можем взять еще 2-3 человека, кому интересно, пишите. Если коротко - это 3-недельный марафон с длинными встречами по вечерам, "лекциями и домашками", tg-чатом и общением.
🤱Сейчас в работе есть еще несколько новых исследований - будущих Miro бордов, на разных стадиях:
- BI about BI: контент менеджмент гайд о том, что имеет смысл трекать в своей BI системе + примеры дашбордов
- Карта d&a болей: типология проблем разных дата и бизнес ролей + шаблон для воркшопа
- Коллекция шаблонов упражнений для воркшопа по дата/BI стратегии (полноценный экстеншн к этому гайду)
- Data Governance Program Guide 2.0 - сильно переосмысленный и дополненный
- Типология Оргструктур дата команд
- Tableau Report Optimization Guide
- ...
Часть добью и покажу на курсе в мае и потом выведу в паблик. Остальные будут созревать дальше.
#cамореклама
Please open Telegram to view this post
VIEW IN TELEGRAM
Какие вызовы возникают у корпораций при внедрении визуализации данных?
Меня попросили ответить а этот вопрос на конференции, но потом не хватило времени озвучить ответ.
Оставляю здесь свои мысли:
1️⃣ Первая мысль
Большинство data профессионалов не имеют интуитивного чувства, что хорошо и что плохо в визуализации данных. И это неисправимо.
После тренингов по визуализации аналитики учатся создавать разные типы графиков механически, без чувства дизайна.
Стайлгайды и шаблоны помогают избежать создания слишком уродливого контента, делая средний уровень более-менее нормальным.
Но создание высококачественных визуализаций остается исключительным сервисом отдельной команды с фокусом на дизайн.
2️⃣ Вторая мысль
Ценность визуализации данных не очень высока в корпоративном мире.
Она была преувеличена, в основном, Tableau, поскольку это их основное преимущество.
Это вызывает разочарование у аналитиков при начале работы бизнес-дешбординге.
Каждый сначала ищет как «применить» все многообразие чартинга, но потом осознает оптимальные типы графиков для любой метрики.
95% - BANs, бары и таблицы. Нет никакой необходимости их улучшать.
Релевантность аналитики и доверие к ней в разы важнее.
Поэтому я предпочитаю говорить больше например о процессах сертификации контента, чем о визуализации данных.
В ней нет ничего критически важного для бизнес-аналитики.
К сожалению.
3️⃣ И третье:
Качество визуализации - это фактор гигиенический. Оно не должно быть ниже определенного уровня в любом случае.
Поэтому я вижу тренд к вендоров (не у всех) в упрощении BI разработки.
Вместо множества модных экстеншенов для «сложных» графиков у BI-инструментов должен быть набор стандартных строительных блоков и готовых лейаутов.
Это ограничивает визуальное разнообразие, но обеспечивает единый формат (без ручных аудитов), ускоряет разработку и доводит время отклика отчетов на уровень приложений.
И вероятно это правильный тренд.
Меня попросили ответить а этот вопрос на конференции, но потом не хватило времени озвучить ответ.
Оставляю здесь свои мысли:
Большинство data профессионалов не имеют интуитивного чувства, что хорошо и что плохо в визуализации данных. И это неисправимо.
После тренингов по визуализации аналитики учатся создавать разные типы графиков механически, без чувства дизайна.
Стайлгайды и шаблоны помогают избежать создания слишком уродливого контента, делая средний уровень более-менее нормальным.
Но создание высококачественных визуализаций остается исключительным сервисом отдельной команды с фокусом на дизайн.
Ценность визуализации данных не очень высока в корпоративном мире.
Она была преувеличена, в основном, Tableau, поскольку это их основное преимущество.
Это вызывает разочарование у аналитиков при начале работы бизнес-дешбординге.
Каждый сначала ищет как «применить» все многообразие чартинга, но потом осознает оптимальные типы графиков для любой метрики.
95% - BANs, бары и таблицы. Нет никакой необходимости их улучшать.
Релевантность аналитики и доверие к ней в разы важнее.
Поэтому я предпочитаю говорить больше например о процессах сертификации контента, чем о визуализации данных.
В ней нет ничего критически важного для бизнес-аналитики.
К сожалению.
Качество визуализации - это фактор гигиенический. Оно не должно быть ниже определенного уровня в любом случае.
Поэтому я вижу тренд к вендоров (не у всех) в упрощении BI разработки.
Вместо множества модных экстеншенов для «сложных» графиков у BI-инструментов должен быть набор стандартных строительных блоков и готовых лейаутов.
Это ограничивает визуальное разнообразие, но обеспечивает единый формат (без ручных аудитов), ускоряет разработку и доводит время отклика отчетов на уровень приложений.
И вероятно это правильный тренд.
Please open Telegram to view this post
VIEW IN TELEGRAM
Парадокс Жевона в дата аналитике
Прогресс в области инженерии данных снизил затраты на производство, распространение моделей данных и дашбордов. Задачи, которые раньше требовали недель работы команды из 3-4 BI/Data инженеров, теперь могут быть выполнены одним за несколько дней. Те же Копайлоты дали ощутимый буст времени на написание и аудит кода.
С уменьшением затрат на производство, растет спрос на данные и все их деривативы, что приводит к дальнейшему размножению датасетов и дашбордов.
Поддержание этого множества контента сокращает полученные выгоды: увеличиваются затраты на обслуживание, становится все сложнее для потребителей найти нужную информацию.
Сложность обнаружения и часто низкое качество дата контента стимулирует создание еще большего количества датасетов и дашбордов, поддерживая этот цикл.
Чтобы прервать этот отрицательный цикл, нужно более радикально переосмыслить способ работы, чем просто архивация ненужного:
1. Введение новых абстракций поверх базовых наборов данных. metric store связанный с семантическим слоем помогает повышать переиспользование и адаптацию мастер слоя для бОльшего количества кейсов использования.
2. Дата продукты и связанный с ними процесс сертификации и гавернанса. Создание объектов в местах наибольших пересечений требований разных потребителей и развитие этого слоя на аналитике их потребления.
Мораль: Если не начать эти инициативы сейчас, через 2-3 года вас с командой совсем не будет видно за кучей таблиц и отчетов, к которым добавятся еще и AI/ML модели😭 😬
Осмыслил пост из Linkedin
Парадокс или Эффект Жевона описал английский экономист Уильям Жевон в 1865 году, изучая влияние улучшений в эффективности использования угля.
Прогресс в области инженерии данных снизил затраты на производство, распространение моделей данных и дашбордов. Задачи, которые раньше требовали недель работы команды из 3-4 BI/Data инженеров, теперь могут быть выполнены одним за несколько дней. Те же Копайлоты дали ощутимый буст времени на написание и аудит кода.
С уменьшением затрат на производство, растет спрос на данные и все их деривативы, что приводит к дальнейшему размножению датасетов и дашбордов.
Поддержание этого множества контента сокращает полученные выгоды: увеличиваются затраты на обслуживание, становится все сложнее для потребителей найти нужную информацию.
Сложность обнаружения и часто низкое качество дата контента стимулирует создание еще большего количества датасетов и дашбордов, поддерживая этот цикл.
Чтобы прервать этот отрицательный цикл, нужно более радикально переосмыслить способ работы, чем просто архивация ненужного:
1. Введение новых абстракций поверх базовых наборов данных. metric store связанный с семантическим слоем помогает повышать переиспользование и адаптацию мастер слоя для бОльшего количества кейсов использования.
2. Дата продукты и связанный с ними процесс сертификации и гавернанса. Создание объектов в местах наибольших пересечений требований разных потребителей и развитие этого слоя на аналитике их потребления.
Мораль: Если не начать эти инициативы сейчас, через 2-3 года вас с командой совсем не будет видно за кучей таблиц и отчетов, к которым добавятся еще и AI/ML модели
Осмыслил пост из Linkedin
Please open Telegram to view this post
VIEW IN TELEGRAM
DataBar - успехом стартовал наш скромный движ для людей про данные и алкоголь
Вместе с Я-Tableau-Бог-Егором и RevealTheData-Ромой таки подавили социофобию и провели первый оффлайн ивент в парке в Амстердаме.
Пришло около 25 незнакомых друг с другом людей из России, Белоруссии, Украины, Марокко, Италии и Индии.
Все пришедшие были в жутком адеквате - аналитики, инженеры и предприниматели. Небольшие стартапы, глобальные компании.
Была идея, что нужно будет как-то развлекать всех, знакомить и модерировать обсуждения, разгоняя темы про AI, данные и аналитику. Рома подготовилпантомиму фасилитацию.
Но народ просто взял пива и начал общаться. Заготовки не пригодились и талант Ромы не был востребован.
Было супер короче. Будем делать второй ивент в июне. Присоединяйтесь кто недалеко.
Следующий 29 июня -
https://www.meetup.com/databar-data-analytics-meetups/
И кстати - недавно по совпадению появился канал крутого Саши Варламова - с таким же названием Data Bar - https://xn--r1a.website/data_bar. Тут ссылки на работы и мысли на премиальном уровне. Каждый пост - интеллектуальный тест на настоящего эксперта продвинутого датавиза. Я прохожу через раз)
Вместе с Я-Tableau-Бог-Егором и RevealTheData-Ромой таки подавили социофобию и провели первый оффлайн ивент в парке в Амстердаме.
Пришло около 25 незнакомых друг с другом людей из России, Белоруссии, Украины, Марокко, Италии и Индии.
Все пришедшие были в жутком адеквате - аналитики, инженеры и предприниматели. Небольшие стартапы, глобальные компании.
Была идея, что нужно будет как-то развлекать всех, знакомить и модерировать обсуждения, разгоняя темы про AI, данные и аналитику. Рома подготовил
Но народ просто взял пива и начал общаться. Заготовки не пригодились и талант Ромы не был востребован.
Было супер короче. Будем делать второй ивент в июне. Присоединяйтесь кто недалеко.
Следующий 29 июня -
https://www.meetup.com/databar-data-analytics-meetups/
И кстати - недавно по совпадению появился канал крутого Саши Варламова - с таким же названием Data Bar - https://xn--r1a.website/data_bar. Тут ссылки на работы и мысли на премиальном уровне. Каждый пост - интеллектуальный тест на настоящего эксперта продвинутого датавиза. Я прохожу через раз)
Немного пустой философии.
После 10 лет абьюзивных отношений с data governance - поймал себя на том, что начал вешать ярлыки на дата лидеров, с которыми обсуждаю data governance. Вот мой неэтичный топ:
Упорные Идеалисты
Вера в ритуалы и следование им не смотря на сопротивление. Поиск истины в чтении DAMA DMBOK. Упорно попытки понять и внедрять то, как там написано. Верят в медленные изменения. Органичны в бюрократии. Терпимы к неэффективности.
Инфантильные Пессимисты
Видят проблемы, но не думают что могут изменить сопротивление, ссылаясь не положение вещей, и не верят в других, стараются не замечать DG и не говорить о нем.
Технологичные Нигилисты
Игнорирование формальных понятий DG и ритуальных процессов и ролей, но планомерное внедрение "встроенного" управления данными в разные этапы жизненного цикла данных. При этом бегство от сложных вопросов требующих отношений с Бизнесом. Часто это - лиды продвинутых дата платформ в технологических компаниях.
Технологичные Анархисты
Не видят проблем. Агрессивно отрицают необходимость системного управления данными. Всадники дата апокалипсиса в компании. Органичны в стартап культуре. При переходе компании из растущего стартапа в размеренный бизнес, часто не замечают смены приоритетов и тянут назад изменения.
Уставшие Рационалисты
Эволюционная форма отношения к DG основанная на опыте успешных и неудачных тестов разных подходов и практик. Вторичное и третичное переосознание. Отрыв от конвенциональных понятий. Создание кастомного DG фреймворка далекого от учебника с поправкой на зрелость компании, готовность, и реальную пользу. Фокус на сложных проблемах и решениях.
Проблема этого типа - доходя до него люди часто не особо хотят уже заниматься DG.
Есть дополнения?
(тот случай когда использую pie chart по назначению, то есть для фана)
После 10 лет абьюзивных отношений с data governance - поймал себя на том, что начал вешать ярлыки на дата лидеров, с которыми обсуждаю data governance. Вот мой неэтичный топ:
Упорные Идеалисты
Вера в ритуалы и следование им не смотря на сопротивление. Поиск истины в чтении DAMA DMBOK. Упорно попытки понять и внедрять то, как там написано. Верят в медленные изменения. Органичны в бюрократии. Терпимы к неэффективности.
Инфантильные Пессимисты
Видят проблемы, но не думают что могут изменить сопротивление, ссылаясь не положение вещей, и не верят в других, стараются не замечать DG и не говорить о нем.
Технологичные Нигилисты
Игнорирование формальных понятий DG и ритуальных процессов и ролей, но планомерное внедрение "встроенного" управления данными в разные этапы жизненного цикла данных. При этом бегство от сложных вопросов требующих отношений с Бизнесом. Часто это - лиды продвинутых дата платформ в технологических компаниях.
Технологичные Анархисты
Не видят проблем. Агрессивно отрицают необходимость системного управления данными. Всадники дата апокалипсиса в компании. Органичны в стартап культуре. При переходе компании из растущего стартапа в размеренный бизнес, часто не замечают смены приоритетов и тянут назад изменения.
Уставшие Рационалисты
Эволюционная форма отношения к DG основанная на опыте успешных и неудачных тестов разных подходов и практик. Вторичное и третичное переосознание. Отрыв от конвенциональных понятий. Создание кастомного DG фреймворка далекого от учебника с поправкой на зрелость компании, готовность, и реальную пользу. Фокус на сложных проблемах и решениях.
Проблема этого типа - доходя до него люди часто не особо хотят уже заниматься DG.
Есть дополнения?
(тот случай когда использую pie chart по назначению, то есть для фана)
Экспертная фасилитация - как формат аудита и доработки плана развития дата платформы.
Расскажу про интересный проект, который сделали этой весной вместе с мощным Женей Ермаковым (Toloka, ex-Yandex) для одной классной компании.
Задача была буквально:
Еще для длинного проекта по дата стратегии не было времени ни у нас ни у клиента, поэтому ...изобрели новый формат.
Основные этапы
1. Подготовка - 2-3 уточняющие встречи, подготовка шаблонов для обсуждений
2. Онлайн Воркшопы - 12 человек, 3 сессии по 3 часа по обсуждению ключевых тем. Работа в MIRO, Aнализ болей (описывал шаблон тут), дизайн TO BE решений и проч и проч
3 - Сведение результатов - упаковка инициатив, параметры их внедрения, слайдообразная преза для боссов.
Концепт
В основе идеи лежит наблюдение что весь консалтинг "под ключ" часто оторван от реалий компании, содержит много декларативности. Хотелось это убрать.
В этом формате фасилитатор должен быть сильно в предмете с высокой насмотренностью, при этом рулить групповыми обсуждениями, быстро реагировать, вникать в контексты и набрасывать мысли по ходу.
Делили с Женей роли и было круто.
Было опасение что получится неглубоко, но в итоге клиент доволен.
Мысли
Не склонен переоценивать пользу. Есть такой bias консультанта - ощущение что бог только что спустил на землю откровение и выбрал тебя проводником.
Ребятам (сюрприз) самим нужно будет уже все это реализовывать, но теперь уверенность в роудмапе сильно выше, выше поддержка менеджмента и команды. Больше вдохновения и воли. Важная штука.
Часть из предложенных решений не взлетит из-за проблем, которые мы не рассмотрели.
Будем наблюдать.
Ведь совершенство это не цель, это путь.🚴♂️
Тем более в дата аналитике.
Если кому тема зашла - пишите, расскажу подробнее🎩
Кому не зашла - перечитайте пост снова😎
Расскажу про интересный проект, который сделали этой весной вместе с мощным Женей Ермаковым (Toloka, ex-Yandex) для одной классной компании.
Задача была буквально:
сделать ревью существующего плана - убрать лишнее, добавить нужное, получив "структурированные рельсы" в виде набора рекомендаций и практик, которые бы подходили непосредственно нам, а не просто набор общемировых практик в вакууме.
Еще для длинного проекта по дата стратегии не было времени ни у нас ни у клиента, поэтому ...изобрели новый формат.
Основные этапы
1. Подготовка - 2-3 уточняющие встречи, подготовка шаблонов для обсуждений
2. Онлайн Воркшопы - 12 человек, 3 сессии по 3 часа по обсуждению ключевых тем. Работа в MIRO, Aнализ болей (описывал шаблон тут), дизайн TO BE решений и проч и проч
3 - Сведение результатов - упаковка инициатив, параметры их внедрения, слайдообразная преза для боссов.
Концепт
В основе идеи лежит наблюдение что весь консалтинг "под ключ" часто оторван от реалий компании, содержит много декларативности. Хотелось это убрать.
В этом формате фасилитатор должен быть сильно в предмете с высокой насмотренностью, при этом рулить групповыми обсуждениями, быстро реагировать, вникать в контексты и набрасывать мысли по ходу.
Делили с Женей роли и было круто.
Было опасение что получится неглубоко, но в итоге клиент доволен.
Мысли
Не склонен переоценивать пользу. Есть такой bias консультанта - ощущение что бог только что спустил на землю откровение и выбрал тебя проводником.
Ребятам (сюрприз) самим нужно будет уже все это реализовывать, но теперь уверенность в роудмапе сильно выше, выше поддержка менеджмента и команды. Больше вдохновения и воли. Важная штука.
Часть из предложенных решений не взлетит из-за проблем, которые мы не рассмотрели.
Будем наблюдать.
Ведь совершенство это не цель, это путь.
Тем более в дата аналитике.
Если кому тема зашла - пишите, расскажу подробнее
Кому не зашла - перечитайте пост снова
Please open Telegram to view this post
VIEW IN TELEGRAM
Пример как в одном банке массово поиграли в настолку по теме federated data governance.
…игра была с более чем 300 коллегами из финансового домена и домена рисков. Цель - распространить осведомленность и понимание подхода компании к Federated Data Governance Model initiative, критической роли data quality, security, and compliance в организации.
Интересно получилось ли сделать что-то увлекательное само по себе, или это сработало разово и только в принудительном порядке.
Если игру можно закастомить, чтоб там были элементы именно вашей дата платформы, ваши команды и домены и проч - то есть шанс.
В любом случае вдохновляющий прием. Я узнаю игровые механики. Давайте сделаем свою. Звучит как задача.
Кто-то есть из банков с бюджетом ? напишите. Сделаем под вас первую версию.
За ссылку спасибо Пете Травкину.
…игра была с более чем 300 коллегами из финансового домена и домена рисков. Цель - распространить осведомленность и понимание подхода компании к Federated Data Governance Model initiative, критической роли data quality, security, and compliance в организации.
Интересно получилось ли сделать что-то увлекательное само по себе, или это сработало разово и только в принудительном порядке.
Если игру можно закастомить, чтоб там были элементы именно вашей дата платформы, ваши команды и домены и проч - то есть шанс.
В любом случае вдохновляющий прием. Я узнаю игровые механики. Давайте сделаем свою. Звучит как задача.
Кто-то есть из банков с бюджетом ? напишите. Сделаем под вас первую версию.
За ссылку спасибо Пете Травкину.
Новый продукт, новый повод понудеть про новую эру в BI
Databricks по-тихому выпустил свой BI. Но не простой. Назвали AI/BI Genie. Продукт умеет и в дашборды, но интересен в нём именно Generative AI.
Databricks, пожалуй, самая мощная в мире cloud дата-платформа, теперь закрывает BI пробел.
В основе лежит экспертиза Mosaic AI (куплен год назад за 1,3 млрд долларов).
Попытался понять, что уникального в этом релизе Databricks. Вот мысли:
Когда традиционные BI-вендоры создают Conversational BI в чатах, они часто делают это красиво, но не интероперабельно. Они опираются на свой дата-слой, который в BI всегда слабый. Семантический слой, как правило, отсутствует или выполнен поверхностно (исключение - Looker). Взаимодействие с внешним слоем метрик и метаданными хранилища у таких решений также поверхностное. Вот ThoughtSpot + dbt обещали что-то супернативное, но пока затихли.
Databricks, имея всё необходимое у себя — Lakehouse, Unity Catalog (дефолтный метадатастор и админка), свою трансформацию и семантический слой (yaml-файлы, определяющие метрики и связывающие физические и логические метаданные), имеет все, чтобы сделать наиболее качественный путь text->SQL->text->Viz.
Условно не нужно будет ничего, если все компоненты платформы настроены.
Главная проблема семантических моделей в том, что их нужно кому-то строить. Инженеры не умеют в бизнес-логику, а бизнес-аналитиков трудно принудить. В итоге настоящий семантический слой живет в сотнях голов разработчиков, а все попытки его зафиксировать отстают.
AI Databricks, как я понимаю, сам создаёт собственную доработанную семантическую модель, опираясь на действия пользователей и их фидбек поверх метаданных и метрик, взятых из платформы данных. Интересно, что AI просит тебя рассказать о метрике, если сам её не знает. (Кто-то точно будет над ним издеваться или неумышленно давать просто неверные знания)
Эту модель можно обучать, предзаписывая в неё промты и запросы в отношении конкретных доменов.
Идеальный путь, к которому это идёт — AI будет работать как аналитик, самостоятельно строить семантический слой и уточнять у команды: "я правильно понимаю, эта метрика определяется таким кодом и текущим значением?", а "эта её вариация — вот этим?", а дата-команда будет ему говорить: "да, да, нет, нет".
Другой плюс — сквозная безопасность на уровне Unity позволяет AI-BI давать ответы исходя из доступов пользователя, исключая необходимость доп настроек. То есть если согласован сам Databricks, дальше уже к безопасникам ходить не надо.
Лицензий отдельных вроде как нет. Но есть требования к компонентам.
Как итог, в таком сетапе - Databricks наверняка будет иметь все для самого цельного на рынке решения.
Однако остаётся вопрос: станет ли в итоге BI чат-бот (даже в идеальном свом воплощении) дополнением к производству и потреблению привычных отчётов, или дашборды останутся придатком к мейнстримному интерфейсу чат-бота?
Что думаете?
Databricks по-тихому выпустил свой BI. Но не простой. Назвали AI/BI Genie. Продукт умеет и в дашборды, но интересен в нём именно Generative AI.
Databricks, пожалуй, самая мощная в мире cloud дата-платформа, теперь закрывает BI пробел.
В основе лежит экспертиза Mosaic AI (куплен год назад за 1,3 млрд долларов).
Попытался понять, что уникального в этом релизе Databricks. Вот мысли:
Когда традиционные BI-вендоры создают Conversational BI в чатах, они часто делают это красиво, но не интероперабельно. Они опираются на свой дата-слой, который в BI всегда слабый. Семантический слой, как правило, отсутствует или выполнен поверхностно (исключение - Looker). Взаимодействие с внешним слоем метрик и метаданными хранилища у таких решений также поверхностное. Вот ThoughtSpot + dbt обещали что-то супернативное, но пока затихли.
Databricks, имея всё необходимое у себя — Lakehouse, Unity Catalog (дефолтный метадатастор и админка), свою трансформацию и семантический слой (yaml-файлы, определяющие метрики и связывающие физические и логические метаданные), имеет все, чтобы сделать наиболее качественный путь text->SQL->text->Viz.
Условно не нужно будет ничего, если все компоненты платформы настроены.
Главная проблема семантических моделей в том, что их нужно кому-то строить. Инженеры не умеют в бизнес-логику, а бизнес-аналитиков трудно принудить. В итоге настоящий семантический слой живет в сотнях голов разработчиков, а все попытки его зафиксировать отстают.
AI Databricks, как я понимаю, сам создаёт собственную доработанную семантическую модель, опираясь на действия пользователей и их фидбек поверх метаданных и метрик, взятых из платформы данных. Интересно, что AI просит тебя рассказать о метрике, если сам её не знает. (Кто-то точно будет над ним издеваться или неумышленно давать просто неверные знания)
Эту модель можно обучать, предзаписывая в неё промты и запросы в отношении конкретных доменов.
Идеальный путь, к которому это идёт — AI будет работать как аналитик, самостоятельно строить семантический слой и уточнять у команды: "я правильно понимаю, эта метрика определяется таким кодом и текущим значением?", а "эта её вариация — вот этим?", а дата-команда будет ему говорить: "да, да, нет, нет".
Другой плюс — сквозная безопасность на уровне Unity позволяет AI-BI давать ответы исходя из доступов пользователя, исключая необходимость доп настроек. То есть если согласован сам Databricks, дальше уже к безопасникам ходить не надо.
Лицензий отдельных вроде как нет. Но есть требования к компонентам.
Как итог, в таком сетапе - Databricks наверняка будет иметь все для самого цельного на рынке решения.
Однако остаётся вопрос: станет ли в итоге BI чат-бот (даже в идеальном свом воплощении) дополнением к производству и потреблению привычных отчётов, или дашборды останутся придатком к мейнстримному интерфейсу чат-бота?
Что думаете?
Я уже писал про плюсы и минусы Self-Service и Centralized моделей в аналитике.
Еще одна мысль пришла в проекте. Вслед.
Такая занудная мысль, что большинство ее не дочитают.
Вот она.
Есть соблазн - считать что тренды идут друг за другом и им просто нужно следовать.
Но вернее будет сказать, что одновременно есть разнонаправленные тренды в компании.
И их сила меняется в процессе эволюции дата культуры этой конкретной компании. Так происходит в нашем любимом вопросе Self-Service vs Centralized.
Пример.
Любая компания обнаруживает себя в определенный момент перед вакуумом ответственности за данные.
Встает вопрос - возложить ответственность за управление
▪️ на бизнес домены, создавая в них инженерно-аналитические команды
▪️ на дата платформу, наращивая экспертизу в центральных DWH и BI командах
Оба решения можно принять с повернуть в одну и другую сторону.
Но есть нюанс, наблюдаемый в физическом мире:
Компании часто пропускают этот шаг, в итоге домены, получая автономию, не играют по правилам.
Общий гавернанс не формируются или отторгается.
Создавая сначала цельные процессы управления жизненным циклом данных, настраивая сервисы, найм и обучение, и проч - ты используешь все это как базу для децентрализации, хотя вернее сказать федерализации.
Поэтому возникает парадокс. Перед любым дата мешем имеет смысл минимум 3 года заниматься хардовой централизацией. А потом уже думать нужен будет вам дата меш, и в какой степени.
(датамэш или датамеш, мем или мэм🤔 )
🅿️ Эти и другие мысли по теме паркую тут:
https://miro.com/app/board/o9J_lha8MnM=/
Еще одна мысль пришла в проекте. Вслед.
Такая занудная мысль, что большинство ее не дочитают.
Вот она.
Есть соблазн - считать что тренды идут друг за другом и им просто нужно следовать.
Но вернее будет сказать, что одновременно есть разнонаправленные тренды в компании.
И их сила меняется в процессе эволюции дата культуры этой конкретной компании. Так происходит в нашем любимом вопросе Self-Service vs Centralized.
Пример.
Любая компания обнаруживает себя в определенный момент перед вакуумом ответственности за данные.
Встает вопрос - возложить ответственность за управление
▪️ на бизнес домены, создавая в них инженерно-аналитические команды
▪️ на дата платформу, наращивая экспертизу в центральных DWH и BI командах
Оба решения можно принять с повернуть в одну и другую сторону.
Но есть нюанс, наблюдаемый в физическом мире:
Успешная децентрализация происходит только после качественной централизации.
Компании часто пропускают этот шаг, в итоге домены, получая автономию, не играют по правилам.
Общий гавернанс не формируются или отторгается.
Создавая сначала цельные процессы управления жизненным циклом данных, настраивая сервисы, найм и обучение, и проч - ты используешь все это как базу для децентрализации, хотя вернее сказать федерализации.
Поэтому возникает парадокс. Перед любым дата мешем имеет смысл минимум 3 года заниматься хардовой централизацией. А потом уже думать нужен будет вам дата меш, и в какой степени.
(датамэш или датамеш, мем или мэм
🅿️ Эти и другие мысли по теме паркую тут:
https://miro.com/app/board/o9J_lha8MnM=/
Please open Telegram to view this post
VIEW IN TELEGRAM
Когда долго смотришь на джазовый оркестр - выходишь на аналогию с аналитической командой.
Джаз хорош как аналогия еще и потому, что джем неповторим, но подготовлен как удачный аналитический проект. И там и там есть и строгая базовая часть и импровизация.
И там и там есть синьоры берущие сложные партии.
Ударные, гитара и контрабас дают основу как дата инженеры. Тромбоны, трубы и саксофоны дают форму как BI разрабы.
В джазе нет дирижера, есть аранжировщик/бэндлидер. Отличное определение. Сергей на видео дает драйв как бодрый тимлид на сонном планинге в понедельник.
Как вы поняли - я не шарю за джаз. Но я в отпуске.
А на видео - Mussorgsky Jazz Orchestra п/у Сергея Богданова.
С кем еще не выпил в Питере за неделю - напишите.
Всем среды!
Джаз хорош как аналогия еще и потому, что джем неповторим, но подготовлен как удачный аналитический проект. И там и там есть и строгая базовая часть и импровизация.
И там и там есть синьоры берущие сложные партии.
Ударные, гитара и контрабас дают основу как дата инженеры. Тромбоны, трубы и саксофоны дают форму как BI разрабы.
В джазе нет дирижера, есть аранжировщик/бэндлидер. Отличное определение. Сергей на видео дает драйв как бодрый тимлид на сонном планинге в понедельник.
Как вы поняли - я не шарю за джаз. Но я в отпуске.
А на видео - Mussorgsky Jazz Orchestra п/у Сергея Богданова.
С кем еще не выпил в Питере за неделю - напишите.
Всем среды!
БиАйГрафия - серия коротких интервью с BI лидерами
Я люблю общение в профессии.
За барной стойкой или в онлайне на курсе.
Много креативных людей/команд сейчас делают топовые вещи, делятся и вдохновляют других.
Так работает здоровая коммуникация в сообществе.
Так я узнал, что наш BI проект не самый крутой в мире, а только один из самых крутых.
И вот ощутил я еле уловимый позыв к журналистике.
Конечно есть
- много статей на хабре и vc
- хорошие корпоративные каналы, где выделяются - авито, тинек.
- каналы-конференции, которые часть выступлений дают в паблик - например smartdata, матемаркетинг.
- еще и подкасты - вот ребята из datacoffee и karpov.courses фигачат инсайты как не в себя.
Везде много хорошего - только успевай слушать.
Мне же тут хочется показать BI в лицах, в виде коротких историй о мощных дата аналитических менеджерах - как активных спикерах так и непубличных людях, тихо мастерящих крутые BI проекты.
Дать ощущение, что несмотря на то, что все разные - есть единство проблем и много идей по их решению. Показать "как бывает у других" и "что не боги горшки обжигают".. вот это вот все, и как итог - вдохновить людей на развитие и обмен практиками.
Никакой рекламы или иных задач кроме озвученных выше.
Встречайте серию коротких интервью с BI лидерами по тегу #БиАйГрафия:
Выпуск #1 - Ринат Хабибрахманов (Лемана ПРО - Леруа Мерлен)
Выпуск #2 - Максим Иванов (Finyard)
Выпуск #3 - Антон Клюге (Лига Ставок)
Выпуск #4 - Наталья Любимова (T-Bank)
Выпуск #5 - Настя Кузнецова (Semrush)
...
Продолжение следует
Я люблю общение в профессии.
За барной стойкой или в онлайне на курсе.
Много креативных людей/команд сейчас делают топовые вещи, делятся и вдохновляют других.
Так работает здоровая коммуникация в сообществе.
Так я узнал, что наш BI проект не самый крутой в мире, а только один из самых крутых.
И вот ощутил я еле уловимый позыв к журналистике.
Конечно есть
- много статей на хабре и vc
- хорошие корпоративные каналы, где выделяются - авито, тинек.
- каналы-конференции, которые часть выступлений дают в паблик - например smartdata, матемаркетинг.
- еще и подкасты - вот ребята из datacoffee и karpov.courses фигачат инсайты как не в себя.
Везде много хорошего - только успевай слушать.
Мне же тут хочется показать BI в лицах, в виде коротких историй о мощных дата аналитических менеджерах - как активных спикерах так и непубличных людях, тихо мастерящих крутые BI проекты.
Дать ощущение, что несмотря на то, что все разные - есть единство проблем и много идей по их решению. Показать "как бывает у других" и "что не боги горшки обжигают".. вот это вот все, и как итог - вдохновить людей на развитие и обмен практиками.
Никакой рекламы или иных задач кроме озвученных выше.
Встречайте серию коротких интервью с BI лидерами по тегу #БиАйГрафия:
Выпуск #1 - Ринат Хабибрахманов (Лемана ПРО - Леруа Мерлен)
Выпуск #2 - Максим Иванов (Finyard)
Выпуск #3 - Антон Клюге (Лига Ставок)
Выпуск #4 - Наталья Любимова (T-Bank)
Выпуск #5 - Настя Кузнецова (Semrush)
...
Продолжение следует
#БиАйГрафия - Серия коротких интервью с BI лидерами, подробнее
Выпуск #1 - Ринат Хабибрахманов
🏠 Компания: Лемана ПРО (Леруа Мерлен)
📍 Локация: Самара
👤 Должность: Руководитель практики BI
💬 Контакт: телега, linkedin
⚙ Стек:
⚡️ Power BI - Основной
⚡️ Tableau, 10% отчетов, без перспектив масштабирования
⚡️ Самописный сервис grafana+clickhouse с историей по продажам
⚡️ К началу 2025 + Российский BI тул
Ответы на 6 вопросов➡️
Выпуск #1 - Ринат Хабибрахманов
Ответы на 6 вопросов
Please open Telegram to view this post
VIEW IN TELEGRAM