Коротко о встрече вчера с https://www.getdot.ai - еще одним проектом, развивающим data ассистента со звучным слоганом 'Chat with your data warehouse'
Архитектура уже ожидаемая:
-- подключение к набору таблиц с чтением метадаты. в идеале семантический слой dbt или snowflake, но есть и другие
-- GPT-4 под капотом конвертит запрос пользователя в промт и генерит в SQL-скрипт
-- скрипт выдает примитивный визуал в чат с возможностью посмотреть код
-- можно дать обратную связь, но это не приводит к истинному обучению
Ценник умеренный от 500 евро в мес для небольшой компании. мутное ценообразование от утилизации капасити юнитов. есть onprem. дешевле thoughtspot и явно гибкие ребята в плане кастомизации под клиента
Есть как свой интерфейс чата, так и бот для слака и тимз. разумно.
Консерны:
- сами данные в промт не льются. нет пока решения проблемы емкости. поэтому вопрос из разряда 'найди мне что-то интересное в моих данных' бесполезен.
- тул по общему мнению с его основателем комплементарная надстройка к дашбордам, в которой юзер может узнать значение метрики с учетом фильтров, отклонения метрики, топы по метрике и контрибьюторов дельты. дескриптивная и немного диагностическая штука. немало в принципе, но на этом все
- сам интерфейс сырой, но базово все есть. Зачем то грузят юзера кодом, вместо проработки визуала
- обсудили как применять политики доступов пользователя для такого сервиса. Говорят аналог RLS прикрутили сейчас для looker и snowflake. Управление доступом по колонкам и таблицам - есть в коробке.
- поразгоняли как можно встроить WolframAlfa с его движком работы с цифрами в архитектурy. Неочевидно пока
Ощущение чуда и неотложности утихает)
Просто перспективная тема для пилота в рабочем режиме
Архитектура уже ожидаемая:
-- подключение к набору таблиц с чтением метадаты. в идеале семантический слой dbt или snowflake, но есть и другие
-- GPT-4 под капотом конвертит запрос пользователя в промт и генерит в SQL-скрипт
-- скрипт выдает примитивный визуал в чат с возможностью посмотреть код
-- можно дать обратную связь, но это не приводит к истинному обучению
Ценник умеренный от 500 евро в мес для небольшой компании. мутное ценообразование от утилизации капасити юнитов. есть onprem. дешевле thoughtspot и явно гибкие ребята в плане кастомизации под клиента
Есть как свой интерфейс чата, так и бот для слака и тимз. разумно.
Консерны:
- сами данные в промт не льются. нет пока решения проблемы емкости. поэтому вопрос из разряда 'найди мне что-то интересное в моих данных' бесполезен.
- тул по общему мнению с его основателем комплементарная надстройка к дашбордам, в которой юзер может узнать значение метрики с учетом фильтров, отклонения метрики, топы по метрике и контрибьюторов дельты. дескриптивная и немного диагностическая штука. немало в принципе, но на этом все
- сам интерфейс сырой, но базово все есть. Зачем то грузят юзера кодом, вместо проработки визуала
- обсудили как применять политики доступов пользователя для такого сервиса. Говорят аналог RLS прикрутили сейчас для looker и snowflake. Управление доступом по колонкам и таблицам - есть в коробке.
- поразгоняли как можно встроить WolframAlfa с его движком работы с цифрами в архитектурy. Неочевидно пока
Ощущение чуда и неотложности утихает)
Просто перспективная тема для пилота в рабочем режиме
Есть две главные проблемы data governance проекта: 1я - data, 2я - governance.
Если серьезно, из всех проблем кажется чаще других упоминается: Вовлечение и мотивация бизнес и data людей делать что-то новое в DG фреймворке, смысл чего им бывает сложно понять и найти для этого время.
Наткнулся на видео про микс DG проекта с …геймификацией.
Как я понял игровые механики на видео примитивные - gamemap (на Sharepoint!?) с маршрутами и точками отражающие стримы и подстримы DG проекта. Они же факторы DG maturity модели компании, оцениваемые по некой шкале.
Выглядит скучно, да и непонятно где здесь собственно игра. Но сама идея крутая.
🤨 Несколько мыслей поверх:
🎮 Логично делать интерфейс аля board-game (их все любят) с забегом по маршруту или прокачка героя или строительство своего дома (типа homescapes от playrix). Можно повеселиться выбирая тему и механики.
🎲 Нужны режимы для персонального /соревновательного трека, а также сценариями для команды/отдела и отдельного сотрудника/роли
🎪 Возможно замахиваться сразу на геймификацию всей Data Platform (тем более если у вас Data Mesh, SSBI и федеративный DG).
Например, Сценарий для дата стюардов и дата/BI аналитиков - где они получают баллы, бейджы, доспехи и проч хрень за выполнение целевой работы - заведения DQ метрик, достижение полноты метадаты, апрувы терминов, релизы дата продуктов и их популярности, написание политики, качественные запросы
Плюс нишевые номинации, редкие бейджи, лидерборды, награды, миссии, конкурсы и т.д.
🤹♀️Тема имеет хорошие шансы успеха в среде где много дата людей в open minded аджальной структуре где культура способствует игре и есть ресурс творить.
🧸 Такой проект должен сращиваться с skill belt программой обучения и Data literacy. Если уж вписываться в такое то, по-крупному.
(гоним мысль о том, что хорошую геймификацию настраивать не намного быстрее и дешевле, чем сам data governance)
Кто найдет бюджет на такое - позовите консультантом)
Добавляю пока в общий гайд по внедрению Data Governance
Если серьезно, из всех проблем кажется чаще других упоминается: Вовлечение и мотивация бизнес и data людей делать что-то новое в DG фреймворке, смысл чего им бывает сложно понять и найти для этого время.
Наткнулся на видео про микс DG проекта с …геймификацией.
Как я понял игровые механики на видео примитивные - gamemap (на Sharepoint!?) с маршрутами и точками отражающие стримы и подстримы DG проекта. Они же факторы DG maturity модели компании, оцениваемые по некой шкале.
Выглядит скучно, да и непонятно где здесь собственно игра. Но сама идея крутая.
🎮 Логично делать интерфейс аля board-game (их все любят) с забегом по маршруту или прокачка героя или строительство своего дома (типа homescapes от playrix). Можно повеселиться выбирая тему и механики.
🎲 Нужны режимы для персонального /соревновательного трека, а также сценариями для команды/отдела и отдельного сотрудника/роли
🎪 Возможно замахиваться сразу на геймификацию всей Data Platform (тем более если у вас Data Mesh, SSBI и федеративный DG).
Например, Сценарий для дата стюардов и дата/BI аналитиков - где они получают баллы, бейджы, доспехи и проч хрень за выполнение целевой работы - заведения DQ метрик, достижение полноты метадаты, апрувы терминов, релизы дата продуктов и их популярности, написание политики, качественные запросы
Плюс нишевые номинации, редкие бейджи, лидерборды, награды, миссии, конкурсы и т.д.
🤹♀️Тема имеет хорошие шансы успеха в среде где много дата людей в open minded аджальной структуре где культура способствует игре и есть ресурс творить.
🧸 Такой проект должен сращиваться с skill belt программой обучения и Data literacy. Если уж вписываться в такое то, по-крупному.
(гоним мысль о том, что хорошую геймификацию настраивать не намного быстрее и дешевле, чем сам data governance)
Кто найдет бюджет на такое - позовите консультантом)
Добавляю пока в общий гайд по внедрению Data Governance
Please open Telegram to view this post
VIEW IN TELEGRAM
Пара дней отпуска проведены с мощной data office team в exness - некоторые мысли, вдохновленные интенсивным воркшопом по data management, стали еще яснее:
⁃ Проблема вовлечения data stewards в роль - тотальна и фатальна. И это главный обман DAMA DMBOK. Она не решается никакими методами - ни манипулятивно, ни рационально через KPI. Возможны только отдельные успехи. Формальное навязывание участия неэффективно. При совмещении с прямыми бизнес задачами - таски DG никогда не поднимаются в исполнимую часть беклога. Федеративная структура DG проекта модельно верна, но то, что применимо к BI сильно сложнее для DG - введение выделенных data stewardship ролей в бизнес функции это роскошь, доступная разве что большим банкам.
- Прогресс в DG проекте попадает в жесткую зависимость от проактивности data / BI / CDO office team, у которой всегда будет нехватка «бизнесовости» и ресурса на полномасштабную работу в бизнес направлениях. Прокачка каналов коммуникации и кросс-командные проекты data team и business stewards - единственный путь к свету. Но чтобы их строить нужна сверхволя.
⁃ Получить осознанный и активный спонсоршип executive management - другой миф. Ждать от бизнес лидеров инициативы в этом направлении глупо. Решение насущных бизнес задач имеет заведомо больший эффект на карьеры людей, чем долгосрочное развитие дата ландшафта, процессов качества данных и проч. Бизнес ценность data governance всегда опосредована слоями других факторов, невозможно провести прямую линию от бизнеса к DG проекту. Все группы драйверов от регуляторки до экономий и монетизации в бизнес-проектах работают на бумаге и не пробивают business-as-usual инерцию
продолжение далее..
⁃ Проблема вовлечения data stewards в роль - тотальна и фатальна. И это главный обман DAMA DMBOK. Она не решается никакими методами - ни манипулятивно, ни рационально через KPI. Возможны только отдельные успехи. Формальное навязывание участия неэффективно. При совмещении с прямыми бизнес задачами - таски DG никогда не поднимаются в исполнимую часть беклога. Федеративная структура DG проекта модельно верна, но то, что применимо к BI сильно сложнее для DG - введение выделенных data stewardship ролей в бизнес функции это роскошь, доступная разве что большим банкам.
- Прогресс в DG проекте попадает в жесткую зависимость от проактивности data / BI / CDO office team, у которой всегда будет нехватка «бизнесовости» и ресурса на полномасштабную работу в бизнес направлениях. Прокачка каналов коммуникации и кросс-командные проекты data team и business stewards - единственный путь к свету. Но чтобы их строить нужна сверхволя.
⁃ Получить осознанный и активный спонсоршип executive management - другой миф. Ждать от бизнес лидеров инициативы в этом направлении глупо. Решение насущных бизнес задач имеет заведомо больший эффект на карьеры людей, чем долгосрочное развитие дата ландшафта, процессов качества данных и проч. Бизнес ценность data governance всегда опосредована слоями других факторов, невозможно провести прямую линию от бизнеса к DG проекту. Все группы драйверов от регуляторки до экономий и монетизации в бизнес-проектах работают на бумаге и не пробивают business-as-usual инерцию
продолжение далее..
(продолжение)
⁃ Data catalog делается только для касты power users. Все остальные утверждения это маркетинг вендоров и самообман. Уговаривать группу business data stewards вести самим глоссарий в каталоге следует все равно. Это не безнадежно. Для остальных casual users - интерфейс слишком избыточный, чтобы использовать в нем только фичу поиска отчетов. Для Business users - gpt-based бот в корп мессенджере в качестве интерфейса навигации - самое оно. Data quality tool и data catalog необходимо сращивать - см Ataccama. Слишком сложно и дорого адопнить каждый их них отдельно. И аудитория у них получается одна.
⁃ Роль тех команд владельцев систем (data producers) в DG часто недооценена. Ее часто нет на красивых схемах фреймворков. При этом их влияние на качество данных часто выше data stewards и BI аналитиков, но мышление своих данных как активов, а аналитиков как клиентов - очень редко. Внедрение data contracts это тех проект между data producers и DWH. И проект конкретный и важный.
Вместо морали. Нет универсального DG решения - есть только поиск сложного баланса и внедрение отдельных элементов DG с творческим осмыслением места data catalog в ваших рабочих процессах
⁃ Data catalog делается только для касты power users. Все остальные утверждения это маркетинг вендоров и самообман. Уговаривать группу business data stewards вести самим глоссарий в каталоге следует все равно. Это не безнадежно. Для остальных casual users - интерфейс слишком избыточный, чтобы использовать в нем только фичу поиска отчетов. Для Business users - gpt-based бот в корп мессенджере в качестве интерфейса навигации - самое оно. Data quality tool и data catalog необходимо сращивать - см Ataccama. Слишком сложно и дорого адопнить каждый их них отдельно. И аудитория у них получается одна.
⁃ Роль тех команд владельцев систем (data producers) в DG часто недооценена. Ее часто нет на красивых схемах фреймворков. При этом их влияние на качество данных часто выше data stewards и BI аналитиков, но мышление своих данных как активов, а аналитиков как клиентов - очень редко. Внедрение data contracts это тех проект между data producers и DWH. И проект конкретный и важный.
Вместо морали. Нет универсального DG решения - есть только поиск сложного баланса и внедрение отдельных элементов DG с творческим осмыслением места data catalog в ваших рабочих процессах
State of Analytics Engineering - Обзор мировых трендов от dbt
Цвета на неотсортированных чартах - из моих страшных снов, но выводы интересные:
- 46% опрошенных дата лидеров планируют увеличить инвестиции в data quality и observability в этом году — это самая популярная область для будущих инвестиций. Кажется реально пора
- Отсутствие координации между data producers и потребителями данных воспринимается всеми опрошенными как основная угроза для экосистемы в этом году. Data contracts в топе приоритетов
- 71% опрошенных положительно оценили продуктивность и гибкость команд по обработке данных, тогда как внедрение data ownership стало основной проблемой для большинства.
- Только 19% data лидеров полностью удовлетворены статусом внедрения self-service аналитики (и это после 15 лет эпохи SS BI)
- Лидеры аналитики поголовно обеспокоены потребностями стейкхолдеров. 42% говорят, что их главная проблема заключается в том, что "Данные не находятся там, где в них нуждаются бизнес". Поэтично
https://www.getdbt.com/state-of-analytics-engineering-2023
Источник ссылки - @trumassive
Цвета на неотсортированных чартах - из моих страшных снов, но выводы интересные:
- 46% опрошенных дата лидеров планируют увеличить инвестиции в data quality и observability в этом году — это самая популярная область для будущих инвестиций. Кажется реально пора
- Отсутствие координации между data producers и потребителями данных воспринимается всеми опрошенными как основная угроза для экосистемы в этом году. Data contracts в топе приоритетов
- 71% опрошенных положительно оценили продуктивность и гибкость команд по обработке данных, тогда как внедрение data ownership стало основной проблемой для большинства.
- Только 19% data лидеров полностью удовлетворены статусом внедрения self-service аналитики (и это после 15 лет эпохи SS BI)
- Лидеры аналитики поголовно обеспокоены потребностями стейкхолдеров. 42% говорят, что их главная проблема заключается в том, что "Данные не находятся там, где в них нуждаются бизнес". Поэтично
https://www.getdbt.com/state-of-analytics-engineering-2023
Источник ссылки - @trumassive
Когда у Lisa Charlotte Muth выходит новая статья приходится все бросать и читать. Это всегда неповерхностно и свежо.
На этот раз раскрывает смысл своей мысли про то, что “Grey is your best friend in data vis”
https://blog.datawrapper.de/emphasize-with-color-in-data-visualizations/
Если еще не - прочтите и другие статьи автора в блоге datawrapper
Left Join кажется даже их переводили частично
Кажется пора сделать учебный miro борд со всеми ее графическими примерами чтобы залипать было удобнее 🧐
На этот раз раскрывает смысл своей мысли про то, что “Grey is your best friend in data vis”
https://blog.datawrapper.de/emphasize-with-color-in-data-visualizations/
Если еще не - прочтите и другие статьи автора в блоге datawrapper
Left Join кажется даже их переводили частично
Кажется пора сделать учебный miro борд со всеми ее графическими примерами чтобы залипать было удобнее 🧐
Datawrapper
Emphasize what you want readers to see with color | Datawrapper Blog
By emphasizing certain data points and de-emphasizing others, you can decide what you want readers to see first, second, third, and last. Here's how.
▪️Про градиенты в форматировании чартов - тут все просто: их используют дегенераты от дашбординга, отнимайте BI тул у таких сотрудников.
▪️Про скругления - важно добавить. Нельзя это делать не только с барами, но и с плашками (такие прямоугольники под графиками). Это не нужно.. никогда. Является явным проявлением "декоративности", создающего когнитивную нагрузку пользователю на пустом месте и без всякой пользы
▪️Про бездумную покраску баров в цвета брендбука без учета цветовых коннотаций - камон, не верю, что кто-то так делает. Явный перегиб рассерженного Романа.
▪️Забыт страшный зашквар - огромные внешние паддинги между объектами и обратная крайность - нехватка внутренних отступов внутри рамки графика. Одно жуткая пошлость и расточительство, второе уродство. Хуже только добавление теней.
▪️Наброс на специальные сервисы несправедлив, людям не повезло с BI системой и они просто хотят делать нестыдные палитры. Нельзя быть таким категоричным.
Надо ли говорить что типовую разметку дашборда нашей команды я считаю образцовой.
В отличие от Романа - у меня нет позитивного финала этого поста. Я не считаю, что информационный дизайн и визуализация данных как навыки можно кардинально развить. Это как ...с музыкальным слухом, можно выучить аккорды, не более.
В счастью BI дашборды - вещь прямо скажем маловажная, имеющая локальное значение даже для аналитики, не то что для мира. Соблазн ставить их в абсолют работы - гордыня (о как я грешен). В мире ИИ и нейроинтерфейсов у дашборда не будет музея. Раунд.
🤡
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Всем солнечной субботы.
Чтобы после пятницы на утро - светлая часть таки была больше темной )
Тест на возраст - кто кого узнал на фото? (Соотношение клика и табло ровно пополам)
Чтобы после пятницы на утро - светлая часть таки была больше темной )
Тест на возраст - кто кого узнал на фото? (Соотношение клика и табло ровно пополам)
Стресс – реакция в ответ на воздействие, требующее от организма изменений работы. Так же хорошее обучение меняет прежний комплекс мыслей и действий и этим вызывает тревогу.
Хотя может это какая-то моя личная проблема. Что-то из детства) Anyway
Единственная форма, не вызывающая у меня такой реакции, это канвасы - эти бесконечные борды
- Мозг реально радуется возможности обозрить весь объем информации визуально.
- Логические связи в виде стрелочек, эконосят силы на самостоятельную систематизацию.
- Игровой паттерн карты которую можно изучать приближая и отдаляя
- Какие-то наверное еще феномены тут есть, Мастер языковых карт @lingualize дополни пожста)
В итоге в любой непонятной ситуации я делаю Miro борды, чем думаю изрядно достаю свою команду
👉 А теперь полезный контент - два публичных обучающих community-канваса случились недавно у Count.co:
▪️ The Ultimate SQL Guide - нечто большее чем популярные Free cheat sheets. Удобно и как тренажер для начинающих (в рамках self-service / data literacy обучающией программы) так и как рефрешер отдельных концептов для аналитиков. Пример Company SQL Style Guide - стоит перенять идею.
▪️ The ultimate guide to dbt - глубокий обзор одного из самых популярных продуктов для трансформации данных. Готовый материал для онбординга новичка.
Лайв немного тормозит. Если запариться можно выгрузить в PDF все.
🔗 Посты про эти гайды
https://blog.count.co/the-ultimate-sql-guide/
https://blog.count.co/the-ultimate-guide-to-dbt/
🔗 Пост про count.co и про их более ранний канвас - Guide to hiring your data team
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Data products and Data mesh board
Готовясь к одному новому проекту - начал перекапывать снова тему data products. Здесь как обычно много противоречий в трактовках, но магистральная все-таки концепция data mesh.
Короче залип в статьи Eric Broda по теме. Когда вижу у кого-то такую качественную систематизацию предмета - приходится садиться и встраивать ее в свою картину (очередная обсессия).
Я не во все вник, честно говоря. Мне эта тема всегда была интересна отдельными частями. Но в итоге набросал для себя борд (да опять) из слайдов автора и ссылками на статьи по каждому направлению - может кому пригодится. Много консалтерских абстракций, но местами очень полезно.
Уже потом подумал, что уж раз такая пьянка - надо бы и аналогичные картинки от Zhamak Dehghani (основательница парадигмы Data Mesh) сложить в нагядную систему. Но как нибудь потом.
MIRO - https://miro.com/app/board/uXjVMveo0ls=/
PDF - https://disk.yandex.ru/i/dwqpBV6nG6fsJQ
Готовясь к одному новому проекту - начал перекапывать снова тему data products. Здесь как обычно много противоречий в трактовках, но магистральная все-таки концепция data mesh.
Короче залип в статьи Eric Broda по теме. Когда вижу у кого-то такую качественную систематизацию предмета - приходится садиться и встраивать ее в свою картину (очередная обсессия).
Я не во все вник, честно говоря. Мне эта тема всегда была интересна отдельными частями. Но в итоге набросал для себя борд (да опять) из слайдов автора и ссылками на статьи по каждому направлению - может кому пригодится. Много консалтерских абстракций, но местами очень полезно.
Уже потом подумал, что уж раз такая пьянка - надо бы и аналогичные картинки от Zhamak Dehghani (основательница парадигмы Data Mesh) сложить в нагядную систему. Но как нибудь потом.
MIRO - https://miro.com/app/board/uXjVMveo0ls=/
PDF - https://disk.yandex.ru/i/dwqpBV6nG6fsJQ
Data strategy design guide
Гайз, хочется озвучить одну мысль - Дата стратегию нельзя разработать руками консультантов.
Это оказывается не всем очевидно. Компании продолжают ее заказывать под ключ за много денег.
Дата стратегия (а также BI, AI и проч стретегии) может принести пользу только если рождается в мыслительных муках data лидершип команды компании. Этот процесс консультант может только ускорить и сделать более приятным.
Дойдя до этой мысли - я пришел к формату воркшопов по фасилитации элементов стратегии в области data & analytics, где 70% это брейнстормы, работа в группах и проч формы структурированного общения со стикерами и вайтбордами. Остальное - информационный разогрев в виде слайдов - расширяющий сознания участникам практиками релевантными компании и агенде.
Конец мысли.
Готовясь тут к проекту - нашел интересный data strategy design guide, похожий по сути на мой борд по bi стратегии в некоторых ключевых идеях (собственно они все на поверхности).
- У ребят лучше проработана методология фасилитации в виде упражнений для воркшопа. Без примеров они не все до конца понятны, надо додумывать.
- Плюс тут сильно больше фокуса на анализе бизнес стратегии и ее связывании с data стратегией. Я же сильно сползаю в тактические практики.
Короче сделал для себя бордец, для вникания. Если кто будет тоже вникать - делитесь фидбеком применения
MIRO - https://miro.com/app/board/uXjVMti4FYE=/
Гайз, хочется озвучить одну мысль - Дата стратегию нельзя разработать руками консультантов.
Это оказывается не всем очевидно. Компании продолжают ее заказывать под ключ за много денег.
Дата стратегия (а также BI, AI и проч стретегии) может принести пользу только если рождается в мыслительных муках data лидершип команды компании. Этот процесс консультант может только ускорить и сделать более приятным.
Дойдя до этой мысли - я пришел к формату воркшопов по фасилитации элементов стратегии в области data & analytics, где 70% это брейнстормы, работа в группах и проч формы структурированного общения со стикерами и вайтбордами. Остальное - информационный разогрев в виде слайдов - расширяющий сознания участникам практиками релевантными компании и агенде.
Конец мысли.
Готовясь тут к проекту - нашел интересный data strategy design guide, похожий по сути на мой борд по bi стратегии в некоторых ключевых идеях (собственно они все на поверхности).
- У ребят лучше проработана методология фасилитации в виде упражнений для воркшопа. Без примеров они не все до конца понятны, надо додумывать.
- Плюс тут сильно больше фокуса на анализе бизнес стратегии и ее связывании с data стратегией. Я же сильно сползаю в тактические практики.
Короче сделал для себя бордец, для вникания. Если кто будет тоже вникать - делитесь фидбеком применения
MIRO - https://miro.com/app/board/uXjVMti4FYE=/