Data Nature 🕊
5.95K subscribers
385 photos
6 videos
3 files
197 links
Канал о жизни BI аналитики и инфо-дизайна в корп реалиях с фокусом на работающих практиках управления.
Веду как летопись полезного для себя и людей с такими же неврозами.

александр бараков @alexbarakov
datanature.ru
data-nature.com

(рекламу не размещаю)
Download Telegram
🔥 Нашли c nastengraph в интернетах четкий продукт - Map of 316 e-commerce metrics 🗺

🔹 Карта выполнена в виде Miro доски, на которой метрики в виде карточек толково протеганы, группированы и связаны.
🔹 Список метрик дублируется в Notion формируя чистенький и интерактивный глоссарий

Наглядность и удобство максимальные.

🔗 MIRO board
🔗 Notion версия
🔗 Платная версия

Автор шарит усеченную версию бесплатно и незадорого продают полную версию.

Сам по себе e-commerce домен мне не так интересен, но кто делает бизнес-ориентированный BI всегда в итоге сталкиваются с задачей структурирования метрик и логики. Этот подход к построению карты /дерева метрик / глоссария / whatever - кажется отличной альтернативной сложным системам, которые не взлетают и не успевают за бизнесом.

Приятно, что бесплатный Миро-борд можно скопировать и сделать свою карту на его основе.
Совсем интересно выглядит заход сделать интеграцию Miro и Notion, чтобы редактировать карту только в одном месте. Zapier вроде умеет такое
🙋‍♂️ Старт набора на курс "Основы Data Governance" 27-31 Марта 2023 года 👨‍🏫
🔗
Оставить заявку

Первую версию данного курса я разработал 4 года назад для Альфа Банка и тех пор мы проводим его с BI Consult в открытом формате, дополняя новыми мыслями.

За это время тема Data Governance вышла в топ трендов. DAMA DMBOK перевели на русский язык. Data контент окончательно вышел из под визуального контроля и даже скептики начали внедрять дата каталоги, DG процессы и роли

Что внутри курса:
🔹 5 дней по 3 часа интенсива в онлайн формате для CDO, CIO, Data stewards, BI-менеджеров, Операционных директоров и всех кому тема близка.
🔹 "Домашние задания" с обратной связью - каждый участник заполняет excel-гайд своего проекта DG, применяя разделы курса на контекст своей компании
🔹 Фокус на двух задачах:
(1) Сформировать глубокое понимание темы data governance: в чем ценность, термины и процессы, роли и орг модели, тулы и как их выбирать, как 'продавать' проект и т.д.
(2) 'Примерить' все это на ваши бизнес реалии - будем разбирать кейсы и практики, а также примеры из проектов участников курса

Цель этого курса для меня - иметь жесткий повод держать себя в форме, раз в год осмыслить все что по DG произошло и написалось, выделить все хорошее-полезное, уложить это для себя в систему, и обсудить с коллегами - участниками курса.

Поиск баланса бюрократии и здравого смысла - довольно точно отражает мой подход в этой в целом весьма занудной теме. Будем заземлять теорию на реальность и получать удовольствие.

Короче приходите, мест немного, курс скоро 😎

🔗 Оставить заявку
👏 Алексей Колоколов провел на этой неделе Eurasian Dataviz Conference. Проект дерзкий, и кажется обреченный на успех - в этой теме глобальных событий и премий недостаточно.
🔹Хочется просто поздравить Алексея и пожелать гнуть свою линию дальше (разве что с эксель-дашбордами заканчивать)) и обретать таки международную базу клиентов (слава богу люди делают уродливые дашборды вне зависимости от паспорта и цвета кожи )
🔹Респект за сильных спикеров, которых удалось собрать с первой попытки: Andy Cotgreave, Pradeep Kumar и другие
🔹Номинация Data Art & Storytelling удалась, но в разделе Business Dashboards как обычно не хватило представленности (общая проблема что никто не хочет/не может шарить свои корп отчеты). Если не придираться, можно выделить HR дашборд Натальи Веселовой

Вообще в 2023 году не так много конференций в сфере BI/Dataviz.
🌏 Собрал список интересных и нелокальных оффлайн тусовок:
- Март 2 - 5 - NICAR - annual data journalism conference, Штаты
- Май 3 - 5 - Outlier, Португалия
- Май 9 - 11 - Tableau TC23, Штаты, Вегас
- Май 22 - 24 - Gartner Data & Analytics Summit, London, U.K.
- Июнь 1 - 2 - S-H-O-W, Нидерланды
- Июнь 12 - 16 - EuroVis, Германия
- Июнь 16 - Visualizing Knowledge, Финляндия
- Сентябрь 13 - 14 - Forrester Data Strategy & Insights, Штаты
- Октябрь 13 - Infographic Conference, Нидерланды
(Напишите если я пропустил что то достойное)

✈️ Есть безумцы с бюджетом, кто планирует в этом году что-то посетить? Можно попытаться рвануть куда-то развеяться
Новый год и новый заход на тему компетенций BI команды

Мы прошли очередной "операционный круг" и созрели для обновления BI Team Upgrade Guide - нашего внутреннего тула для оценки BI аналитиков и гайда для осмысленного саморазвития. Наша старая версия сильно уступала прекрасной Матрице Ромы Бунина, что очевидно недопустимо 😎

Воруют бездарности, гении заимствуют). В итоге мы:
🔹позаимствовали эксель-шаблон с отличным графиком итоговой синьорности
🔹доработали подход с self-assessment идеей - сделали шаблон более компактным за счет выпадающих списков при выборе вариантов ответа
🔹Обновили список скилов, их группировку на актуальные для нашей команды
🔹Ссылки на полезные материалы по скилам обновили и вывели в отдельную секцию "How to develop the skill". Тут удобнее кликать
🔹Добавилась менеджерская вкладка "BI Team overview" (используется отдельно), где сводится общая картина по команде: доменная экспертиза, оценка синьорности по компетенциям, оценка рисков и ценности
🔹ну и да, наш тул на английском

Делюсь этой историей как примером получения реальной пользы от opensource-подхода к инструментам в комьюнити.
Свою версию также шарим на всех. Может кто подхватит и продолжит апгрейд, фидбек-welcomed
Копирайты и слава остаются - revealthedata

👌 Еще полезные решения по теме компетенций в data/BI/Product сфере, которые стоит обозрить если вы делаете подход в вопросу:
🔗 Миро борд компетенций для ролей управления продуктом от Сергея Тихомирова
🔗
Навыки и требования к аналитикам данных на разных уровнях в «Яндексе»
🔗 Карта компетенций РМ от Дмитрия Зиновкина
🔥 Сегодня вышла новая версия MAD Landscape (Machine Learning, Artificial Intelligence and Data) 2023 после перерыва на 2022 год.

🗺 Это карта с 1416 лого продуктов (хотя и многих все таки нет) от мейджор вендоров до оперсорс и прям стартапов (чаще американских), разбитых на категории.

🔗 Статья автора с деталями
🔗
PDF версия (скучная)
🔗 Интерактивная версия (бодрая) 👌
🔗 Мой пост про карту 2021 года

Что нового:
🔹 Весь Opensource выделен отдельно - что особенно актуально сейчас
🔹 GPU-accelerated Databases категория - тулы используемые для streaming data и real-time ML
🔹 Data Orchestration выделена отдельно, чтобы отразить возникновение нескольких коммерческих поставщиков в этой области
🔹Слияние двух подкатегорий "Data observability" и "Data Quality" в одну, чтобы отразить то, что компании в этой области, хотя и подходят с разных сторон, все больше перекрываются - сигнал того, что категория может быть готова к консолидации. И здесь в и категории Catalogs много новых для меня имен. Бурно двигается тема.
🔹Зашла секция Applications Enterprise, много интересных нишевых решений по бизнес областям.
🔹Норм подборки в категориях "Closed source models" (Кому важно все чаты GPT тут), "Horizontal AI", "Data Labeling"

Карта содержит много деталей и микросегментов, но настоящий интерес вызывает именно новая интерактивная версия. Можно кликать на лого и залипать на новые продукты.
Было бы совсем отлично - возможность сравнения нескольких произвольных продуктов.

Компании часто попадают в несколько категорий, но авторы сокращают этот эффект, чтобы не перегрузить карту. Тот же Tableau, как обычно, находится в категории "Visualisation tool", а не BI 🤷‍♂️.
Data Governance Program Guide [work in progress]...

Начал готовиться к курсу в конце марта и естественным образом пошел рефакторинг контента. Начинаешь находить новые интересные материалы и вот у тебя уже десятки новых мыслей по теме, которые нужно уложить в систему

В итоге делаю сейчас новый борд в Миро - Data Governance Program Guide - такой майдмеп на стероидах 🤔😣🤯💥🗺 про развертывание DG с этапами практиками ссылками и слайдами с курса.
Будет что-то похожее на BI Strategy Guide.
Мозг вскипает, но оторваться невозможно. Текущая готовность процентов 80% думаю

Вопрос в зал - какие темы на ваш взгляд должны быть обязательно отражены в таком гайде?

И да - кто хочет поучаствовать в тестировании beta версии, также пишите в комменты (или ставьте плюсы для простоты). Она будет готова в начале марта. Будет полезна обратная связь
Data Governance Program Guide готов в первой prod версии - это публичный тул по обзору практик DG с применением здравого смысла

🔗 MIRO-board

Много появилось взрослых проектов, где толковые ребята показывают крутые внедрения data каталогов с бескрайне сексуальным lineage🔥. Мало кто говорит, что ими мало пользуются, а качество метаданных порой хуже качества самих данных). Каталоги бесспорно драйвят сегмент, но в DG сильно больше тем, без которых data каталог становится "псевдо DG" проектом 😒

Обдумывая это и борясь с синдромом самозванца - собрал в итоге этот борд:
🔹 Доска содержит 16 этапов по ходу логического развития программы data governance от замысла к реализации (этапов могло быть и 5 и 105, не суть)
🔹Каждый этап содержит гексагоны (76+) с темами и слайдами, немного раскрывающими проблематику этапа
🔹Этапы содержат контейнеры с полезными ссылками по теме (пополняется)

База для этого борда - осмысление теории из книг👨‍🎓, мой опыт реализации программ DG 🕵️‍♀️ и анализ релевантных материалов от лидеров dg-движа в мире 🌎.

Борд родился, как часть обзора новых практик для курса "Основы Data Governance" со стартом 27 Марта 2023 года (кому близко - велком) и должен помочь изучить материалы по DG и при этом не вызвать ненависти к предмету: расширить и структурировать сознание для людей в роли CDO, Операционный директор, CIO, Head of BI, Head of DWH, Data steward - всем, кто решает задачу внедрения программы DG (или ее элементов) или просто хочет узнать больше по теме.
Ведь DG как спелеология - вокруг темно и сыро, в руке фонарик и если уже влез, останавливаться и паниковать не стоит. Этот MIRO-борд посвящается храбрости тех, кто уже влез или готовится)

💬 Спасибо всем, кто давал советы и замечания к борду. Продолжайте их давать (комментариями к посту или на сам борд).
🔗 Безвозмездно приму ссылки на статьи-книги-видео с чем то свежим и толковым по предмету
🎙🤕 Терапевтический выпуск в канале МыОбречены - Андрей Бреслав (автор языка программирования Kotlin🤘, co-founder сервиса Alter) очень адекватно о больном и сложном:
- войне и моральных аспектах жизни россиянина в эмиграции
- хейте на яндекс и моральности работы в российском бигтехе
- психотерапии как новой норме
- фундаментальных ограничениях языковых моделей типа ChatGPT в программировании
- "глупости" интуиции и когнитивных искажениях в оценке текущей реальности

Канал МыОбречены кажется один из самых няшных подкастов про ИТ. Легкая подача, человеческие истории, ценностный метч. Прям норм.
(Не реклама)

😎 В выпуске тут как тут интеграция от тинькофф - ребята промоутят проекты своей data платформы. И платформа и команды которые ее строят супертолковые. Лучи поддержки бывшим коллегам 🫶

По дата каталогам Тинек пошел как обычно своим фирменно-безумным путем и пилят с нуля свой DataDetective, (побрезговав взять за базу DataHub, как все🤭). Продукт видимо не претендует на рынок, много кастомных неуниверсальных решений (интерфейс ввода - конфлюенс вики ..), но команда работает с душой и открыто рассказывает о прогрессе.
То, что рядом с каталогом таки зарождается data stewardship отличный знак 🌱
(И это тоже не реклама)

https://youtu.be/91VVr_t3VXc
📋 В телеграмы просочился Манифест дата визуализатора и не удостоился должного внимания

Провокационный и популистский текст (все как мы любим), бьющий во все болевые точки скрепного датавизера 😂
Чувствуется твердая рука data-йога @lingualize 🧘🏻‍♂️

Естественно хочется накинуть на вентилятор в стиле автора
(⛔️осторожно - далее только с самоиронией):

ХВАТИТ

- Хватит делать BI марафоны c крутыми лендингами, люди после них приходят на собеседования и думают что что-то знают и умеют
- Хватит подкладывать картинку на фон дашборда под графики - мало того, что это бедпректис, это просто пошло. Выглядит как фотообои с водопадом в дешевом ресторане
- Хватит вести телеграм каналы по аналитике, типа ты шаришь за тему больше чем остальные
- Хватит делать "открыточные" дашборды, прекрасные как наше детство, но напрочь далекие от бизнес ценности и непонимаемые пользователями
- Хватит отвлекаться на новые тулы, мы и старые не успевали использовать. Они не так важны как мы думаем. Нестыдный инфодизайн можно делать уже почти везде - дело в твоем скиле как дизайнера и аналитика

ИДИТЕ
- ... (нахер с такими манифестами 🤭)

Секцию ХВАТИТ можно продолжать долго при желании, а вот с конструктивными предложениями все сильно хуже 🤷‍♂️


🤔 Вообще идея манифеста об использовании датавиза в прикладных областях познания мира и обучения людей для получения реальной пользы - довольно сильная.
Школы, больницы, учебники, урбанистика, лингвистика, научные работы, что еще?..
Все это кажется намного больше заслуживает усилий датавиз-комьюнити, чем бег в колесе дата-журналистики ради просмотра и свайпа в современном тикток-мире
🧐 🤖 Рубрика - Свежий куплет во славу ChatGPT: Статья про настройку ChatGPT на корпоративных данных на базе Azure OpenAI и Cognitive Search

Хайп ChatGPT от OpenAI привел к тому что многие предприятия резко решили начать использовать языковые модели для своих данных. Главная проблема создания таких корпоративных приложений - как обучить модель на этих конкретных данных, чтобы давать точные ответы.

На прошедшей неделе вышла статья, достаточно детально описывающая контуры такого решения на стеке Azure (естественно) - с использованием Azure Cognitive Search и Azure OpenAI Service.

Основные тезисы:
▪️Базовый подход состоит в простом внедрении вашего контекста в prompt (запрос). ChatGPT может прочитать информацию вместе с любыми инструкциями, текстами и ответить соответствующим образом. Этот не требует повторного обучения или настройки модели, и ответы могут отражать любые изменения в базе данных немедленно.
▪️Однако это создает новую проблему: эти модели имеют ограничение на "длину контекста" (текущий ChatGPT может принимать до 4000 токенов в запросе), и даже если бы не было этих ограничений, было бы непрактично внедрять гигабайты данных в текстовый запрос в каждом взаимодействии.
▪️В качестве альтернативы предлагается хранить все данные во внешней базе знаний, которая может быстро извлекать нужные фрагменты с хорошей релевантностью. Именно это делает в схеме Cognitive Search - он же ключевой элемент настройки и адаптации решения. Здесь производится то, что в статье называется семантическим ранжированием, фрагментацией документов, обобщением - фичей для более эффективного "скармливания" в ChatGPT.
▪️Есть наметки ответа и на вопросы доверия/надежности сгенерированных моделью ответов. Предлагается система верификации в UI, которая позволит пользователям адекватно оценивать ответы через обращение к документам и фактам, на основе которых ответы были даны.

Мне интересна эта схема для натягивания на сценарий Insight-Bot, чата отвечающего на вопросы по аналитике корп данных нативнее дашбордов. Тут пока неясно, как надо препарировать таблицы с данными, чтобы Cognitive Search их хорошо находил и обучал модель на лету 🤷‍♂️. Надо пробовать
Все сценарии внедрения чата в BI дашборды - не выдерживают критики именно из за необогащенности такого взаимодействия контекстом.

Ну и да... конечно, вопросы секьюрности данных и достоверности результата никто не снимал 😒. Но кажется подходящие "Comliance workarounds" подъедут в этом году. Слишком большие бабки в этом новом сегменте, Майкрософт разрулит коллизию как то 👿

🔗 Статья - Revolutionize your Enterprise Data with ChatGPT: Next-gen Apps w/ Azure OpenAI and Cognitive Search
🔗 GitHub repo with examples, including UX, orchestration, prompts

(для написания этого поста использовался ChatGPT 😁)
🔥 Dashboards Roasting #1
Попробовали новый формат — совместную прожарку бизнес (это важно) дашбордов вместе с Ромой Reveal-the-Data Буниным (Mastermind BI в Yandex Data Lens, гитарист и автор ультрамодного канала).

Намутили подход к оценке дашбордов на базе 5 факторов:
- бизнес-цель,
- визуализация,
- графический дизайн,
- UX,
- технические аспекты.

Все замечания собрали на доске в Miro (выглядит хорошо) и записали наше обсуждение на YouTube на инглише (не выглядит хорошо)

Идея стрима на языке шекспира нам показалось отличной. Обоим нужна практика.
Но вот результат этого отважного эксперимента … потребовал просто всей моей самоиронии))

Жесткий монтаж помог не сильно - местами очень медленно. Рекомендую скорость 1.5-2x.
Плюс технические косяки с картинкой и звуком.

🤬 Кто досмотрит до конца получит bad takes в награду
Ну и напишите свое мнение че.

Пошел скачивать верхнюю часть списка приложений для улучшения Английского. Давно было пора