📋 В телеграмы просочился Манифест дата визуализатора и не удостоился должного внимания
Провокационный и популистский текст (все как мы любим), бьющий во все болевые точки скрепного датавизера 😂
Чувствуется твердая рука data-йога @lingualize 🧘🏻♂️
Естественно хочется накинуть на вентилятор в стиле автора
(⛔️осторожно - далее только с самоиронией):
ХВАТИТ
- Хватит делать BI марафоны c крутыми лендингами, люди после них приходят на собеседования и думают что что-то знают и умеют
- Хватит подкладывать картинку на фон дашборда под графики - мало того, что это бедпректис, это просто пошло. Выглядит как фотообои с водопадом в дешевом ресторане
- Хватит вести телеграм каналы по аналитике, типа ты шаришь за тему больше чем остальные
- Хватит делать "открыточные" дашборды, прекрасные как наше детство, но напрочь далекие от бизнес ценности и непонимаемые пользователями
- Хватит отвлекаться на новые тулы, мы и старые не успевали использовать. Они не так важны как мы думаем. Нестыдный инфодизайн можно делать уже почти везде - дело в твоем скиле как дизайнера и аналитика
ИДИТЕ
- ... (нахер с такими манифестами 🤭)
Секцию ХВАТИТ можно продолжать долго при желании, а вот с конструктивными предложениями все сильно хуже 🤷♂️
🤔 Вообще идея манифеста об использовании датавиза в прикладных областях познания мира и обучения людей для получения реальной пользы - довольно сильная.
Школы, больницы, учебники, урбанистика, лингвистика, научные работы, что еще?..
Все это кажется намного больше заслуживает усилий датавиз-комьюнити, чем бег в колесе дата-журналистики ради просмотра и свайпа в современном тикток-мире
Провокационный и популистский текст (все как мы любим), бьющий во все болевые точки скрепного датавизера 😂
Чувствуется твердая рука data-йога @lingualize 🧘🏻♂️
Естественно хочется накинуть на вентилятор в стиле автора
(⛔️осторожно - далее только с самоиронией):
ХВАТИТ
- Хватит делать BI марафоны c крутыми лендингами, люди после них приходят на собеседования и думают что что-то знают и умеют
- Хватит подкладывать картинку на фон дашборда под графики - мало того, что это бедпректис, это просто пошло. Выглядит как фотообои с водопадом в дешевом ресторане
- Хватит вести телеграм каналы по аналитике, типа ты шаришь за тему больше чем остальные
- Хватит делать "открыточные" дашборды, прекрасные как наше детство, но напрочь далекие от бизнес ценности и непонимаемые пользователями
- Хватит отвлекаться на новые тулы, мы и старые не успевали использовать. Они не так важны как мы думаем. Нестыдный инфодизайн можно делать уже почти везде - дело в твоем скиле как дизайнера и аналитика
ИДИТЕ
- ... (нахер с такими манифестами 🤭)
Секцию ХВАТИТ можно продолжать долго при желании, а вот с конструктивными предложениями все сильно хуже 🤷♂️
🤔 Вообще идея манифеста об использовании датавиза в прикладных областях познания мира и обучения людей для получения реальной пользы - довольно сильная.
Школы, больницы, учебники, урбанистика, лингвистика, научные работы, что еще?..
Все это кажется намного больше заслуживает усилий датавиз-комьюнити, чем бег в колесе дата-журналистики ради просмотра и свайпа в современном тикток-мире
🧐 🤖 Рубрика - Свежий куплет во славу ChatGPT: Статья про настройку ChatGPT на корпоративных данных на базе Azure OpenAI и Cognitive Search
Хайп ChatGPT от OpenAI привел к тому что многие предприятия резко решили начать использовать языковые модели для своих данных. Главная проблема создания таких корпоративных приложений - как обучить модель на этих конкретных данных, чтобы давать точные ответы.
На прошедшей неделе вышла статья, достаточно детально описывающая контуры такого решения на стеке Azure (естественно) - с использованием Azure Cognitive Search и Azure OpenAI Service.
Основные тезисы:
▪️Базовый подход состоит в простом внедрении вашего контекста в prompt (запрос). ChatGPT может прочитать информацию вместе с любыми инструкциями, текстами и ответить соответствующим образом. Этот не требует повторного обучения или настройки модели, и ответы могут отражать любые изменения в базе данных немедленно.
▪️Однако это создает новую проблему: эти модели имеют ограничение на "длину контекста" (текущий ChatGPT может принимать до 4000 токенов в запросе), и даже если бы не было этих ограничений, было бы непрактично внедрять гигабайты данных в текстовый запрос в каждом взаимодействии.
▪️В качестве альтернативы предлагается хранить все данные во внешней базе знаний, которая может быстро извлекать нужные фрагменты с хорошей релевантностью. Именно это делает в схеме Cognitive Search - он же ключевой элемент настройки и адаптации решения. Здесь производится то, что в статье называется семантическим ранжированием, фрагментацией документов, обобщением - фичей для более эффективного "скармливания" в ChatGPT.
▪️Есть наметки ответа и на вопросы доверия/надежности сгенерированных моделью ответов. Предлагается система верификации в UI, которая позволит пользователям адекватно оценивать ответы через обращение к документам и фактам, на основе которых ответы были даны.
Мне интересна эта схема для натягивания на сценарий Insight-Bot, чата отвечающего на вопросы по аналитике корп данных нативнее дашбордов. Тут пока неясно, как надо препарировать таблицы с данными, чтобы Cognitive Search их хорошо находил и обучал модель на лету 🤷♂️. Надо пробовать
Все сценарии внедрения чата в BI дашборды - не выдерживают критики именно из за необогащенности такого взаимодействия контекстом.
Ну и да... конечно, вопросы секьюрности данных и достоверности результата никто не снимал 😒. Но кажется подходящие "Comliance workarounds" подъедут в этом году. Слишком большие бабки в этом новом сегменте, Майкрософт разрулит коллизию как то 👿
🔗 Статья - Revolutionize your Enterprise Data with ChatGPT: Next-gen Apps w/ Azure OpenAI and Cognitive Search
🔗 GitHub repo with examples, including UX, orchestration, prompts
(для написания этого поста использовался ChatGPT 😁)
Хайп ChatGPT от OpenAI привел к тому что многие предприятия резко решили начать использовать языковые модели для своих данных. Главная проблема создания таких корпоративных приложений - как обучить модель на этих конкретных данных, чтобы давать точные ответы.
На прошедшей неделе вышла статья, достаточно детально описывающая контуры такого решения на стеке Azure (естественно) - с использованием Azure Cognitive Search и Azure OpenAI Service.
Основные тезисы:
▪️Базовый подход состоит в простом внедрении вашего контекста в prompt (запрос). ChatGPT может прочитать информацию вместе с любыми инструкциями, текстами и ответить соответствующим образом. Этот не требует повторного обучения или настройки модели, и ответы могут отражать любые изменения в базе данных немедленно.
▪️Однако это создает новую проблему: эти модели имеют ограничение на "длину контекста" (текущий ChatGPT может принимать до 4000 токенов в запросе), и даже если бы не было этих ограничений, было бы непрактично внедрять гигабайты данных в текстовый запрос в каждом взаимодействии.
▪️В качестве альтернативы предлагается хранить все данные во внешней базе знаний, которая может быстро извлекать нужные фрагменты с хорошей релевантностью. Именно это делает в схеме Cognitive Search - он же ключевой элемент настройки и адаптации решения. Здесь производится то, что в статье называется семантическим ранжированием, фрагментацией документов, обобщением - фичей для более эффективного "скармливания" в ChatGPT.
▪️Есть наметки ответа и на вопросы доверия/надежности сгенерированных моделью ответов. Предлагается система верификации в UI, которая позволит пользователям адекватно оценивать ответы через обращение к документам и фактам, на основе которых ответы были даны.
Мне интересна эта схема для натягивания на сценарий Insight-Bot, чата отвечающего на вопросы по аналитике корп данных нативнее дашбордов. Тут пока неясно, как надо препарировать таблицы с данными, чтобы Cognitive Search их хорошо находил и обучал модель на лету 🤷♂️. Надо пробовать
Все сценарии внедрения чата в BI дашборды - не выдерживают критики именно из за необогащенности такого взаимодействия контекстом.
Ну и да... конечно, вопросы секьюрности данных и достоверности результата никто не снимал 😒. Но кажется подходящие "Comliance workarounds" подъедут в этом году. Слишком большие бабки в этом новом сегменте, Майкрософт разрулит коллизию как то 👿
🔗 Статья - Revolutionize your Enterprise Data with ChatGPT: Next-gen Apps w/ Azure OpenAI and Cognitive Search
🔗 GitHub repo with examples, including UX, orchestration, prompts
(для написания этого поста использовался ChatGPT 😁)
TECHCOMMUNITY.MICROSOFT.COM
Revolutionize your Enterprise Data with ChatGPT: Next-gen Apps w/ Azure OpenAI and Cognitive Search | Microsoft Community Hub
Read about combining large language models and your own data to create new app experiences.
🔥 Dashboards Roasting #1
Попробовали новый формат — совместную прожарку бизнес (это важно) дашбордов вместе с Ромой Reveal-the-Data Буниным (Mastermind BI в Yandex Data Lens, гитарист и автор ультрамодного канала).
Намутили подход к оценке дашбордов на базе 5 факторов:
- бизнес-цель,
- визуализация,
- графический дизайн,
- UX,
- технические аспекты.
Все замечания собрали на доске в Miro (выглядит хорошо) и записали наше обсуждение на YouTube на инглише (не выглядит хорошо)
Идея стрима на языке шекспира нам показалось отличной. Обоим нужна практика.
Но вот результат этого отважного эксперимента … потребовал просто всей моей самоиронии))
Жесткий монтаж помог не сильно - местами очень медленно. Рекомендую скорость 1.5-2x.
Плюс технические косяки с картинкой и звуком.
🤬 Кто досмотрит до конца получит bad takes в награду
Ну и напишите свое мнение че.
Пошел скачивать верхнюю часть списка приложений для улучшения Английского. Давно было пора
Попробовали новый формат — совместную прожарку бизнес (это важно) дашбордов вместе с Ромой Reveal-the-Data Буниным (Mastermind BI в Yandex Data Lens, гитарист и автор ультрамодного канала).
Намутили подход к оценке дашбордов на базе 5 факторов:
- бизнес-цель,
- визуализация,
- графический дизайн,
- UX,
- технические аспекты.
Все замечания собрали на доске в Miro (выглядит хорошо) и записали наше обсуждение на YouTube на инглише (не выглядит хорошо)
Идея стрима на языке шекспира нам показалось отличной. Обоим нужна практика.
Но вот результат этого отважного эксперимента … потребовал просто всей моей самоиронии))
Жесткий монтаж помог не сильно - местами очень медленно. Рекомендую скорость 1.5-2x.
Плюс технические косяки с картинкой и звуком.
🤬 Кто досмотрит до конца получит bad takes в награду
Ну и напишите свое мнение че.
Пошел скачивать верхнюю часть списка приложений для улучшения Английского. Давно было пора
(Все время делаю оговорку что не рекламирую ThoughtSpot, но эти ребята регулярно описывают именно ту стратегию пользовательского опыта, которая совпадает с моим представлением о BI системе следующего выбора)
Неудивительно что они первыми оперативно и внятно описали (на прошлой неделе) свою реакцию на повестку - их ThoughtSpot Sage - апгрейднутый поисковый движок объединяет в себе мощь процессинга от OpenAI и локализацию в аналитической BI платформе со всем семантическим и секьюрити "обвесом".
Вопросов все равно больше, чем ответов. Демка весьма общая. Но команда продукта ищет новые модели взаимодействия с casual пользователем и получается симпатично. См например - сценарий обратной связи по качеству результата для дообучения движка пользователем
https://www.thoughtspot.com/product/sage
Чего не сказать пока про любимый tableau, где анонсированный Einstein GPT кажется опять больше про SalesForce. "Слитое" 21 секундное видео пока все чего мы заслужили.
Очевидно одно. BI командам пора думать как будут брать свои вьюхи с кривыми джойнами и логикой и делать нормальные searchable дата модели. Их как ни крути нужно будет скоро скармливать любому BI-Боту, в какой BI системе бы его не запилили, отвечать за результат и старчески нудеть, что дескать это сырая технология и к жизни еще не применимая
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔮 Только что закончился Gartner Data & Analytics summit в Орландо США и некоторые из тех, кто там не был (как я) думают стоит ли ехать на него в другие локации.
Два обзора дают некое представление о ключевых тезисах конференции:
⏯️ Видео 1 - Час обзора конференции на канале SuperDataBrothers
⏯️ Видео 2 - GartnerDA: Top Data and Analytics Predictions, 2023
👀 За что зацепился глаз:
1) 💰Компании почти перестали пытаться показывать ROI data проектов через краткосрочную прямую фин ценность (сокращение затрат и рост выручки) и фокусируются на обосновании через инновационные продукты, дата активы, бренд и стратегическую экспертизу. Нормально для западных компаний живущих на длинных трендах. Хотя может и в пи...цовые времена всем нужно думать стратегично
2) ☕️Аналогия отношений D&A CoE с юнитами как "Модели франчайзинга". Смысл прежний - но термин свежий и доступный. Типа Data Self-Service в линейке бизнеса - как открыть кофейню в регионе: помочь проанализировать рынок, продать оборудование, обучить персонал, мониторить перфоманс, надеяться что не загнется)
3) 🤖Все метнулись пилотировать ChatGPT-like for Enterprise проекты - в этом году все продукты резко впихнут в релиз планы и выпустят что-то конкретное. Отличие этого хайпа от других похожих, что он реально работает и вопрос по сути в "опромышливании" решений и подборе UI. Риски все обсуждают походу дела
4)💡Semantic layer / Headless BI - был бы главным трендом если бы не влез ChatGPT. Проблема Analytics Governance как одна из центральных для BI решений. Тут все понятно, надо уже пробовать.
5) 🤔Якобы есть тренд от идеи микросервисов снова к новым большим платформенным 'all in one' BI системам, построенным при этом с гибкой архитектурой (Gooddata, Tellius). Спорно, возможно тренд ради тренда. Хотя что-то в этом есть, типа есть усталость постоянно "женить решения" не имея в моменте счастливой семейной жизни.
6) к 2026 году половина организаций начнет рассматривать ABI (Analytics&BI) and DSML (Data Science & Machine Learning) тулы как одну скомпонованную систему, на фоне сближений сегментов
Отличие Gartner Data & Analytics summit от вендорских сабантуев:
➕ тут нет атмосферы религиозности. Позиция Gartner относительно равноудаленная. Озвучиваются тренды из практики Gartner, что возникает - что уходит, поднимаются более сложные "неприятные" вопросы, которых вендоры избегают.
➖ Из минусов - большая часть спикеров престарелые эксперты-аналитики Gartner - грузят обобщенными речами без иллюстраций из жизни реальных компаний и не особо вдохновляют.
В целом, многие слайды выглядят интересно, но без комментариев сложно до конца понять их замыслы.
Возможно подъедут еще хорошие анализы саммита, глядишь и ехать в Мумбай/Лондон не придется.
Два обзора дают некое представление о ключевых тезисах конференции:
⏯️ Видео 1 - Час обзора конференции на канале SuperDataBrothers
⏯️ Видео 2 - GartnerDA: Top Data and Analytics Predictions, 2023
👀 За что зацепился глаз:
1) 💰Компании почти перестали пытаться показывать ROI data проектов через краткосрочную прямую фин ценность (сокращение затрат и рост выручки) и фокусируются на обосновании через инновационные продукты, дата активы, бренд и стратегическую экспертизу. Нормально для западных компаний живущих на длинных трендах. Хотя может и в пи...цовые времена всем нужно думать стратегично
2) ☕️Аналогия отношений D&A CoE с юнитами как "Модели франчайзинга". Смысл прежний - но термин свежий и доступный. Типа Data Self-Service в линейке бизнеса - как открыть кофейню в регионе: помочь проанализировать рынок, продать оборудование, обучить персонал, мониторить перфоманс, надеяться что не загнется)
3) 🤖Все метнулись пилотировать ChatGPT-like for Enterprise проекты - в этом году все продукты резко впихнут в релиз планы и выпустят что-то конкретное. Отличие этого хайпа от других похожих, что он реально работает и вопрос по сути в "опромышливании" решений и подборе UI. Риски все обсуждают походу дела
4)💡Semantic layer / Headless BI - был бы главным трендом если бы не влез ChatGPT. Проблема Analytics Governance как одна из центральных для BI решений. Тут все понятно, надо уже пробовать.
5) 🤔Якобы есть тренд от идеи микросервисов снова к новым большим платформенным 'all in one' BI системам, построенным при этом с гибкой архитектурой (Gooddata, Tellius). Спорно, возможно тренд ради тренда. Хотя что-то в этом есть, типа есть усталость постоянно "женить решения" не имея в моменте счастливой семейной жизни.
6) к 2026 году половина организаций начнет рассматривать ABI (Analytics&BI) and DSML (Data Science & Machine Learning) тулы как одну скомпонованную систему, на фоне сближений сегментов
Отличие Gartner Data & Analytics summit от вендорских сабантуев:
➕ тут нет атмосферы религиозности. Позиция Gartner относительно равноудаленная. Озвучиваются тренды из практики Gartner, что возникает - что уходит, поднимаются более сложные "неприятные" вопросы, которых вендоры избегают.
➖ Из минусов - большая часть спикеров престарелые эксперты-аналитики Gartner - грузят обобщенными речами без иллюстраций из жизни реальных компаний и не особо вдохновляют.
В целом, многие слайды выглядят интересно, но без комментариев сложно до конца понять их замыслы.
Возможно подъедут еще хорошие анализы саммита, глядишь и ехать в Мумбай/Лондон не придется.
LinkedIn
LinkedIn Login, Sign in | LinkedIn
Login to LinkedIn to keep in touch with people you know, share ideas, and build your career.
Forwarded from Клуб CDO (PostoplanBot)
Очень интересная статья от Uber о том, как они борются с такой проблемой как Data Shift. Особенно интересная статистика в разрезе существующих проблем с данными.
Для контроля качества компания разработала собственную систему D3 (Dataset Drift Detector).
Система отслеживает качество данных в режиме реального времени, красивые дашборды реализованы. В статье так же довольно детально описана архитектура.
Вот что у них на постоянном мониторинге:
- Null Percentage
- False Percentage
- Percentile (P50, P75, P99, P1)
- Standard Deviation, Mean, Median
- Count Distinct
https://www.uber.com/en-BG/blog/d3-an-automated-system-to-detect-data-drifts/
Для контроля качества компания разработала собственную систему D3 (Dataset Drift Detector).
Система отслеживает качество данных в режиме реального времени, красивые дашборды реализованы. В статье так же довольно детально описана архитектура.
Вот что у них на постоянном мониторинге:
- Null Percentage
- False Percentage
- Percentile (P50, P75, P99, P1)
- Standard Deviation, Mean, Median
- Count Distinct
https://www.uber.com/en-BG/blog/d3-an-automated-system-to-detect-data-drifts/
Для курса было отсмотрено тонны нового по теме в мире, побочным продуктом был рожден Miro board Data Governance Program Guide. На курсе показано 600+ слайдов и потерян голос. Приму как знак.
Добавил немного фасилитации (когда нет своих мыслей - проси других высказать свои🙈).
В итоге есть чем поделиться - см. итоги голосований по вопросам о дата каталогах 👆
Спасибо участникам из Альфабанка, Северстали, Абсолют Банка, Банка Raiffeisen, VK, Visiology, Novartis, Лига Ставок и других компаний за мощный и живой обмен опытом. Я поймал хорошие инсайты по вовлечению data stawards и важности федеративной структуры.
Всем качественных данных, адекватных коллег и любви на пути развития своих каталогов в новом мире
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Канвасианство понемногу захватывает Data-мир -
MIRO-подобный тул Count.co (известный в узких кругах) просек фишку и выпустил Guide to hiring your data team.
Тут хороший набор практик:
- Описание ролей и требований к кандидатам
- Обзор зарплат
- Схемы процесса найма
- Типология интервью
- Детальные списки вопросов
- Темплейты тестовых заданий и скрипты оценки
Выглядит зрело, хотя у больших data команд все посложнее.
Фишка Count здесь показана лицом миру:
🔥 - прямо в канвасе собрано несколько дашбордов по зарплатам на основе Stackoverflow 2022 survey и др источников. Цифры даже выглядят правдиво. Есть данные по России
🔥 - прямо в канвасе - скриптинг в рамках code review тестового задания. Выглядит отлично, но при копировании канваса коннект к данным слетает. Можно скачать с оригинала csv-шки и восстановить. Ну или подключиться к своей базе
На этой неделе общались с продактом MIRO - у них этого функционала не предвидится: не видят они себя как IDE платформу, интеграции с BI тулами очень условные 😒
+ Канвас ссылается на десятки статей и ресурсов компаний, Slack-треды и репозитории Github
🔗 Guide to hiring your data team - можно скопировать и переиспользовать в рамках Count
🔗 Статья - удобно смотреть материал в мобиле
MIRO-подобный тул Count.co (известный в узких кругах) просек фишку и выпустил Guide to hiring your data team.
Тут хороший набор практик:
- Описание ролей и требований к кандидатам
- Обзор зарплат
- Схемы процесса найма
- Типология интервью
- Детальные списки вопросов
- Темплейты тестовых заданий и скрипты оценки
Выглядит зрело, хотя у больших data команд все посложнее.
Фишка Count здесь показана лицом миру:
🔥 - прямо в канвасе собрано несколько дашбордов по зарплатам на основе Stackoverflow 2022 survey и др источников. Цифры даже выглядят правдиво. Есть данные по России
🔥 - прямо в канвасе - скриптинг в рамках code review тестового задания. Выглядит отлично, но при копировании канваса коннект к данным слетает. Можно скачать с оригинала csv-шки и восстановить. Ну или подключиться к своей базе
На этой неделе общались с продактом MIRO - у них этого функционала не предвидится: не видят они себя как IDE платформу, интеграции с BI тулами очень условные 😒
+ Канвас ссылается на десятки статей и ресурсов компаний, Slack-треды и репозитории Github
🔗 Guide to hiring your data team - можно скопировать и переиспользовать в рамках Count
🔗 Статья - удобно смотреть материал в мобиле