Data Driven культура от AW BI
1.08K subscribers
69 photos
5 videos
97 links
Вы на канале про Data Driven культуру, который бережно и старательно ведёт команда российского BI продукта Analytic Workspace — AW BI. Но здесь не про нас, а про ваc.

Про нас здесь: analyticworkspace.ru
https://tttttt.me/awcommunity
Сотрудничество: @GrekovM
Download Telegram
Приветствуем!
Вы на канале про Data Driven культуру, который бережно и старательно ведёт команда российского BI продукта Analytic Workspace.
Но мы не будем рассказывать здесь про наш продукт и нахваливать его, хотя нам есть чем хвастать 😉

Здесь мы делимся информацией из мира больших и малых данных — из мира, в который мы ежедневно окунаемся.
Про что мы здесь пишем:
— Интересные примеры визуализаций.
— Дата сторителлинг.
— ML в BI. BI без ML. ML без BI.
— Кейсы из практики внедрения (как удалось объединить необъединяемое, например).
— Культура DD в общем смысле.
— Тренды на рынке BI.
— Статистика с рынка BI: рост/падение популярности профессии, профиль специалиста и т.п.
— Что почитать.
— Где и чему учиться.

Для удобной навигации используем теги:
#новичкам – знания, точно полезные для тех, кто только погружается в тему.
#профи – информация для тех, кто уже в теме BI.
#ru_bi – информация из мира российских BI.
#визуал – пример классного (или страшного) дашборда.
#практика – примеры из практики, датасеты и прочее.
#мнение – оно и есть мнение.
#технологии – о технологиях в BI.
#статья – полезная статья из мира данных.
#книга – рекомендация книги.
#интервью – интервью с представителями отрасли.
#история – интересная история из мира данных.
#жиза – смешные и не очень зарисовки из Data Driven будней.
#дайджест – подборка ссылок на полезное, увиденное нами.
#мероприятия — анонс или запись классного мероприятия.
#знания — ценные знания из мира данных.

———————————
analyticworkspace.ru — это наш сайт.
@awcommunity — сообщество взаимопомощи специалистов, которые работают с Analytic Workspace.
Про “большие” маленькие и “маленькие” большие данные.

Неделю назад на хабре вышла статья инженера‑основателя Google BigQuery Джордана Тигани "Большие данные мертвы. Это нужно принять". Не будем подробно останавливаться на содержании самой статьи, основные мысли там три:
一 Цунами больших данных, которого все ждали и боялись 10 лет назад, мир так и не накрыло
一 Компаний, оперирующих реально большими данными (петабайты и более) - единицы, реально системы работы с большими данными мало кому нужны
一 Для анализа и принятия управленческих решений в подавляющем большинстве случаев используются только свежие данные, а бюджеты уходят на хранение "озер" и "болот" старых и архивных данных, просто потому, что людям сложно разобраться, какие из них давно пора удалить.


А вот в комментариях под статьей развернулась дискуссия, что же считать "большими данными"? На эту тему не раз поднимались холивары в заинтересованных кругах, и люди не устают ломать копья в попытках прийти к консенсусу.

Поначалу комментаторы давали широко известные и шутливые определения понятию Больших данных:
一 Big Data 一 это когда Excel не справляется
一 это когда приходится на ночь оставлять считать
一 это когда скорость поступления данных превышает скорость их обработки
一 Большие данные или небольшие 一 зависит от того, в каком году вы на них смотрите.

По ходу обсуждения в комментариях выдвигают мысль, что дело не только и не столько в объеме данных:

一 Большие данные - это же не про объем, а про способы обработки. Обрабатываешь всего 300 Гб в день, но с использованием кластера Spark и GreenPlum? Это "большие" данные. Обрабатываешь 1 Тб в день, но это числодробилка на одной машине? Не "большие" данные.
一 На вопрос "с какого объёма начинаются большие данные?" я бы ответил так: с объёма, с которого можно строить обучающие модели.
一 Машинное обучение в предельных случаях может использовать модели с 1-2 параметрами, то есть можно уложиться в 1 байт. Возможность машинного обучения - точно не критерий "больших данных".

Самая же интересная, на наш взгляд, мысль приходит комментаторам дальше:

Большие данные - это, в первую очередь, неоднородность. Если данные однородны, то обработка небольшой выборки даст те же результаты, что и обработка всех данных. У вас нет больших данных, если их не надо разбивать на более однородные кластеры, на которых и строятся модели, на каждом - своя.

Данные разнородные и между собой мало связанные. Отсюда вытекает, что основная сложность не в том, чтобы перелопатить терабайты, а в том, чтобы из на первый взгляд не связанных данных сделать значимые для бизнеса выводы.
У человечества была мечта, что Big Data поможет эти неочевидные связи отлавливать. Или даже так: на больших числах можно будет заменить настоящие связи корреляцией.

Вот, наверное, суть больших данных в том и заключается, чтобы придумать метод анализа данных, не имеющих очевидной связи.

#статья
Ко Дню космонавтики: звездная статистика

Миллиарды звезд, бесконечная Вселенная… Просто кладезь “больших данных”! Но кто сейчас считает звезды? Все, кто умеет жить - считают деньги)). А мы, вслед за чудаками, кто все еще смотрит в небо, поговорим сегодня о звездной статистике, хотя бы в День космонавтики.

Ученые не устают размышлять - одни ли мы во Вселенной? Какова вероятность существования жизни вне Земли и где ее искать? Очевидный ответ - на орбите звезды, подобной Солнцу и на голубой планете, подобной Земле! Но те, кто не понаслышке знаком с большими данными и статистикой, знают, что самый очевидный ответ - далеко не всегда самый правильный.

Когда стали подсчитывать, какого типа звезд на небе больше всего, оказалось:
желтых карликов типа Солнца - всего 7% (28 млрд. таких звезд)
красных карликов, многие из которых не видны на небосклоне из-за низкой яркости - более 75% (более 300 млрд)!

Почему так происходит? Оказывается, жизненный цикл звезды с низким уровнем яркости свечения - значительно дольше, чем у звезд типа Солнца. Значительно - это триллион лет у самого яркого красного карлика против “жалких” 20 млрд лет для Солнца. Соответственно, более “живучая” звезда может обеспечить для жизни на своей обитаемой планете намного более долгий срок для эволюции. Ведь при прочих равных главное условие для развития жизни на планете - это стабильный свет звезды.

Возвращаясь к количеству потенциально пригодных для жизни планет, - на орбитах звезд солнечного типа, по статистическим подсчетам, вращается 5 млрд. планет сравнимых с Землей по массе (это важно, чтобы удерживать атмосферу и воду в жидком состоянии). А на орбитах красных карликов - 120 млрд таких планет!

Вот так, пользуясь звездной статистикой, мы (вместе с учеными) выяснили, что наибольшая вероятность встретить жизнь - на орбитах красных карликов, которых мы даже в телескоп никогда не увидим… #статья
Чат GPT и диалектика

Удивительно, как все в мире подчиняется единым законам диалектики. Даже если речь идет не о природных явлениях, а об искусственном интеллекте, созданном исключительно человеком. Хотим поделиться красотой этого явления на примере небезызвестного чата GPT.

Базовый принцип действия этой мощной интеллектуальной машины довольно прост и аналогичен подсказчику Т9 из вашего телефона, об ошибках которого сложено немало анекдотов.

Машина подбирает наиболее вероятное следующее слово, опираясь на предыдущий текст. Вероятность каждый раз определяется по уравнению y = k*x + b, где x - предыдущее слово, y - следующее (искомое) слово, а вся магия - в значениях коэффициентов k и b, которые как раз и являются результатом машинного обучения и по сути описывают правильность подобранной математической модели.

Если эту простую схему повторить огромное количество раз на больших данных (загрузив, например, 40Гб текстов с Reddit для обучения модели) с использованием математических матриц, то смешной Т9 превращается в пугающий безработицей для копирайтеров чат GPT. Но самое интересное - дальше!

Люди начали побаиваться искусственного интеллекта еще на заре его изобретения и с тех пор все время пытаются доказать что не-е-ет, человек все же лучше, умнее, мыслит образнее и так далее. В данном случае поддержкой гордости за звание человека долгое время служили двусмысленные задачи, например:

- Рыба проглотила приманку. Она была вкусная.
- Рыба проглотила приманку. Она была голодная.

95% людей сразу понимают, что в первом утверждении “она” - это приманка, а во втором случае “она” - это рыба. Чат GPT-1 (первого поколения) тут абсолютно попадал пальцем в небо. Ну и ладно, человек похлопал его по плечу и с облегчением выдохнул. И стал работать над вторым поколением чата GPT, предложив ему для обучения вместо 100 млн математических моделей сразу полтора миллиарда.

И внезапно случился интересный побочный эффект. Чат GPT-2 сам собой научился решать задачки с двусмысленностями, хотя специально его никто этому не обучал! Сработал пресловутый закон диалектики “Переход количества в качество”, причем случилось это скачкообразно после увеличения количества предлагаемых математических моделей свыше 700 млн. Красиво и страшно. А вам?
#статья
Квадрант Гартнера по BI 2023. Часть 1.

Поделимся некоторыми наблюдения относительно свежего обзора Гартнером BI систем.
Вы же, наверное, знаете что Gartner раз в год строит свои Magic Quadrant по разным темам, включая BI?

1/ BI → ABI.
Возможно, они и ранее BI называли ABI, но в 2023 это прям красной нитью через весь отчёт.
ABI = Analytics and business intelligence.

2/ ABI не равно визуализация.
Сетуют, что много лет BI было про измерения и работу с данными, но по мере развития self service (самообслуживания) стало больше упора на визуализацию. В последнее время многие стали отождествлять BI с красивой визуализацией, но это не правильно. Наверное, именно для этого Analytics к BI добавили, чтобы подчеркнуть, что не только визуализация.

3/ Убрали из обзора критерий Natural language generation (NLG).
Это когда есть повествование о данных на привычном для человека языке: Иван Иваныч, бизнес просел в 3 раза.
Сделали этот критерий подразделом для оценки дата-сторителлинга (вероятно, мало кому нужен NLG или мало у кого он есть в приличном виде).

4/ Облачные вычисления больше не критерий оценки ABI.
Это теперь стратегия выхода на рынок. В облаке считает система или локально — это не опция, а стратегия.
Справедливо, особенно в условиях всеобщей тяги к облакам.

5/ Перестали оценивать безопасность ABI
Все видимо научились нормальный доступ давать до данных с приличным администрированием.

6/ Ставка на вендоронезависимую архитектуру.
Говорят, что потребители сетуют, что ABI-системы друг на друга одеяло перетягивают, а пользователям надо больше открытости и взаимоинтегрируемости.

7/ Новый критерий — взаимная работа.
Описан относительно размыто: от интеграции со Слаком до совместной работы над отчётом. Всё идёт к некому Miro/Figma, но для совместной работы с данными. Пока идёт медленно, но вектор развития видят в эту сторону.

8/ Новый критерий — хранилище метрик.
Возможность создавать каталоги метрик из хранилища и работать с ними централизованно. Т.е. ты не всякий раз "План продаж" в агрегате считаешь, а сделал метрику "План продаж" и работаешь с ней централизованно, исправляя в едином месте.

9/ Новый критерий — Data science integration.
По сути это оценка уровня самообслуживания ABI с точки зрения применения из коробки Data science и Machine learning рядовыми пользователями.
Может ли Вера Павловна из Отдела по работе с клиентами какую-то научную сегментацию клиентов сделать сама или ей для этого надо ставить тикет для Валеры Дата-саентолога, который на удалёнке в другом часовом поясе.

10/ Лидеры Квадранта: Microsoft (Сами знаете с какой системой), Qlik, Sales Force (Tableau).
Кстати, 29 июня будем рассказывать как мы с Analytic Workspace можем заменять в России большую тройку — обзорище фишек будет.
Регистрируйтесь: https://analyticworkspace.ru/aw-selfservice-bi

Завтра расскажем, за что именно в Гартнере ругают лидеров квадранта. Не переключайтесь 😉

#статья
За что Гартнер ругает Power BI, Tableau и Qlik
Это продолжение поста выше, в котором были приведены некоторые выдержки из свежего обзора Gartner ABI-систем.
Мировые лидеры известны, но и к ним есть вопросы, которые коллеги в Гартнере называют "Предостережения/Cautions".

Итак
1️⃣ Microsoft (флагманский продукт Power BI)
— Управление созданием и публикацией контента. Клиенты жалуются, что в Power BI слишком много способов выполнять задачи моделирования и публикации из-за чего сложно следить за соблюдением стандартов.
— Вендорозависимость. Клиенты с одной стороны рады, что PBI хорошо интегрирован с другими продуктами Microsoft, но с другой стороны не рады, что нельзя интегрироваться с другими BI решениями.
— Облачный PBI только в Azure. Не все этому рады.

2️⃣ Tableau
— Снижение выручки, увольнения и проблемы с поддержкой. Клиенты жалуются, что стандартная поддержка Табло работает очень вяло, а деньги на преум-поддержку есть не у всех. К тому же есть волнения по поводу снижения выручки Табло и информации об увольнении сотрудников.
— Многое новое делается ради большей интеграции с Salesforce. Это, конечно, ожидаемо — Salesforce купил Tableau. Теперь в роадмапе Табло много работ для интеграции в экосистему Salesforce. Многие клиенты переживают, что не смогут получить полной отдачи от Табло, если у них нет Salesforce.
— On-premise версия чахнет. Salesforce имеет стратегию на облака и Табло будет работать в рамках этой стратегии. Пользователям on-premise версий стоит напрячься.

3️⃣ Qlik
— Слабая экосистема. Тут больше про то, что по сравнению с Microsoft у Qlik очень мало предложений "всё сразу из облака".
— Много внимания к обработке данных, снижение внимания на аналитику. Клик много внимания уделяет ETL (в том числе поглощает нишевые ETL-решения): Гартнер предостерегает, что времени для развития непосредственно аналитики и визуализации у Клика не хватает.
— Дорогой.

#статья
Как измерить Data Driven

Аналитики СберМаркета сделали для себя метрику датадривности — оцифровали уровень data-культуры в компании.
Их пример может быть многим полезен, так как мутный термин "Уровень Data Driven культуры" переносит во вполне понятную плоскость — Data Driven Index.

Метрика состоит из трёх подметрик:
— Индекс стабильности данных: по сути это SLA обновления витрин и дашбордов.
— Индекс качества данных: тут уже сложнее, но по сути отражает насколько хорошо данные готовы к анализу.
— Индекс использования данных: как часто и кто использует данные.

Более детально про Data Driven Index в статье на Хабре: https://habr.com/ru/companies/sbermarket/articles/745868/

#статья
Сколько стоит бесплатное ПО

О каком бы аспекте жизни ни шла речь, своей цели можно достичь разными способами. При выборе программного обеспечения для BI, компании сталкиваются с двумя основными вариантами: проприетарные решения от вендоров и Open Source (свободно распространяемые, бесплатные) альтернативы.
В среде ИТ-профессионалов бытует мнение, что любую ИТ-задачу бизнеса можно решить при помощи любого инструмента. Любой софт можно найти в виде Open Source варианта.

Действительно, у  Open Source ПО есть ряд преимуществ, и самые вкусные среди них эти два:
Открытый код, который может быть изменен без нарушения авторских прав, что обещает высокую гибкость и возможность кастомизации ПО под нужды бизнеса
Отсутствие платы за лицензии, и это самая манящая приманка

Но чем эти преимущества могут обернуться на практике?
🧨Открытый исходный код провоцирует сложное внедрение - для реализации проекта и обеспечения его работоспособности в будущем нужны высокооплачиваемые специалисты высокого уровня в разных областях программирования
🧨Деньги любят счет, и теперь давайте проведем маленькое сравнение на примере. Допустим, организации требуется внедрить BI-систему на 500 пользователей и стоит выбор между Open Source решением и российской BI-платформой Analytic Workspace (AW BI). Посчитаем затраты на реализацию проекта:

Проект и внедрение:
Для реализации Open Source BI необходимо около 400 человеко-дней, в то время как внедрение проприетарной системы займет ~230 человеко-дней. Обусловлено это различие необходимостью создания хранилища данных (DWH) для Open Source варианта, более сложной настройкой ПО, компонентов и коннекторов. В пересчете на деньги это ~16 млн руб для Open Source против ~9 млн на проприетарный BI.

Специалисты в штат:
Для поддержания в рабочем состоянии Open Source архитектуры организации потребуется сколотить и постоянно держать в штате мощную команду ИТ-специалистов высокого уровня. Как минимум, потребуются SQL-разработчик, Data-инженер и разработчик BI, их общая заработная плата составит около 4 млн руб в год. Проприетарный BI предоставляет полноценную техподдержку, поэтому можно обойтись наймом одного SQL-разработчика. Стоимость техподдержки AW BI - 20% от стоимости лицензий со второго года, это около 250 тыс руб в год.

Стоимость лицензий:
А теперь самое вкусное: при выборе Open Source не нужно платить за лицензии! В случае AW BI при выборе on-premise решения с бессрочной лицензией придется оплатить порядка 11 млн руб единоразово.

Итак, считаем!
Open Source / AW BI
1-й год: 20 млн / 21 млн
2-й год: 4 млн / 1.5 млн
3-й год: 4 млн / 1.5 млн…

Видно, что затраты на Open Source BI в нашем примере уже на второй год использования превышают затраты на владение проприетарным BI. Этим постом хотелось подчеркнуть, что при выборе ПО стоит ориентироваться не столько на стоимость лицензий, сколько на другие преимущества и особенности, исходя из задач конкретного бизнеса. #статья
Как не стать буридановым ослом от BI

Мы конечно не понаслышке знаем о проблемах вендоров российского BI, которые верят в высокий потенциал своей платформы и делают все возможное для продвижения ее на высококонкурентном российском рынке. Но в этом посте хотим обсудить те сложности, с которыми сталкиваются компании при выборе российской BI-платформы, впервые или в рамках импортозамещения.

Вот несколько рекомендаций, которые дают на хабре клиенты, уже прошедшие этот тернистый путь: шутка ли - выбрать из двух десятков предложений, каждое из которых по словам сейлзов и маркетологов, подходит им идеально!

👍Полезно:

Профессиональные сообщества, посвящённые продукту.
Если они существуют не для галочки, и если там идут обсуждения реальных задач — одни спрашивают, другие делятся опытом, значит продукт живет. Кстати, подписывайтесь на наше сообщество AW BI😜

Контент в открытой форме. Доступность открытого контента — это важный показатель. Если у вендора реально есть накопленная база How-To и количество материалов, необходимых для работы, постоянно растет, это хороший знак.

Кейсы и истории успеха. Например, если вендор делает все проекты только в одной крупной монополии, стоит задуматься, подойдет ли вам его продукт?

Кадры. Если система предлагает обучающие курсы (например, вот курс "BI-аналитик" от AW BI Academy на платформе Stepik), которые готовят кадры под этот BI-продукт, и эти курсы пользуются популярностью, значит, продукт будет развиваться.

Особые фичи. У некоторых платформ есть какие-то особенности, которые позволяют выделить их среди других для вас лично. Это будет объективный фактор, но его стоит рассматривать только как дополнительный аргумент. Ведь если система не потянет, например, ваш объем данных, какой в этом всем смысл?

Выводы автора статьи на хабр, что делать при выборе BI бесполезно или вредно, на наш взгляд, несколько неоднозначны и субъективны, и сильно зависят от конкретного случая. #статья
Под какими знаками Зодиака рождается больше великих людей?

Аналитики, влюбленные в статистику, не были бы самими собой, если бы даже такую антинаучную задачу не решили с помощью BI)).

Сначала собрали данные из 42 000 статей Wikipedia о великих людях, спарсив ресурс с помощью Python библиотеки Scrapy.

Затем настал черед предобработки данных.

💫Вытащили даты рождения, используя регулярные выражения и простую логику: годы были записаны 4 символами, даты 1-2 символами, а месяцы текстом - всего 3-4 варианта формата даты.
💫Выделили страну рождения: взяли гипотезу, что она должна упоминаться максимально близко к слову “was born”.

Затем был сделан дашборд в BI-системе, где и выявились закономерности:

📌В разных странах были разные лидеры по знакам Зодиака;
📌Топ знаков Зодиака: Рак, Овен, Близнецы, Телец, Козерог.

Этому замечательному исследованию посвящена статья на хабре: в свободном доступе выложен дата-сет и исходник, а также сам дашборд: можно все проверить самостоятельно. #статья
Три закона диалектики на примере таблицы Менделеева

Может быть, этот пост получится и немного оффтопик к теме "Data Driven", однако он как публикации об астрономии на хабре - не по теме, но интересно: порой стоит вспоминать о фундаментальных законах того мира, в котором мы живем.

А мир наш глубоко диалектичен. И нагляднее всего принципы диалектики иллюстрируются на примере периодической таблицы элементов Д.И. Менделеева.

Для начала, вспомним, что электрически нейтральный атом состоит из положительно заряженного ядра, и отрицательно заряженных электронов, которые вращаются вокруг ядра. Электроны движутся не как попало, а по определенным орбитам, которые создают энергетические уровни.

В таблице Менделеева:
📌номер ряда (периода) = количество энергетических уровней в атоме
📌номер столбца (группы) = количество электронов на внешнем уровне.

Закон перехода количества в качество
Хотя один химический элемент может отличаться от другого только количеством протонов, нейтронов и электронов, они все обладают разнообразными свойствами. Например, углерод (C) и азот (N) различаются всего на один электрон на внешней орбитали, но представляют собой совершенно разные вещества. Этот закон подтверждает, что добавление одного электрона на внешнюю орбиталь (и, соответственно, одного протона в ядро) приводит к изменению свойств вещества и образованию нового элемента.

Закон единства и борьбы противоположностей
Элементы в периодической таблице формируют диалектические пары с противоположными свойствами. Например, щелочные металлы в первой группе и галогены в седьмой группе представляют собой такую пару (и, взаимодействуя, образуют очень устойчивые соли вроде поваренной (хлорид натрия, NaCl)). Постепенное изменение количества элементов в паре приводит к качественным изменениям в материи, переходя от щелочных металлов через их противоположность (галогены) до полного отрицания - инертных газов.

Закон отрицания отрицания
Восьмая (крайняя правая) группа элементов в периодической таблице состоит из инертных газов, которые известны своей неактивностью в химических реакциях благодаря заполненности их внешнего электронного слоя.

Элементы первой группы (крайняя слева) - щелочные металлы, напротив, требуют больших усилий для подавления их активности (скажем, металлический натрий хранят под слоем керосина). Таким образом, инертные газы являются отрицанием щелочных металлов.

Однако с увеличением атомной массы инертных газов всего на 1 протон происходит резкий переход обратно к щелочным металлам в начало следующего, более высокого периода. Это переход ведет к отрицанию предыдущего отрицания, и вся история переходит на новый уровень с новой диалектической парой.

Это наблюдение говорит о том, что законы диалектики, отраженные в периодической таблице элементов, позволяют нам предсказывать и ожидать существование элементов, которые еще не были обнаружены на момент составления таблицы. Пустые ячейки в таблице, особенно в исходном варианте таблицы Менделеева, указывают на элементы, которые были предсказаны на основе этих законов, но еще не были открыты на тот момент. С течением времени и развитием научных исследований, многие из пустых мест в таблице были заполнены, и ученые смогли подтвердить свои предсказания.
#статья
Визуализация статистики о том, что и так все знают

Статья про то, как автор на основании банковских транзакций проанализировал на что люди тратят свои деньги в определенный момент времени. Временны́е статьи разбиты на 16 категорий — супермаркеты, фастфуд, транспорт, АЗС, алкоголь, здоровье и так далее.

Автор предоставил ChatGPT пример своих данных, описал задачу и начал просить сделать визуализацию, постепенно исправляя баги и дорабатывая фичи. Изменить анимацию, поправить градиент цветов, переместить плашку времени, запустить отсчёт — это и многое другое написал ChatGPT.

На визуализации видно, что на обед люди ходят в ближайшее кафе и заправляют машину, после работы — в супермаркет, а на выходных — отдыхают в увеселительных заведениях.

Ожидали ли вы такую концентрацию транзакций в определенных зонах в определенное время? Удивляет, например, доля людей, которые делают импульсивные покупки в категории дом и ремонт в 4 утра 😊
Перейти к статье
#статья