Data Driven культура от AW BI
1.08K subscribers
69 photos
5 videos
97 links
Вы на канале про Data Driven культуру, который бережно и старательно ведёт команда российского BI продукта Analytic Workspace — AW BI. Но здесь не про нас, а про ваc.

Про нас здесь: analyticworkspace.ru
https://tttttt.me/awcommunity
Сотрудничество: @GrekovM
Download Telegram
Приветствуем!
Вы на канале про Data Driven культуру, который бережно и старательно ведёт команда российского BI продукта Analytic Workspace.
Но мы не будем рассказывать здесь про наш продукт и нахваливать его, хотя нам есть чем хвастать 😉

Здесь мы делимся информацией из мира больших и малых данных — из мира, в который мы ежедневно окунаемся.
Про что мы здесь пишем:
— Интересные примеры визуализаций.
— Дата сторителлинг.
— ML в BI. BI без ML. ML без BI.
— Кейсы из практики внедрения (как удалось объединить необъединяемое, например).
— Культура DD в общем смысле.
— Тренды на рынке BI.
— Статистика с рынка BI: рост/падение популярности профессии, профиль специалиста и т.п.
— Что почитать.
— Где и чему учиться.

Для удобной навигации используем теги:
#новичкам – знания, точно полезные для тех, кто только погружается в тему.
#профи – информация для тех, кто уже в теме BI.
#ru_bi – информация из мира российских BI.
#визуал – пример классного (или страшного) дашборда.
#практика – примеры из практики, датасеты и прочее.
#мнение – оно и есть мнение.
#технологии – о технологиях в BI.
#статья – полезная статья из мира данных.
#книга – рекомендация книги.
#интервью – интервью с представителями отрасли.
#история – интересная история из мира данных.
#жиза – смешные и не очень зарисовки из Data Driven будней.
#дайджест – подборка ссылок на полезное, увиденное нами.
#мероприятия — анонс или запись классного мероприятия.
#знания — ценные знания из мира данных.

———————————
analyticworkspace.ru — это наш сайт.
@awcommunity — сообщество взаимопомощи специалистов, которые работают с Analytic Workspace.
Data-driven облом

Интересная история провала бренда Coca‑Cola, которая произошла в 1985 году. Многие считают это самым крупным провалом в маркетинге 20 века.

Дело было так. Coca‑Cola всегда выигрывала у Pepsi и была (да и есть) напитком №1 во всём Мире. Но в 70-80-х стали падать продажи Колы, а Пепси при этом запустила крупную акцию: Pepsi Challenge и на слепых тестах стала выигрывать у колы по вкусу. Да, Пепси вкуснее на слепых тестах. Слепой тест, это когда тебе дают попробовать продукт, но не называют бренд.

Кола расстроилась на фоне всего этого и приняла решение поменять рецептуру: нам надо стать ещё вкуснее. И у них получилось — химики придумали новый рецепт, который на слепых тестах был вкуснее и оригинальной Колы, и новой Пепси. В общем, фокус-группы на (внимание на цифру!) 200 000 человек подтвердили, что новая рецептура вкуснее.

Радостная Кола запустила масштабную акцию: потратила миллионы на рекламу и дистрибуцию и стала ждать результатов. Банка осталась почти та же, только с ярлычком "Новая". Производство прежней колы было (внимание ещё раз!) остановлено.

И тут началось что-то, похожее на "Дуров, верни стену!", но в большем масштабе:

По всей стране возникали протестные группы, такие как «Общество сохранения настоящих ценностей» и «Сообщество американских любителей старой Coca‑Cola». Последние заявляли, что в их ряды вступили 100 тысяч человек, жаждущих возвращения прежней формулы. В честь старого вкуса сочинялись песни. А перед офисом Coca‑Cola появились демонстранты с плакатами, на которых было написано «Наши дети никогда не узнают, что такое чувство настоящей свежести».

Компания получала по 1500 звонков в день от покупателей — до появления новой Колы среднее ежедневное количество звонков не превышало 400. Глава совета директоров Колы, Роберто Гойзуэта, получал гневные письма. В одном из писем отправитель просил об автографе: «Однажды подпись самого тупого топ-менеджера в истории американского бизнеса будет стоить целое состояние!». Даже Фидель Кастро высказался о новой Коле, сказав, что изменение рецептуры — это признак упадка Америки. Короче, всё плохо.

В итоге, через 3 месяца Кола сдалась и вернула классическую рецептуру. Эта новость стала главной для новостных телеканалов и появилась на первых полосах всех общенациональных газет. Покупатели выдохнули с облегчением — "Дуров вернул стену".

В общем, что мы видим: данные показывали — вот хороший рецепт он лучше прежнего, бери его. Покупатели сказали: мы не хотим, чтобы наш любимый напиток меняли и лезли в наши ценности. Как говорит сама Кола — мы не тот вопрос задавали: вместо того, чтобы спрашивать людей, что вкуснее, надо было просто поинтересоваться: "Стоит ли нам менять вкус Coca-Cola?" В итоге всё обошлось: шумиха подстегнула новый интерес к бренду, но так не хотели, и всё могло бы обернуться печально.

#история
Data Driven подход в дизайне стоит ли игра свеч?

На первый взгляд - конечно! Ведь все помнят бои на тему дизайна, у каждого свое мнение в какой цвет перекрасить логотип или вообще «руки прочь». А вот если данные предоставишь и статистику покажешь, то да, никакой «вкусовщины» только реальные цифры.
Но посмотрим на обратную сторону вопроса, при таком подходе каждый штрих должен быть подкреплен цифрами и обоснован, что непременно приведет к:
- гигантскому увеличению времени на разработку дизайна;
- недовольству личности дизайнера, ведь это тонкие натуры, способные креативить и создавать новое на основе собственного опыта, мышления, кругозора.

Старая, но заставляющая задуматься цитата ведущего дизайнера Дугласа Боумена, уволившегося из Google со словами:
«Да, это правда, что команда в Google не могла выбрать между двумя вариантами синего, поэтому они тестируют 41 оттенок, чтобы увидеть, какой из них лучше работает. Недавно у меня была дискуссия о том, должна ли граница быть шириной 3, 4 или 5 пикселей, и меня попросили доказать свою правоту. Я не могу действовать в такой обстановке. Я уже устал обсуждать такие незначительные дизайнерские решения. В этом мире есть более захватывающие проблемы дизайна, которые требуют решения.»

#история
Принимать решения вопреки данным

Сегодня история про Джеффа Безоса и запуск Amazone Prime.
Prime — это подписка для покупателей Amazone на скоростную доставку. Платишь определённую сумму в месяц и тебе доставляют любые товары быстро и бесплатно.

Внедрение Prime увеличило средний чек покупателя примерно в 2 раза + конечно, вырос LTV (доход от покупателя за всё его время).

Но в 2005, когда Prime внедряли, ситуация была такая (фрагмент из книги Брэда Стоуна "The Everything Store. Джефф Безос и эра Amazon"):

=====
Создание программы подписки на сервис ускоренной доставки Prime было во многих отношениях рискованным предприятием. Компания не имела точного представления о том, как программа повлияет на количество совершаемых покупок или изменит спрос на товары
различных категорий.

Если скоростная транспортировка одного заказа стоила компании 8 долларов, и если клиент, подписавшийся на данную услугу, осуществлял 20 заказов ежегодно, это обходилось Amazon в 160 долл. транспортных расходов, что значительно превышало сумму взноса, равную 79 долл.

Услуга дорого обходилась компании, и никакого ясного способа достижения уровня безубыточности здесь не существовало.
«Мы приняли это решение вопреки выводам, полученным при анализе финансовых аспектов, которые подтверждали, что мы сошли с ума, решив бесплатно оказывать услугу двухдневной транспортировки», – говорил Диего Пьячентини (управляющий в Amazone).
Безос, однако, продолжал полагаться на свою интуицию и опыт.
=====

Данные говорят: Вы запустили услугу, оказание которой приводит к убыткам компании, а влияние этой услуги на поведение покупателей в перспективе неизвестно.
Ваши действия?

#история
Занимательная статистика

Статистика является важнейшим инструментом в принятии решений, исследованиях и решении проблем. Она помогает понять взаимосвязи, выявить тенденции и предсказать будущие результаты.

Однако, с ростом объемов доступных для анализа данных в них всё чаще появляются случайные, ложные и искусственные совпадения. Например, здесь и здесь можно узнать о том, что число вышедших фильмов с Николасом Кейджем влияет на количество утонувших в бассейне людей, и почитать про электрические сны лосося.

Также, статистические методы дарят нам формально верные, но вместе с тем и противоречащие нашей интуиции факты. Например, вы знали о том, что в любой группе из 24 и более человек, вероятность совпадения дней рождения (число и месяц) хотя бы у двух человек превышает 50%?

Давайте разберем следующую задачу. Предположим, у нас есть медицинский тест, который с 95%-ой точностью позволяет определить наличие или отсутствие у пациента болезни, которая распространена среди 1% от всех людей. То есть, с вероятностью 5% этот тест либо не показывает болезнь, когда она есть, либо показывает болезнь, когда её нет.

Предположим, что вы прошли тестирование и получили положительный результат. Итак, вопрос. Какова вероятность того, что вы действительно болеете?

Не вдаваясь в тонкости применения знаменитой формулы Байеса для условной вероятности, сразу скажем, что в таком случае вы действительно болеете с вероятностью (внимание!) примерно 16%, а с вероятностью 84% вы здоровы!

Именно поэтому, нужно получать подтверждение предположительно случившегося маловероятного события несколько раз. В нашем случае, нужно делать тест второй раз (и, желательно, в другой лаборатории). Вероятность получить ложно-положительный результат два раза подряд будет уже не 5%, а 0,25% - и в этом случае, результату уже можно доверять.

#история
С чего начался анализ данных, как наука

Отмотаем 60 лет и предоставим слово Джону Тьюки:

"Долгое время я считал себя статистиком, интересующимся выводами от частного к общему. Но по мере того, как я наблюдал за развитием математической статистики, у меня появлялись поводы для удивления и сомнений. И когда я размышлял о том, почему такие методы, как спектральный анализ временных рядов, оказались столь полезными, стало ясно, что их аспекты "работы с флуктуациями" во многих обстоятельствах менее важны, чем те аспекты, которые уже были необходимы для эффективного решения более простого случая очень обширных данных, где флуктуации уже не представляли проблемы.

В целом, я пришел к выводу, что мой главный интерес - это анализ данных, который, как я понимаю, включает в себя, помимо прочего: процедуры анализа данных, методы интерпретации результатов таких процедур, способы планирования сбора данных, чтобы сделать их анализ проще, точнее или точнее, а также все механизмы и результаты (математической) статистики, которые применимы к анализу данных."

Так начинается статья "The Future of Data Analysis", опубликованная Джоном В. Тьюки в 1962 году. Именно с этой работы принято отсчитывать историю анализа данных как отдельной научной и практической дисциплины. Оригинал статьи (осторожно, английский).

#история
«Просим вас, возможно, уволить, аналитический отдел, который предоставил эту неверную информацию»

На днях на ПМЭФ случился BI-казус.

Герман Греф в своём выступлении сказал и на столбиках показал, что после смены бренда Starbucks на Stars продажи упали на 76%.
И это самое большое падение среди крупных брендов: к примеру, «Вкусно и точка» просела только на 18%.

После этого Тимати записал обращение к Грефу, в котором сказал, что «идет свыше 5% прироста по отношению к данным статистики компании Starbucks на 2021 год».
Тимати Позвал Германа Оскаровича выпить кофе в Stars, точка которого находится в центральном офисе Сбера, а также уволить аналитиков.

На самом деле аналогичная ситуация может произойти вообще в любой компании, которая начинает анализировать свои данные:
1/ Возможно, спор идёт о разных показателях. Ни Тимати, ни Греф не говорят единицу, в которой измеряют свои цифры. Просесть могло одно, а подрасти другое.
Часто даже внутри компании коллеги по-разному считают метрики, которые называют одним и тем же словом. А потом приходит налоговая, которая считает третьим способом, а после Росстат, который четвёртым.
2/ Наверняка выводы опираются на разные источники данных.
Качество данных — это фундамент для выводов и визуализации.
3/ Разные периоды. Возможно, идёт обсуждение данных за разные периоды — Тимати сравнивает 2022 к 2021. А аналитики Сбера «данные после смены бренда».

С научной точки зрения процесс исследования пути данных называется Data Lineage — мы писали об этом выше.
Скорее всего, Data Lineage сейчас и заняты аналитики Сбера, которых предложил уволить Тимати.

#история
Мы спросили у нашего руководителя BI направления - Надежды Андреевой - что самое важное при внедрении BI.
Однажды, проводя обучение по бухгалтерскому учету, я стала свидетелем горячего спора, относится ли лопата к материалам или основным средствам. Казалось бы, все работают в одной системе координат и по одним и тем же законам, но понимают их по-разному)
Одна из самых важных задач при внедрении BI – унификация данных, когда все вместе сели и определили, что есть что, и как это рассчитывается.
Например, мы рассчитываем стоимость привлечения лида. Считать ли всех, кто перешел на сайт, или только тех, кто оставил заявку?
В итоге определяем, что переход не равно лид, и используем формулу:
CPL = Стоимость рекламы / количество лидов, оставивших заявку.
Для различных пользователей системы могут быть интересны разные разрезы, кому-то важна детализация по времени нахождения на сайте, кому-то важно, с какой именно рекламной кампании пришёл лид. Разрезы могут быть разными, и важно это также учесть.
Но сколько бы пользователей/департаментов не участвовало в проекте, перед внедрением нужно определить общие показатели и унифицировать их расчет на уровне компании. Не может один и тот же показатель в разных отделах считаться по-разному.
Когда накапливается большой объём данных из различных источников, задача выглядит довольно сложно, но это важный этап, без которого внедрение бесполезно.
Иначе вы просто перенесете хаос в BI, который призван его упорядочить.

#история
DD в спорте
Аналитика данных в любых видах спорта достаточно объёмная тема со своей собственной историей. 30 лет назад многие представители спорта очень недооценивали "циферки и какие то линии". Да и относительно недавно скептики были: «Аналитика вообще не работает. Эту фигню выдумали какие-то умные, но бесталанные ребята , чтобы пролезть в игру» — в 2015 году сказал Чарльз Баркли (член Зала Славы НБА).

Но спортивная аналитика работает 😉

Для примера возьмем футбол: самая популярная игра в Мире на данный момент.
Аналитика решает как задачи, важные в рамках конкретного матча — например, снабжает вратаря информацией о том, в какой угол нападающий соперника чаще всего бьет пенальти. Так и задачи стратегические: повышение результативности матчей и финансовых результатов от их проведения.

Именно аналитика позволяет собрать из не самых сильных в индивидуальном плане игроков очень сильную команду.

Мало собрать информацию о конкретном защитнике или нападающем: залог успеха именно в сопоставлении возможностей игрока и запроса команды.
Клуб может купить самого дорогого футболиста в Мире — но в рамках команды он не раскроет свой потенциал полностью, и наоборот — клуб может взрастить и обучить того, кто будет показывать очень большие результаты, но вообще не сможет раскрыться в другой команде. И именно аналитика позволяет менеджерам клубов грамотно распределять бюджет на зарплатный фонд.

🥸 Спортивная аналитика требует высококвалифицированных специалистов, и умение сотрудничать с другими отраслями.

Последние 15-20 лет наблюдается четкая тенденция: в любых спортивных организациях формируются специализированные отделы для работы с данными. Если раньше эти задачи ложились на менеджеров, их помощников и так далее, то сейчас существуют отдельные исследовательские центры в клубах, федерациях и университетах.
Полученные данные помогают менеджерам, которые лучше понимают настроения игроков вне матчей, а также врачам, которые дают рекомендации по нагрузкам для того или иного члена команды.

😎 Отличное применение спортивной аналитики — борьба с серыми схемами и незаконными доходами.
Анализ матчей, что в бейсболе, футболе или хоккее, позволил выявлять договорные матчи, в ходе которых тренера и менеджеры клубов зарабатывали на ставках, в том числе нелегальных. Аналитика вскрыла большую часть из них, что позволило различным спортивным федерациям усилить их турниры, а соответственно поднять рейтинги и финансовые показатели.

В следующий раз расскажем про два базовых правила, на которые опирается спортивная аналитика — они однозначно будут полезны и для бизнес-аналитики.

#история
⬆️ Итак, сама история

Когда-то, когда земля была маленьким красненьким шариком, на одном web-проекте, занимающегося автоматизацией бухгалтерского учета, сложилась не очень приятная ситуация.

В совершенно непредсказуемые моменты (преимущественно на боевых серверах, а не на тестовом стенде) в запросах на сервер в полях с суммами вместо нормальных чисел приходили те же числа, только в виде строк (то есть, не 123.45, а “123.45”).

Зная, что javascript не очень умеет в арифметику с операндами разных типов, фронт-разработчику была поставлена задача разобраться с вычислениями на клиентской стороне. Но время шло, а проблема периодически возникала то тут, то там, нервируя как пользователей, так и отравляя жизнь команде разработки бэкэнда.

В конце концов, фронт-разработчику было объявлено консолидированное решение команды: Если ещё раз в запросе на сохранение документа в поле с суммой придет строка вместо нормального числа, то фронт-разработчик тоже начнет получать зарплату строками.

И проблема сразу волшебным образом решилась и никогда более не возникала. Такие дела.

#история
DD в спорте. Часть 2.

В прошлом посте о спортивной аналитике мы немного коснулись, но не сформулировали два основных принципа для спортивной аналитики: эффективность и контекст. Оба принципа для бизнес-аналитики также применимы.

Эффективность — это по сути количественные показатели, взвешенные относительно какого-то базиса. Например, игрока в баскетбол по итогу матча можно оценить количественно по набранным для команды очкам, а можно оценить его эффективность: количество очков относительно проведённого на поле времени. Тоже самое с менеджерами по продажам — кто-то совершает 1000 звонков, чтобы выполнить план по продажам, а кто-то из 10 выжимает столько же. Глядя просто на показатель «Выполнение плана» вы никогда не поймёте, что этот показатель достигнут с разной эффективностью. И никогда не сможете лучшие практики распространить на всех.

Контекст — при каких условиях был достигнут показатель. Здесь лучше с примером: американский баскетболист Кенни Смит, когда только попал в НБА (высшая баскетбольная лига США), то первые пять лет редко бросал трехочковые. После же перехода в клуб «Хьюстон» он стал бросать «трешки» значительно чаще. Смит заметил, что если посмотреть на его статистику до перехода в «Хьюстон», то сложится ложное впечатление, что он не умеет бросать трехочковые. На самом деле у него не было подходящего контекста для бросания трёшек — в «Хьюстоне» у него в центре был верзила (контекст), оттягивавший на себя двух соперников, что создавало для него пространство, а как следствие и возможность себя проявить.»

Эффективность нельзя рассматривать вне контекста.
Если бы спортивные аналитики предыдущего клуба Кенни Смита, смогли грамотно распорядится информацией об этом игроке, сопоставить его реальные возможности, проанализировав всего его матчи, возможно, у них получилось бы эффективно поменять расстановку команды, чтобы максимально раскрыть лучшие стороны своих игроков.

Спортивная аналитика ярко показывает, что на статистике одного или двух показателей далеко не уедешь. У спортивных клубов выделены целые отделы, которые следят за игрой, высчитывают показатели и разрабатывают технологии для автоматизации всех этих процессов. Спортивная аналитика учит нас, что пренебрегать аналитикой нельзя. Нельзя так же довольствоваться полумерами: чтобы получить результат, аналитикам требуются определенные ресурсы, для сбора всей необходимой информации. И сбор простой статистики, это только вершина айсберга, ведь дьявол кроется в деталях, а именно в контекстной обстановке.

В общем, цифры любят, чтобы в них покопались, а не просто посмотрели.

#история
Настоящая винно-космическая экспедиция

Каждый развлекается по-своему: кто-то читает книги, кто-то смотрит фильмы, кто-то пишет посты, а вот Илон Маск запускает вино в космос 😊

На МКС на 14 месяцев было отправлено 12 бутылок винтажного вина шато Петрюс (19 лет выдержки, 500 000 ₽ за каждую) и 300 саженцев винограда, из которого его делают.
И делалось это не с целью быть уверенным сможем ли мы пить винишко в космосе, а с благой целью показать насколько существенные эволюционные изменения может претерпеть та или иная сельскохозяйственная культура в результате адаптации к меняющимся условиям внешней среды.

Итак, интересные результаты:
▫️После проведения сравнения космической версии вина и земной оказались, что вино с МКС на 3 года старше того же самого напитка, который остался на Земле!
▫️С виноградными лозами тоже интересно. За три месяца роста учёные уже обнаружили значительное влияние космоса на структуру растений. Из-за отсутствия гравитации побеги адаптировались: почки раньше появились и начали быстрее расти, чем у образцов с земли.

Причины, по котором результаты получились настолько значительными, объяснил доктор Майкл Леберт.
1. Микрогравитация заставляет растения по-новому пускать корни в почву и меняет структуру листвы, которую сила тяжести больше не прибивает к земле.
2. Радиация создаёт опасные для растения условия, в которых ему приходится разработать или активировать ранее пассивные методы защиты на молекулярном уровне.
#история

Хорошего вечера среды:)