Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Что делать с НЕнормальным распределением?

Как известно, моделям (особенно линейным) нравится, когда данные имеют нормальное распределение. Но что делать, если это не так? Рассказываем про два варианта: простой и посложнее.

😻 #train #analytics #python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43🔥106🤯4😐3🙈3
ARIMA

ARIMA — это такой алгоритм для прогнозирования временных рядов. ARIMA использует исторические значения и скользящее среднее, чтобы получить предсказания. В карточках – интуитивное объяснение, немного математики и код.

😻 #analytics #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍45❤‍🔥65🤔1
Зацените, как люди любят визуализацию: нашли в Твиттере аналитика Ewa Tuteja, которая сама связала датавиз и пометила пост прикольным тегом #DressYourHouseInData

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47🔥12😁119🤯5
QQ-плот и с чем его едят

Сначала объяснили, кто такие куку и как они строятся. Потом раскрыли все секреты того, как их читать и делать по ним важные выводы. А напоследок показали универсальный код на питоне для построения этих графиков.

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
40👍20🤯6❤‍🔥1
Незабываемая пятерка: топ самых крутых датавизов от нашей редакции

Смотрим, залипаем и учимся: как превращать данные во что-то изящно простое и одновременно красивое на примере 5 дашбордов.

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
31👍10
CloudReports – для быстрой выгрузки данных из облака

Хорошая аналитика невозможна без хороших данных. Сегодня все больше компаний хранят данные в облачных сервисах. Но с выгрузкой данных оттуда есть нюанс... Читайте карточки – сами все поймете.

Как и обещали, оставляем ссылку на шаблоны отчетов и на Telegram канал CloudReports с новостями из мира аналитики.

Кто-нибудь пробовал? Дайте обратную связь.

😻 #advice #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍114🔥3
3 способа найти период в данных

Период - это время, необходимое для повторения "шаблона" в данных. Используя данные о периоде, можно построить модель с сезонностью, которая будет лчше предиктить будущие значения. Но как это период определить? На примере и в комплекте с кодом показываем три способа.

😻 #analytics #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍57🔥10👏43🥰3💯1🙈1
Мощные и малоизвестные фишки Matplotlib

На днях мы копались в документации Matplotlib и были удивлены количеству плюшек, которые он предоставляет. Теперь делимся с вами самыми порадовавшими нас находками. Поехали читать карточки (или документацию, или и то и то)!

😻 #python #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍60🤯12❤‍🔥7🔥21
Никогда не используйте feature importances для случайного леса в sklearn

И вот почему: используемый в этой функции метод склонен переоценивать важность непрерывных вещественных или многозначных категориальных признаков. Дело в том, что такие фичи просто предоставляют древовидным моделям больше возможностей разделить данные пополам, и их важность переоценивается. Показываем пример и обсуждаем альтернативный подход.

😻 #analytics #train
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍803
Partial Dependence Plots для интерпретации моделей

Чем больше машинного обучения в нашей жизни, тем острее встает вопрос повышения интерпретируемости моделей. В классическом примере с кредитом в случае отказа клиент всегда хочет знать, по какой именно причине ему не дали займ.

Поэтому появляется все больше и больше инструментов, которые приокрывают нам "черный ящик": feature importance, SHAP-значения или графики частичной зависимости. Вот о таких графиках сегодня и поговорим.

P.S. Мы вдохновились этим материалом с Kaggle, и здесь же у ребят есть ноутбук с отличными практическими упражнениями – можно перейти и проверить свои знания

😻 #train #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍228🤔2
Тем временем МАИ совместно с VK Education запустили бесплатный онлайн-курс Введение в анализ данных.

Ведет курс Костя Измайлов: Chief Data Officer в Yandex и по совместительству Kaggle Master. Курс достаточно емкий и компактный, всего около 5 часов. Цена – 0 рублей. Темы курса классические, он подойдет для новичков или для тех, кто хочет освежить знания:

1. Python для анализа данных
2. Визуализация данных
3. Статистический анализ данных
4. Работа с базами данных

Все рабочие блокноты, кстати, доступны тут.

😻 #analytics #news #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
👍457🤯3🤨1
Отличная пдфка от Данила Звягинцева про плохие паттерны в датавизе

В наборе:

- отсутствие контекста данных
- попытка угодить каждому
- много визуального шума (цветов, дизайн элементов, картинок и тд)
- непонятные заголовки
- обман графиками: манипуляции осями, 3D
- отсутствие темплейтов и стандартизации
- отсутствие выводов и призывов к действию

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍194
Делаем тепловые карты круче и читабельнее

Тепловые карты часто значительно упрощают анализ данных, особенно когда нужно выявить связи между факторами. Тем не менее, они часто выглядит несимпатично и трудно читаются.

Но что, если кроме цветовой информации мы добавим размеры? Чем больше размер кружочка, тем выше абсолютное значение корреляции. На картинке можете заценить, как мгновенно заиграет и подсветит важную информацию ваш график. Вот, что нужно написать:

corr_mat = df.corr().stack().reset_index(name="correlation")

g = sns.relplot(data=corr_mat, x="level_0",
y="level_1", hue="correlation", size="correlation")

Подробности можно посмотреть в документации.

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52👍188
Sankey Diagrams – недооцененный драгоценный камень визуализации

Очень многие виды данных могут быть проинтерпретированы, как потоки от точки A к точке Б: перевозки, трафик, финансовые потоки, воронки продаж, миграция и много чего другого. И если они похожи на потоки, то почему бы именно так их не изобразать?

Вот для этого и существует Диаграмма Санкея. Она наглядно иллюстрирует любые бизнес-процессы, движения потока. В питоне такое можно нарисовать с помощью специальной библиотеки:

from ipysankeywidget import SankeyWidget
SankeyWidget(links = df.to_dict())

На картинке можете посмотреть на результат. А вот здесь, например, Диаграмма Санкея используется для визуализации действий пользователей мобильного приложения – посмотрите, очень красочно.

😻 #analytics #python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍387🙈1
Bump Charts

Когда мы хотим показать изменения сразу нескольких категорий данных с течением времени, то иногда пользуемся гистограммой. Но если речь идет о дискретном значении (например, рейтинг), то лучше использовать удобочитаемый элегантный Bumb Chart с симпатичными точечками, как на картинке.

Чтобы такой построить в питоне, нужно немного схитрить с subplots. Но не заморачивайтесь: мы уже написали для вас готовый код. Вот ссылка на Colab.

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33🔥64
Ошибка 1-го и 2-го рода? А может лучше 7-го и 8-го?

А вы знали, что помимо известных всем ошибок первого и второго рода есть и другие виды статистических ошибок? Их достаточно много: целых 9. Вот они все, справа налево сверху вниз.

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯46😁25👍72🔥1
Обманы ящиков с усами и гистограмм и при чем тут облака

Все очень любят ящики с усами и гистограммы. Но знаете ли вы, что они бывают коварны и любят вводить в заблуждение? Объясняем, как не попасться на эту удочку и какой график рисовать, чтобы точно понять распределение.

🖥 Чтобы рисовать облака в питоне, используйте библиотеку PtitPrince
💩 Любители R могут использовать Raincloud Plots

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7119
Как визуализировать дерево решений

Ну во-первых, это красиво. Во-вторых, самое прекрасное свойство деревьей решений – интерпретируемость, и визуализировать модель в этом случае очень полезно. Помимо того, что мы видим, как модель будет принимать решение, можно еще и оценить разделимость данных (например, посмотрев на индекс Джини и количество айтемов каждого класса в вершинах).

В комментариях написали готовый код для визуализации на примере Ирисов Фишера.

😻 #analytics #python #train
Please open Telegram to view this post
VIEW IN TELEGRAM
👍247
Что такое data leakage?

Утечку данных (data leakage) называют одной из десяти основных проблем машинного обучения. Давайте разберемся, что это такое прежде, чем зальет ваших соседей снизу это доставит кучу проблем аналитикам и бизнесу.

😻 #train #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍354🔥4
Что делать с НЕнормальным распределением?

Как известно, моделям (особенно линейным) нравится, когда данные имеют нормальное распределение. Но что делать, если это не так? Рассказываем про два варианта: простой и посложнее.

😻 #train #analytics #python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥45🌚86