Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Тем временем МАИ совместно с VK Education запустили бесплатный онлайн-курс Введение в анализ данных.

Ведет курс Костя Измайлов: Chief Data Officer в Yandex и по совместительству Kaggle Master. Курс достаточно емкий и компактный, всего около 5 часов. Цена – 0 рублей. Темы курса классические, он подойдет для новичков или для тех, кто хочет освежить знания:

1. Python для анализа данных
2. Визуализация данных
3. Статистический анализ данных
4. Работа с базами данных

Все рабочие блокноты, кстати, доступны тут.

😻 #analytics #news #advice
Please open Telegram to view this post
VIEW IN TELEGRAM
👍457🤯3🤨1
Отличная пдфка от Данила Звягинцева про плохие паттерны в датавизе

В наборе:

- отсутствие контекста данных
- попытка угодить каждому
- много визуального шума (цветов, дизайн элементов, картинок и тд)
- непонятные заголовки
- обман графиками: манипуляции осями, 3D
- отсутствие темплейтов и стандартизации
- отсутствие выводов и призывов к действию

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍194
Делаем тепловые карты круче и читабельнее

Тепловые карты часто значительно упрощают анализ данных, особенно когда нужно выявить связи между факторами. Тем не менее, они часто выглядит несимпатично и трудно читаются.

Но что, если кроме цветовой информации мы добавим размеры? Чем больше размер кружочка, тем выше абсолютное значение корреляции. На картинке можете заценить, как мгновенно заиграет и подсветит важную информацию ваш график. Вот, что нужно написать:

corr_mat = df.corr().stack().reset_index(name="correlation")

g = sns.relplot(data=corr_mat, x="level_0",
y="level_1", hue="correlation", size="correlation")

Подробности можно посмотреть в документации.

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥52👍188
Sankey Diagrams – недооцененный драгоценный камень визуализации

Очень многие виды данных могут быть проинтерпретированы, как потоки от точки A к точке Б: перевозки, трафик, финансовые потоки, воронки продаж, миграция и много чего другого. И если они похожи на потоки, то почему бы именно так их не изобразать?

Вот для этого и существует Диаграмма Санкея. Она наглядно иллюстрирует любые бизнес-процессы, движения потока. В питоне такое можно нарисовать с помощью специальной библиотеки:

from ipysankeywidget import SankeyWidget
SankeyWidget(links = df.to_dict())

На картинке можете посмотреть на результат. А вот здесь, например, Диаграмма Санкея используется для визуализации действий пользователей мобильного приложения – посмотрите, очень красочно.

😻 #analytics #python
Please open Telegram to view this post
VIEW IN TELEGRAM
👍387🙈1
Bump Charts

Когда мы хотим показать изменения сразу нескольких категорий данных с течением времени, то иногда пользуемся гистограммой. Но если речь идет о дискретном значении (например, рейтинг), то лучше использовать удобочитаемый элегантный Bumb Chart с симпатичными точечками, как на картинке.

Чтобы такой построить в питоне, нужно немного схитрить с subplots. Но не заморачивайтесь: мы уже написали для вас готовый код. Вот ссылка на Colab.

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
👍33🔥64
Ошибка 1-го и 2-го рода? А может лучше 7-го и 8-го?

А вы знали, что помимо известных всем ошибок первого и второго рода есть и другие виды статистических ошибок? Их достаточно много: целых 9. Вот они все, справа налево сверху вниз.

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯46😁25👍72🔥1
Обманы ящиков с усами и гистограмм и при чем тут облака

Все очень любят ящики с усами и гистограммы. Но знаете ли вы, что они бывают коварны и любят вводить в заблуждение? Объясняем, как не попасться на эту удочку и какой график рисовать, чтобы точно понять распределение.

🖥 Чтобы рисовать облака в питоне, используйте библиотеку PtitPrince
💩 Любители R могут использовать Raincloud Plots

😻 #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍7119
Как визуализировать дерево решений

Ну во-первых, это красиво. Во-вторых, самое прекрасное свойство деревьей решений – интерпретируемость, и визуализировать модель в этом случае очень полезно. Помимо того, что мы видим, как модель будет принимать решение, можно еще и оценить разделимость данных (например, посмотрев на индекс Джини и количество айтемов каждого класса в вершинах).

В комментариях написали готовый код для визуализации на примере Ирисов Фишера.

😻 #analytics #python #train
Please open Telegram to view this post
VIEW IN TELEGRAM
👍247
Что такое data leakage?

Утечку данных (data leakage) называют одной из десяти основных проблем машинного обучения. Давайте разберемся, что это такое прежде, чем зальет ваших соседей снизу это доставит кучу проблем аналитикам и бизнесу.

😻 #train #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍354🔥4
Что делать с НЕнормальным распределением?

Как известно, моделям (особенно линейным) нравится, когда данные имеют нормальное распределение. Но что делать, если это не так? Рассказываем про два варианта: простой и посложнее.

😻 #train #analytics #python
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥45🌚86