TheilSenRegressor – устойчивый к выбросам близнец регрессии
Линейная регрессия – основа основ машинного обучения. Она прекрасна и часто работает гораздо лучше более сложных алгоритмов. Но есть проблема: она не устойчива к выбросам. Даже несколько выбросов могут существенно навредить итоговому скору. Но есть решение – TheilSenRegressor. Рассказываем.
😻 #train
Линейная регрессия – основа основ машинного обучения. Она прекрасна и часто работает гораздо лучше более сложных алгоритмов. Но есть проблема: она не устойчива к выбросам. Даже несколько выбросов могут существенно навредить итоговому скору. Но есть решение – TheilSenRegressor. Рассказываем.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63❤6🔥3🤯2
Распространенное заблуждение про стандартизацию
Звучит оно так: стандартизацией можно пользоваться, чтобы устранить ассиметрию/сделать распределение нормальным. Как бы не так.
Любые данные после применения этого преобразования останутся распределенными так же, как и до этого. Нормальное распределение останется нормальным, равномерное равномерным, и так далее.
Стандартизация способна повлиять только на масштаб данных. То же самое можно сказать и про Scaling. Это нужно для того, чтобы модель была устойчивее и чувствительнее.
😻 #train
Звучит оно так: стандартизацией можно пользоваться, чтобы устранить ассиметрию/сделать распределение нормальным. Как бы не так.
Любые данные после применения этого преобразования останутся распределенными так же, как и до этого. Нормальное распределение останется нормальным, равномерное равномерным, и так далее.
Стандартизация способна повлиять только на масштаб данных. То же самое можно сказать и про Scaling. Это нужно для того, чтобы модель была устойчивее и чувствительнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40❤3
Лемматизация и стемминг текста
Обычно тексты содержат разные грамматические формы одного и того же слова (например, "ученый" и "ученым"), а также в документе могут встречаться однокоренные слова. Как объяснить машине, что это по сути одно и то же? Для этого нужно текст нормализовать, то есть привести все встречающиеся словоформы к одной, нормальной словарной форме. Самые простой варианты это сделать – использовать стемминг и лемматизацию.
😻 #NN #train
Обычно тексты содержат разные грамматические формы одного и того же слова (например, "ученый" и "ученым"), а также в документе могут встречаться однокоренные слова. Как объяснить машине, что это по сути одно и то же? Для этого нужно текст нормализовать, то есть привести все встречающиеся словоформы к одной, нормальной словарной форме. Самые простой варианты это сделать – использовать стемминг и лемматизацию.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35🔥7❤4
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤4🔥4☃3⚡2
7 способов кодирования категориальных переменных, которые надо знать
Почти все реальные датасеты содержат категориальные фичи. Чтобы использовать их в моделях, нужно их закодировать. На карточке сверху изображены 7 способов это сделать:
1) One Hot Encoding – бинарное кодирования с добавлением новых столбцов.
2) Если убрать одну колонку из OHE, то мы избавимся от мультиколлинеарности и получим dummy encoding.
3) Если строчку со всеми нулями из пункта выше заменить на строку с -1, то получим effect encoding.
4) Или же можно просто присвоить каждому значению категории номер, и это будет label encoding.
5) Если данные как-то ранжированы по-порядку, то можно использовать ordinal encoding.
6) Count encoding – кодируем каждое значение частотой/абсолютами его встречаемости.
7) А если немного оптимизировать One Hot Encoding, то получим Binary Encoding. Например, если у нас 4 категории, то мы можем закодировать их всевозможными сочетаниями из двух битов (0 или 1).
😻 #train
Почти все реальные датасеты содержат категориальные фичи. Чтобы использовать их в моделях, нужно их закодировать. На карточке сверху изображены 7 способов это сделать:
1) One Hot Encoding – бинарное кодирования с добавлением новых столбцов.
2) Если убрать одну колонку из OHE, то мы избавимся от мультиколлинеарности и получим dummy encoding.
3) Если строчку со всеми нулями из пункта выше заменить на строку с -1, то получим effect encoding.
4) Или же можно просто присвоить каждому значению категории номер, и это будет label encoding.
5) Если данные как-то ранжированы по-порядку, то можно использовать ordinal encoding.
6) Count encoding – кодируем каждое значение частотой/абсолютами его встречаемости.
7) А если немного оптимизировать One Hot Encoding, то получим Binary Encoding. Например, если у нас 4 категории, то мы можем закодировать их всевозможными сочетаниями из двух битов (0 или 1).
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥35👍7❤4
Как визуализировать дерево решений
Ну во-первых, это красиво. Во-вторых, самое прекрасное свойство деревьей решений – интерпретируемость, и визуализировать модель в этом случае очень полезно. Помимо того, что мы видим, как модель будет принимать решение, можно еще и оценить разделимость данных (например, посмотрев на индекс Джини и количество айтемов каждого класса в вершинах).
В комментариях написали готовый код для визуализации на примере Ирисов Фишера.
😻 #analytics #python #train
Ну во-первых, это красиво. Во-вторых, самое прекрасное свойство деревьей решений – интерпретируемость, и визуализировать модель в этом случае очень полезно. Помимо того, что мы видим, как модель будет принимать решение, можно еще и оценить разделимость данных (например, посмотрев на индекс Джини и количество айтемов каждого класса в вершинах).
В комментариях написали готовый код для визуализации на примере Ирисов Фишера.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24❤7
Самые популярные методы кросс-валидации
Часто, для более надежной оценки наших моделей, мы не просто делим данные на трейн-тест, а используем более хитрые методы – методы кросс-валидации. В карточках – про то, какие они бывают и как работают. Просто и наглядно.
😻 #train
Часто, для более надежной оценки наших моделей, мы не просто делим данные на трейн-тест, а используем более хитрые методы – методы кросс-валидации. В карточках – про то, какие они бывают и как работают. Просто и наглядно.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍32🔥8❤4😍2❤🔥1🤯1
Что такое data leakage?
Утечку данных (data leakage) называют одной из десяти основных проблем машинного обучения. Давайте разберемся, что это такое прежде, чемзальет ваших соседей снизу это доставит кучу проблем аналитикам и бизнесу.
😻 #train #analytics
Утечку данных (data leakage) называют одной из десяти основных проблем машинного обучения. Давайте разберемся, что это такое прежде, чем
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35❤4🔥4
HalvingSearch – ускорение поиска по сетке
Подбор гперпараметров – сложная и распросраненная задача. Для ее решения часто используют поиск по сетке, но этот алгоритм очень уж медленный. Поэтому сегодня давайте обратим внимание на halving search. Его относительно недавно добавили в sklearn, и пришло время разобраться, как с ним работать.
😻 #train
Подбор гперпараметров – сложная и распросраненная задача. Для ее решения часто используют поиск по сетке, но этот алгоритм очень уж медленный. Поэтому сегодня давайте обратим внимание на halving search. Его относительно недавно добавили в sklearn, и пришло время разобраться, как с ним работать.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍47🔥5❤3
Что делать с НЕнормальным распределением?
Как известно, моделям (особенно линейным) нравится, когда данные имеют нормальное распределение. Но что делать, если это не так? Рассказываем про два варианта: простой и посложнее.
😻 #train #analytics #python
Как известно, моделям (особенно линейным) нравится, когда данные имеют нормальное распределение. Но что делать, если это не так? Рассказываем про два варианта: простой и посложнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥45🌚8❤6
Кластеризуем алгоритмы кластеризации
Алгоритмов кластеризации на свете целая куча. Чтобы помочь вам лучше их запомнить и понять, мы разбили их на группы по принципу работы: групп получилось всего 6 – вот они слева направо.
😻 #train
Алгоритмов кластеризации на свете целая куча. Чтобы помочь вам лучше их запомнить и понять, мы разбили их на группы по принципу работы: групп получилось всего 6 – вот они слева направо.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍58❤🔥11❤5
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40🤯8❤4🔥3