Data Secrets

TheilSenRegressor – устойчивый к выбросам близнец регрессии

Линейная регрессия – основа основ машинного обучения. Она прекрасна и часто работает гораздо лучше более сложных алгоритмов. Но есть проблема: она не устойчива к выбросам. Даже несколько выбросов могут существенно навредить итоговому скору. Но есть решение – TheilSenRegressor. Рассказываем.

😻

#train

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍63❤6🔥3🤯2

5.66K views10:40

Data Secrets

Распространенное заблуждение про стандартизацию

Звучит оно так: стандартизацией можно пользоваться, чтобы устранить ассиметрию/сделать распределение нормальным. Как бы не так.

Любые данные после применения этого преобразования останутся распределенными так же, как и до этого. Нормальное распределение останется нормальным, равномерное равномерным, и так далее.

Стандартизация способна повлиять только на масштаб данных. То же самое можно сказать и про Scaling. Это нужно для того, чтобы модель была устойчивее и чувствительнее.

😻

#train

Please open Telegram to view this post

VIEW IN TELEGRAM

👍40❤3

4.87K views15:49

Data Secrets

Лемматизация и стемминг текста

Обычно тексты содержат разные грамматические формы одного и того же слова (например, "ученый" и "ученым"), а также в документе могут встречаться однокоренные слова. Как объяснить машине, что это по сути одно и то же? Для этого нужно текст нормализовать, то есть привести все встречающиеся словоформы к одной, нормальной словарной форме. Самые простой варианты это сделать – использовать стемминг и лемматизацию.

😻

#NN #train

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍35🔥7❤4

4.86K views10:39

Data Secrets

Вариации градиентного спуска

Градиентный спуск – это основа основ оптимизации в машинном обучении. Существует множество вариаций этого алгоритма. Три самые известные из них: стохастический спуск, batch спуск и mini-batch спуск. Сейчас расскажем, чем они отличаются и как работают.

😻

#train #NN

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍30❤4🔥4☃3⚡2

5.47K views11:59

Data Secrets

7 способов кодирования категориальных переменных, которые надо знать

Почти все реальные датасеты содержат категориальные фичи. Чтобы использовать их в моделях, нужно их закодировать. На карточке сверху изображены 7 способов это сделать:

1) One Hot Encoding – бинарное кодирования с добавлением новых столбцов.

2) Если убрать одну колонку из OHE, то мы избавимся от мультиколлинеарности и получим dummy encoding.

3) Если строчку со всеми нулями из пункта выше заменить на строку с -1, то получим effect encoding.

4) Или же можно просто присвоить каждому значению категории номер, и это будет label encoding.

5) Если данные как-то ранжированы по-порядку, то можно использовать ordinal encoding.

6) Count encoding – кодируем каждое значение частотой/абсолютами его встречаемости.

7) А если немного оптимизировать One Hot Encoding, то получим Binary Encoding. Например, если у нас 4 категории, то мы можем закодировать их всевозможными сочетаниями из двух битов (0 или 1).

😻

#train

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥35👍7❤4

6.11K views11:17

About

Blog

Apps

Platform