TheilSenRegressor – устойчивый к выбросам близнец регрессии
Линейная регрессия – основа основ машинного обучения. Она прекрасна и часто работает гораздо лучше более сложных алгоритмов. Но есть проблема: она не устойчива к выбросам. Даже несколько выбросов могут существенно навредить итоговому скору. Но есть решение – TheilSenRegressor. Рассказываем.
😻 #train
Линейная регрессия – основа основ машинного обучения. Она прекрасна и часто работает гораздо лучше более сложных алгоритмов. Но есть проблема: она не устойчива к выбросам. Даже несколько выбросов могут существенно навредить итоговому скору. Но есть решение – TheilSenRegressor. Рассказываем.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍63❤6🔥3🤯2
Распространенное заблуждение про стандартизацию
Звучит оно так: стандартизацией можно пользоваться, чтобы устранить ассиметрию/сделать распределение нормальным. Как бы не так.
Любые данные после применения этого преобразования останутся распределенными так же, как и до этого. Нормальное распределение останется нормальным, равномерное равномерным, и так далее.
Стандартизация способна повлиять только на масштаб данных. То же самое можно сказать и про Scaling. Это нужно для того, чтобы модель была устойчивее и чувствительнее.
😻 #train
Звучит оно так: стандартизацией можно пользоваться, чтобы устранить ассиметрию/сделать распределение нормальным. Как бы не так.
Любые данные после применения этого преобразования останутся распределенными так же, как и до этого. Нормальное распределение останется нормальным, равномерное равномерным, и так далее.
Стандартизация способна повлиять только на масштаб данных. То же самое можно сказать и про Scaling. Это нужно для того, чтобы модель была устойчивее и чувствительнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍40❤3
Лемматизация и стемминг текста
Обычно тексты содержат разные грамматические формы одного и того же слова (например, "ученый" и "ученым"), а также в документе могут встречаться однокоренные слова. Как объяснить машине, что это по сути одно и то же? Для этого нужно текст нормализовать, то есть привести все встречающиеся словоформы к одной, нормальной словарной форме. Самые простой варианты это сделать – использовать стемминг и лемматизацию.
😻 #NN #train
Обычно тексты содержат разные грамматические формы одного и того же слова (например, "ученый" и "ученым"), а также в документе могут встречаться однокоренные слова. Как объяснить машине, что это по сути одно и то же? Для этого нужно текст нормализовать, то есть привести все встречающиеся словоформы к одной, нормальной словарной форме. Самые простой варианты это сделать – использовать стемминг и лемматизацию.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍35🔥7❤4
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30❤4🔥4☃3⚡2