Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
Какие есть способы обработки недостающих данных? Какие методы вы рекомендуете?

Есть несколько способов обработки отсутствующих данных:
• Удалить строки
с отсутствующими данными
• Удалить столбцы
с отсутствующими данными (отказаться от части признаков)
• Заменить их на среднее / медиану
• Заменить константой (например, нулем)
• Попытаться предсказать недостающие значения
• Использовать алгоритм, который работает
с пропущенными значениями. Например, Random forest

Наилучшим методом является удаление строк
с отсутствующими данными, поскольку это гарантирует, что смещение или отклонение не будет добавлено или удалено, и в конечном итоге приведет к созданию надежной и точной модели. Однако это можно рекомендовать только в том случае, если есть достаточно данных и процент пропущенных значений невелик.

#вопросы_с_собеседования
👍31🔥7🕊3🐳1🙈1
Что такое выброс (outlier)? Объясните, как можно обнаружить выброс и что бы вы сделали, если бы нашли их в своем наборе данных? Кроме того, объясните, что такое неявный выброс (inlier) и как вы можете их отфильтровать и что бы вы сделали, если бы нашли их в своем наборе данных?

Выбросом являются данные, которые существенно отличаются от других наблюдений.
Причиной выброса может быть:
•. Ошибки измерения.
•. Необычная природа входных данных. Например, если наугад измерять температуру предметов в комнате, получим цифры от 18 до 22 °C, но радиатор отопления будет иметь температуру 70°.
•. Выбросы могут быть и частью распределения — так, в нормальном распределении каждое 22-е измерение будет выходить из «двух
сигм», и каждое 370-е — из трёх.
Обычно выброса негативно влияют на модели машинного обучения, потому что они могут ухудшать их точность. Если выброс вызван ошибкой измерения, важно удалить их из набора данных. Есть несколько способов определить выбросы:

Z-оценка / стандартное отклонение:
в этом случае 99,7% набора данных находятся в пределах трех стандартных отклонений. Мы можем рассчитать стандартное отклонение, умножить его на 3 и найти данные, которые находятся за пределами этого диапазона. Аналогично, мы можем вычислить z-показатель для данной точки, и если он равен +/- 3, то это выброс.
Обратите внимание: что при использовании этого метода необходимо учитывать несколько обстоятельств; данные должны быть нормально распределены, это не работает для небольших наборов данных, и наличие слишком большого количества выбросов делает z-показатель неприменимым.

Межквартильный диапазон (IQR): IQR – концепция, используемая для построения диапазонов отклонений, также может быть использована для выявления выбросов. IQR равен разнице между 3-м квартилем и 1-м квартилем. Таким образом можно определить, является ли точка выбросом, если она меньше Q1–1,5 * IQR или больше Q3 + 1,5 * IQR. Это соответствует приблизительно 2,698 стандартных отклонений.

Другие методы определения выбросов, это критерии Шовене, Пирса и некоторые аналогичные подходы. Также возможно использовать методы кластеризации, такие как, например, DBScan.

Неявный выброс (inlier)
это данные, которые лежат в пределах основного набора данных, но при этом являются необычными или ошибочными. Поскольку они находятся внутри набора данных, то их сложнее идентифицировать, чем выброс. Для их идентификации требуются дополнительные внешние данные.

Найденные неявные выбросы обычно удаляют из набора данных для устранения их влияния на проводимые исследования.


#вопросы_с_собеседования
👍27😨4🤯31🍌1🤨1
Вопросы по SQL с собеседования

Типы джойнов в SQL?

INNER, JOIN LEFT, JOIN RIGHT, JOIN FULL, JOIN CROSS

Чем NULL отличается от 0?

NULL - это не число, а также NULL не является значением пустой строки. NULL используется для указания того, что данные отсутствуют, неизвестны, неприменимы. NULL не равен ничему, даже другому NULL.

Какие параметры используются в конструкции order by?

ASC и DESC

Какой оператор имеет больший приоритет AND или OR (если они используются совместно)?

AND имеет больший приоритет, нежели OR

Для чего нужен оператор UNION?

Для объединения двух таблиц, при условии что каждая имеет одинаковое количество столбцов, столбцы имеют схожие типы данных, столбцы располагаются в том же порядке.

#SQL #вопросы_с_собеседования
👍43😁5🤯1
Вопросы по статистике с собеседования на Data Scientist 📏

1. В одной колоде 12 красных и 12 черных карт. В второй коробке 24 красных и 24 черных карты. Необходимо взять две карты одного цвета с одной колоды по одной карте. При этом карты не кладутся обратно в стопку. С какой колоды больше шансов получить карты одного цвета и почему?

2. Как можно определить, не является ли монета смещенной?

3. Как сделать подбрасывание смещенной монеты справедливой игрой?

Ответы в комментариях 👇🏼

#вопросы_с_собеседования
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30
Вопросы по основам машинного обучения на Data Scientist 🖥

🔠Каковы шаги по обработке и очистке данных перед применением алгоритмов МО?

🔠Как бороться с несбалансированной бинарной классификацией?

🔠В чем разница между box plot и histogram?

#вопросы_с_собеседования
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍183