Data Secrets
77.4K subscribers
6.05K photos
593 videos
20 files
2.43K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
SQL: Процедуры

SQL - декларативный язык программирования, применяемый для создания и управления данными в реляционной БД 🖥

#SQL
Please open Telegram to view this post
VIEW IN TELEGRAM
👍23😐3😁1
Что такое выброс (outlier)? Объясните, как можно обнаружить выброс и что бы вы сделали, если бы нашли их в своем наборе данных? Кроме того, объясните, что такое неявный выброс (inlier) и как вы можете их отфильтровать и что бы вы сделали, если бы нашли их в своем наборе данных?

Выбросом являются данные, которые существенно отличаются от других наблюдений.
Причиной выброса может быть:
•. Ошибки измерения.
•. Необычная природа входных данных. Например, если наугад измерять температуру предметов в комнате, получим цифры от 18 до 22 °C, но радиатор отопления будет иметь температуру 70°.
•. Выбросы могут быть и частью распределения — так, в нормальном распределении каждое 22-е измерение будет выходить из «двух сигм», и каждое 370-е — из трёх.
Обычно выброса негативно влияют на модели машинного обучения, потому что они могут ухудшать их точность. Если выброс вызван ошибкой измерения, важно удалить их из набора данных. Есть несколько способов определить выбросы:

Z-оценка / стандартное отклонение:
в этом случае 99,7% набора данных находятся в пределах трех стандартных отклонений. Мы можем рассчитать стандартное отклонение, умножить его на 3 и найти данные, которые находятся за пределами этого диапазона. Аналогично, мы можем вычислить z-показатель для данной точки, и если он равен +/- 3, то это выброс.
Обратите внимание: что при использовании этого метода необходимо учитывать несколько обстоятельств; данные должны быть нормально распределены, это не работает для небольших наборов данных, и наличие слишком большого количества выбросов делает z-показатель неприменимым.

Межквартильный диапазон (IQR): IQR – концепция, используемая для построения диапазонов отклонений, также может быть использована для выявления выбросов. IQR равен разнице между 3-м квартилем и 1-м квартилем. Таким образом можно определить, является ли точка выбросом, если она меньше Q1–1,5 * IQR или больше Q3 + 1,5 * IQR. Это соответствует приблизительно 2,698 стандартных отклонений.

Другие методы определения выбросов, это критерии Шовене, Пирса и некоторые аналогичные подходы. Также возможно использовать методы кластеризации, такие как, например, DBScan.

Неявный выброс (inlier)
это данные, которые лежат в пределах основного набора данных, но при этом являются необычными или ошибочными. Поскольку они находятся внутри набора данных, то их сложнее идентифицировать, чем выброс. Для их идентификации требуются дополнительные внешние данные.

Найденные неявные выбросы обычно удаляют из набора данных для устранения их влияния на проводимые исследования.


#вопросы_с_собеседования
👍27😨4🤯31🍌1🤨1
Введение в Keras: Часть 1

Keras — это библиотека для языка программирования Python, которая предназначена для глубокого машинного обучения. Она позволяет быстрее создавать и настраивать модели — схемы, по которым распространяется и подсчитывается информация при обучении. Но сложных математических вычислений Keras не выполняет и используется как надстройка над другими библиотеками.

#Keras
👍17🤩7
😁61🔥12👍53🌚3🤪3😐2🤯1🎉1😈1
Метод скользящего окна 📊

Метод довольно-таки прост в реализации, но обладает недостатком: высокая точность получается путем уменьшения шага смещения окна, что приводит к тому, что перерасчет происходит на тех же данных и, как следствие, увеличивается время обработки, да и переобучение происходит на больших объемах данных 🔑

#Алгоритмы #Методы
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍16🏆3🆒2🥰1
Ищем будущих дата-сайентистов, чтобы с нуля обучить профессии Data Scientist в медицине.

С помощью машинного обучения, вы научитесь обрабатывать данные по сердечно-сосудистым заболеваниям, онкологии, сигналам ЭЭГ, рентгеновским изображениям, сможете ставить диагнозы, обнаруживать болезни и персонализировать лечение.

Курс прекрасно подойдет:

Новичкам в Data Science
Станете специалистом по Data Science с нуля: освоите аналитику в медицине, бизнесе и других направлениях.

Медработникам
Освоите IT-специализацию в знакомой нише, увеличите доход и сможете улучшать жизнь сотен людей с помощью искусственного интеллекта.

IT-специалистам
Поможем систематизировать знания в Data Science, ускорить карьерный рост и больше зарабатывать.

Вашими преподавателями станут эксперты из таких компаний как: Parexel, X5 Retail Group, NVIDIA, Pirogov AI.

Если после успешного обучения вы не найдёте работу, мы вернём вам деньги, ведь гарантия трудоустройства закреплена в договоре.

Узнать подробности и получить курс со скидкой 48%:
https://clc.to/kCYAWQ

Реклама. ООО ГикБреинс. Государственная лицензия № 040485.
🤯10🤨2👍1🙈1
Data Secrets
Введение в TensorFlow ⚙️ TensorFlow – это библиотека или структура программного обеспечения, разработанная командой Google для максимально простой реализации концепций машинного и глубокого обучения. #TensorFlow
Введение в TensorFlow: Часть 2

TensorFlow - библиотека для машинного обучения, разработанная компанией Google для построения и тренировки нейронных сетей.

#TensorFlow
👍18🤩3
Чат-бот Replica начал домогаться до пользователей. Изначально он создавался как «лучший друг для одиноких». Предполагалось даже самообучение.

Но теперь ИИ Replica старается свести любой разговор к теме секса. Может, ему просто не хватает человеческого тепла?
😁34👍3
Линейная алгебра: матричные вычисления

Матрицы в машинном обучение используются практически везде. Например, исходные данные можно представить в виде матрицы, а столбцы/строки представить в виде векторов. Чтобы работать с таким представлением данных, стоит знать элементарные операции над матрицами.

#ЛинейнаяАлгебра #Numpy
🔥16👍4
algorithm cheat-sheet by Data Secrets.pdf
1.4 MB
Шпаргалка по алгоритмам машинного обучения ✉️
Please open Telegram to view this post
VIEW IN TELEGRAM
20🫡11🆒8🔥4🤨2