Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
📌 Расстояние Левенштейна

Расстояние Левенштейна (редакционное расстояние) — метрика cходства между двумя строками. Чем больше расстояние, тем более они различны.

Метрика названа в честь советского математика, выпускника мехмата МГУ Владимира Левенштейна. Он всю жизнь проработал в Институте Прикладной Математики им. М.В.Келдыша, умер в 2017 году.

Расстояние Левенштейна активно используется для исправления ошибок в словах, поиска дубликатов текстов, сравнения геномов и прочих символьных операций 👍

#метрики

Data Secrets
👍5🔥5
📌 Кросс - валидация

Кросс-валидация — это метод, предназначенный для оценки качества работы модели, широко применяемый в машинном обучении. Он помогает сравнить между собой различные модели и выбрать наилучшую для конкретной задачи

🧩 Суть метода заключается в том, что датасет разбивается на k одинаковых частей (фолдов), а потом проиисходит k итераций, во время каждой из которых один фолд выступает в роли тестового множества, а объединение остальных — в роли тренировочного. Финальный скор получается усреднением полученных оценок 📊

#метрики #junior

Data Secrets
6👍4