Data Secrets
77.3K subscribers
6.04K photos
592 videos
20 files
2.42K links
Главный по машинному обучению

Сотрудничество: @veron_28

РКН: clck.ru/3FY3GN
Download Telegram
↪️ TD-IDF и векторизация текста

С чего начать работать с NLP? Конечно, с векторизации, то есть конвертации текста в числа, которые в дальнейшем могут использоваться в алгоритмах ⚙️

Один из лучших подходов здесь – это TD-IDF. Принцип такой: если слово встречается в каком-либо документе часто, при этом встречаясь редко во всех остальных документах — это слово имеет большую значимость для того самого документа. И напротив, например, предлоги неважны, потому что встречаются везде.

#NLP #ML

Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥5
Введение в NLTK: Часть 1 🐍

NLTK (Natural Language Toolkit) - это стандартный API для NLP (обработки естественного языка) с Python. Это действительно мощный инструмент для предварительной обработки текстовых данных для дальнейшего анализа, например, с моделями машинного обучения. Это помогает преобразовать текст в числа, с которыми модель может легко работать 🔍

#NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥5
Data Secrets
Введение в NLTK: Часть 1 🐍 NLTK (Natural Language Toolkit) - это стандартный API для NLP (обработки естественного языка) с Python. Это действительно мощный инструмент для предварительной обработки текстовых данных для дальнейшего анализа, например, с моделями…
Введение в NLTK: Часть 2 🐍

Библиотека NLTK — пакет библиотек и программ для символьной и статистической обработки естественного языка, написанных на языке программирования Python.

#NLP
👍15🔥3
Word2Vec 🔡

Word2vec — общее название для совокупности моделей на основе искусственных нейронных сетей, предназначенных для получения векторных представлений слов на естественном языке.

#NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🤩2