С чего начать работать с NLP? Конечно, с векторизации, то есть конвертации текста в числа, которые в дальнейшем могут использоваться в алгоритмах
Один из лучших подходов здесь – это TD-IDF. Принцип такой: если слово встречается в каком-либо документе часто, при этом встречаясь редко во всех остальных документах — это слово имеет большую значимость для того самого документа. И напротив, например, предлоги неважны, потому что встречаются везде.
#NLP #ML
Data Secrets
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8🔥5
Введение в NLTK: Часть 1 🐍
NLTK (Natural Language Toolkit) - это стандартный API для NLP (обработки естественного языка) с Python. Это действительно мощный инструмент для предварительной обработки текстовых данных для дальнейшего анализа, например, с моделями машинного обучения. Это помогает преобразовать текст в числа, с которыми модель может легко работать🔍
#NLP
NLTK (Natural Language Toolkit) - это стандартный API для NLP (обработки естественного языка) с Python. Это действительно мощный инструмент для предварительной обработки текстовых данных для дальнейшего анализа, например, с моделями машинного обучения. Это помогает преобразовать текст в числа, с которыми модель может легко работать
#NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍17🔥5
Data Secrets
Введение в NLTK: Часть 1 🐍 NLTK (Natural Language Toolkit) - это стандартный API для NLP (обработки естественного языка) с Python. Это действительно мощный инструмент для предварительной обработки текстовых данных для дальнейшего анализа, например, с моделями…
Введение в NLTK: Часть 2 🐍
Библиотека NLTK — пакет библиотек и программ для символьной и статистической обработки естественного языка, написанных на языке программирования Python.
#NLP
Библиотека NLTK — пакет библиотек и программ для символьной и статистической обработки естественного языка, написанных на языке программирования Python.
#NLP
👍15🔥3
Word2Vec 🔡
Word2vec — общее название для совокупности моделей на основе искусственных нейронных сетей, предназначенных для получения векторных представлений слов на естественном языке.
#NLP
Word2vec — общее название для совокупности моделей на основе искусственных нейронных сетей, предназначенных для получения векторных представлений слов на естественном языке.
#NLP
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍11🤩2