Лингвистика на коленке

Forwarded from Spark in me (Alexander)

Знакомый посоветовал огромную базу с корпусами и моделями векторными для русского языка.

Стильно, модно молодежно
- http://rusvectores.org/ru/models/
- https://nlpub.ru/Russian_Distributional_Thesaurus
- http://opencorpora.org/?page=downloads
- http://vectors.nlpl.eu/repository/

Раньше я думал, что такого особо нет нигде.

#data_science
#nlp

RusVectores

RusVectōrēs: модели

РусВекторес: дистрибутивная семантика для русского языка, веб-интерфейс и модели для скачивания

36 viewsRosa Qualcosa, 11:24

Лингвистика на коленке

Forwarded from Data Science by ODS.ai 🦜

Most common libraries for Natural Language Processing:

CoreNLP from Stanford group:
http://stanfordnlp.github.io/CoreNLP/index.html

NLTK, the most widely-mentioned NLP library for Python:
http://www.nltk.org/

TextBlob, a user-friendly and intuitive NLTK interface:
https://textblob.readthedocs.io/en/dev/index.html

Gensim, a library for document similarity analysis:
https://radimrehurek.com/gensim/

SpaCy, an industrial-strength NLP library built for performance:
https://spacy.io/docs/

Source: https://itsvit.com/blog/5-heroic-tools-natural-language-processing/

#nlp #digest #libs

CoreNLP

High-performance human language analysis tools, now with native deep learning modules in Python, available in many human languages.

126 viewsRosa Qualcosa, 09:18

Лингвистика на коленке

#nlp

Из всех 2vec’ов больше всего люблю Doc2Vec в исполнении gensim.

Точнее, для моей задачи он лучше всего подходит.

2.04K viewsRosa Qualcosa, edited 11:03

Лингвистика на коленке

#nlp

Медленно, но верно занималась по великолепному курсу от Stanford на Coursera от Дэна Джурафски и Кристофера Мэннинга по обработке естественного языка, как внезапно все видео этого курса с ютьюба удалили. Очень расстроилась, потому что придется пользоваться скачанным академическим торрентом, а торренты — это не очень хорошо, конечно, особенно для американцев.

Возможно, на Курсере готовится новый такой курс от Стэнфорда? Это было бы очень здорово! Никому ничего подобного в новостях не попадалось?

2.41K viewsRosa Qualcosa, edited 05:10

Лингвистика на коленке

Forwarded from Spark in me (Alexander)

Araneum russicum maximum

TLDR - largest corpus for Russian Internet. Fast-text embeddings pre-trained on this corpus work best for broad internet related domains.

Pre-processed version can be downloaded from rusvectores.
Afaik, this link is not yet on their website (?)

wget http://rusvectores.org/static/rus_araneum_maxicum.txt.gz

#nlp

203 viewsKsenia, 14:20

About

Blog

Apps

Platform