Forwarded from Spark in me (Alexander)
Знакомый посоветовал огромную базу с корпусами и моделями векторными для русского языка.
Стильно, модно молодежно
- http://rusvectores.org/ru/models/
- https://nlpub.ru/Russian_Distributional_Thesaurus
- http://opencorpora.org/?page=downloads
- http://vectors.nlpl.eu/repository/
Раньше я думал, что такого особо нет нигде.
#data_science
#nlp
Стильно, модно молодежно
- http://rusvectores.org/ru/models/
- https://nlpub.ru/Russian_Distributional_Thesaurus
- http://opencorpora.org/?page=downloads
- http://vectors.nlpl.eu/repository/
Раньше я думал, что такого особо нет нигде.
#data_science
#nlp
RusVectores
RusVectōrēs: модели
РусВекторес: дистрибутивная семантика для русского языка, веб-интерфейс и модели для скачивания
Forwarded from Data Science by ODS.ai 🦜
Most common libraries for Natural Language Processing:
CoreNLP from Stanford group:
http://stanfordnlp.github.io/CoreNLP/index.html
NLTK, the most widely-mentioned NLP library for Python:
http://www.nltk.org/
TextBlob, a user-friendly and intuitive NLTK interface:
https://textblob.readthedocs.io/en/dev/index.html
Gensim, a library for document similarity analysis:
https://radimrehurek.com/gensim/
SpaCy, an industrial-strength NLP library built for performance:
https://spacy.io/docs/
Source: https://itsvit.com/blog/5-heroic-tools-natural-language-processing/
#nlp #digest #libs
CoreNLP from Stanford group:
http://stanfordnlp.github.io/CoreNLP/index.html
NLTK, the most widely-mentioned NLP library for Python:
http://www.nltk.org/
TextBlob, a user-friendly and intuitive NLTK interface:
https://textblob.readthedocs.io/en/dev/index.html
Gensim, a library for document similarity analysis:
https://radimrehurek.com/gensim/
SpaCy, an industrial-strength NLP library built for performance:
https://spacy.io/docs/
Source: https://itsvit.com/blog/5-heroic-tools-natural-language-processing/
#nlp #digest #libs
CoreNLP
High-performance human language analysis tools, now with native deep learning modules in Python, available in many human languages.
#nlp
Из всех 2vec’ов больше всего люблю Doc2Vec в исполнении gensim.
Точнее, для моей задачи он лучше всего подходит.
Из всех 2vec’ов больше всего люблю Doc2Vec в исполнении gensim.
Точнее, для моей задачи он лучше всего подходит.
#nlp
Медленно, но верно занималась по великолепному курсу от Stanford на Coursera от Дэна Джурафски и Кристофера Мэннинга по обработке естественного языка, как внезапно все видео этого курса с ютьюба удалили. Очень расстроилась, потому что придется пользоваться скачанным академическим торрентом, а торренты — это не очень хорошо, конечно, особенно для американцев.
Возможно, на Курсере готовится новый такой курс от Стэнфорда? Это было бы очень здорово! Никому ничего подобного в новостях не попадалось?
Медленно, но верно занималась по великолепному курсу от Stanford на Coursera от Дэна Джурафски и Кристофера Мэннинга по обработке естественного языка, как внезапно все видео этого курса с ютьюба удалили. Очень расстроилась, потому что придется пользоваться скачанным академическим торрентом, а торренты — это не очень хорошо, конечно, особенно для американцев.
Возможно, на Курсере готовится новый такой курс от Стэнфорда? Это было бы очень здорово! Никому ничего подобного в новостях не попадалось?
Forwarded from Spark in me (Alexander)
Araneum russicum maximum
TLDR - largest corpus for Russian Internet.
Pre-processed version can be downloaded from
Afaik, this link is not yet on their website (?)
#nlp
TLDR - largest corpus for Russian Internet.
Fast-text
embeddings pre-trained on this corpus work best for broad internet related domains.Pre-processed version can be downloaded from
rusvectores
.Afaik, this link is not yet on their website (?)
wget http://rusvectores.org/static/rus_araneum_maxicum.txt.gz
#nlp