Лингвистика на коленке
2K subscribers
103 photos
1 video
5 files
383 links
Я лингвист-дилетант, изучаю романские языки, а также адепт самообучения (и зануда)

Не публикую рекламу.

Бот для отзывов и предложений: @ksenialinguistfbbot.

Первый пост: https://tttttt.me/linguistique_sur_un_genou/4

Чат: @linguistic_dabblers
Download Telegram
Forwarded from Spark in me (Alexander)
Знакомый посоветовал огромную базу с корпусами и моделями векторными для русского языка.

Стильно, модно молодежно
- http://rusvectores.org/ru/models/
- https://nlpub.ru/Russian_Distributional_Thesaurus
- http://opencorpora.org/?page=downloads
- http://vectors.nlpl.eu/repository/

Раньше я думал, что такого особо нет нигде.

#data_science
#nlp
Most common libraries for Natural Language Processing:

CoreNLP from Stanford group:
http://stanfordnlp.github.io/CoreNLP/index.html

NLTK, the most widely-mentioned NLP library for Python:
http://www.nltk.org/

TextBlob, a user-friendly and intuitive NLTK interface:
https://textblob.readthedocs.io/en/dev/index.html

Gensim, a library for document similarity analysis:
https://radimrehurek.com/gensim/

SpaCy, an industrial-strength NLP library built for performance:
https://spacy.io/docs/

Source: https://itsvit.com/blog/5-heroic-tools-natural-language-processing/

#nlp #digest #libs
#nlp

Из всех 2vec’ов больше всего люблю Doc2Vec в исполнении gensim.

Точнее, для моей задачи он лучше всего подходит.
#nlp

Медленно, но верно занималась по великолепному курсу от Stanford на Coursera от Дэна Джурафски и Кристофера Мэннинга по обработке естественного языка, как внезапно все видео этого курса с ютьюба удалили. Очень расстроилась, потому что придется пользоваться скачанным академическим торрентом, а торренты — это не очень хорошо, конечно, особенно для американцев.

Возможно, на Курсере готовится новый такой курс от Стэнфорда? Это было бы очень здорово! Никому ничего подобного в новостях не попадалось?
Forwarded from Spark in me (Alexander)
Araneum russicum maximum

TLDR - largest corpus for Russian Internet. Fast-text embeddings pre-trained on this corpus work best for broad internet related domains.

Pre-processed version can be downloaded from rusvectores.
Afaik, this link is not yet on their website (?)

wget http://rusvectores.org/static/rus_araneum_maxicum.txt.gz

#nlp