Борис Орехов опубликовал word2vec-модель, обученную на русскоязычных художественных текстах объемом 13 млрд словоупотреблений (doi: 10.57967/hf/5921).
Обучающий корпус составил 13 981 681 569 слов или 1 357 318 182 предложения. Корпус был лемматизирован с помощью программы Mystem.
Модель доступна по ссылке: https://huggingface.co/nevmenandr/w2v-russian-fiction
В описании есть код для инициализации и обращения к модели на языке Python.
Библиографическая ссылка:
Общеизвестно, что расположение векоров в векторном пространстве модели зависит от жанровых особенностей обучающего корпуса. Исходя из этих соображений представляется полезным обучить модель только на художественных текстах, чтобы иметь под рукой инструмент как академического исследования векторной семантики в художественной литературе, так и основу для инженерных решений в области автоматической обработки художественных текстов.
Обучающий корпус составил 13 981 681 569 слов или 1 357 318 182 предложения. Корпус был лемматизирован с помощью программы Mystem.
Модель доступна по ссылке: https://huggingface.co/nevmenandr/w2v-russian-fiction
В описании есть код для инициализации и обращения к модели на языке Python.
Библиографическая ссылка:
@misc{boris_orekhov_2025,
author = { Boris Orekhov },
title = { w2v-russian-fiction (Revision 34453d9) },
year = 2025,
url = { https://huggingface.co/nevmenandr/w2v-russian-fiction },
doi = { 10.57967/hf/5921 },
publisher = { Hugging Face }
}
huggingface.co
nevmenandr/w2v-russian-fiction · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤13🔥10👍3
Борис Орехов опубликовал новый датасет, основанный на коллекции Google Ngrams (doi: 10.57967/hf/5987). Из оригинального набора данных отобраны биграммы на русском языке и их частотности с 1918 до 2010 год. Биграммы лемматизированы и представлены в виде таблиц. Частотность нормализована относительно общего количества биграмм за год и посчитана до 10-го знака после запятой. Финальный объем данных составил 87 537 955 записей.
Данные полезны для проведения исследований в области культуромики:
📚 Michel, J. B., Shen, Y. K., Aiden, A. P., Veres, A., Gray, M. K., Google Books Team, Pickett, J. P., Hoiberg, D., Clancy, D., Norvig, P., Orwant, J., Pinker, S., Nowak, M. A., & Aiden, E. L. (2011). Quantitative analysis of culture using millions of digitized books. Science (New York, N.Y.), 331(6014), 176–182. https://doi.org/10.1126/science.1199644
📚 Бонч-Осмоловская, А. А. (2023). Глава 4. Культуромика: исследование клуьтуры и языка с помощью текстовых данных Цифровые гуманитарные исследования: монография, Красноярск, 57–99.
📚 Бонч-Осмоловская, А. А. (2018). Имена времени: эпитеты десятилетий в Национальном корпусе русского языка как проекция культурной памяти. Шаги/Steps, 4(3-4), 115-146.
📚 Бонч-Осмоловская, А. А. (2015). Культуромика в национальном корпусе русского языка, к постановке задачи: три века русских дорог. Труды Института русского языка им. В. В. Виноградова, (6), 605-641.
Данные полезны для проведения исследований в области культуромики:
@misc{boris_orekhov_2025,
author = { Boris Orekhov },
title = { russian-20th-century-bigrams (Revision 8ef57d3) },
year = 2025,
url = { https://huggingface.co/datasets/nevmenandr/russian-20th-century-bigrams },
doi = { 10.57967/hf/5987 },
publisher = { Hugging Face }
}
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
nevmenandr/russian-20th-century-bigrams · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍10❤1