Борис Орехов опубликовал новый датасет, основанный на коллекции Google Ngrams (doi: 10.57967/hf/5987). Из оригинального набора данных отобраны биграммы на русском языке и их частотности с 1918 до 2010 год. Биграммы лемматизированы и представлены в виде таблиц. Частотность нормализована относительно общего количества биграмм за год и посчитана до 10-го знака после запятой. Финальный объем данных составил 87 537 955 записей.
Данные полезны для проведения исследований в области культуромики:
📚 Michel, J. B., Shen, Y. K., Aiden, A. P., Veres, A., Gray, M. K., Google Books Team, Pickett, J. P., Hoiberg, D., Clancy, D., Norvig, P., Orwant, J., Pinker, S., Nowak, M. A., & Aiden, E. L. (2011). Quantitative analysis of culture using millions of digitized books. Science (New York, N.Y.), 331(6014), 176–182. https://doi.org/10.1126/science.1199644
📚 Бонч-Осмоловская, А. А. (2023). Глава 4. Культуромика: исследование клуьтуры и языка с помощью текстовых данных Цифровые гуманитарные исследования: монография, Красноярск, 57–99.
📚 Бонч-Осмоловская, А. А. (2018). Имена времени: эпитеты десятилетий в Национальном корпусе русского языка как проекция культурной памяти. Шаги/Steps, 4(3-4), 115-146.
📚 Бонч-Осмоловская, А. А. (2015). Культуромика в национальном корпусе русского языка, к постановке задачи: три века русских дорог. Труды Института русского языка им. В. В. Виноградова, (6), 605-641.
Данные полезны для проведения исследований в области культуромики:
@misc{boris_orekhov_2025,
author = { Boris Orekhov },
title = { russian-20th-century-bigrams (Revision 8ef57d3) },
year = 2025,
url = { https://huggingface.co/datasets/nevmenandr/russian-20th-century-bigrams },
doi = { 10.57967/hf/5987 },
publisher = { Hugging Face }
}
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
nevmenandr/russian-20th-century-bigrams · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍10❤1