Forwarded from Альянс цифровых гуманитарных проектов
проект <—> исследование
Альянс цифровых гуманитарных проектов запускает конкурс проект <—> исследование для тех, кто хочет сделать DH-проекты частью живой инфраструктуры науки, образования и культуры.
Символ <—> в названии конкурса означает, что проекты и исследования связаны. Идея конкурса в том, чтобы делать эту связь между проектами и исследованиями более ощутимой и полезной.
Наша цель — усилить практическую пользу существующих цифровых гуманитарных проектов через исследования, мероприятия или образовательные инициативы.
— Учёные, преподаватели вузов
— Студенты, аспиранты
— Независимые исследователи
— Сотрудники музеев, библиотек, архивов, галерей
— Культурные менеджеры, урбанисты
— Креативные продюсеры, медиа-менеджеры, журналисты
Для участия нужно разработать и описать реализуемую идею, использующую материалы одного или нескольких DH-проектов Альянса, в одной из номинаций:
1. Классическое исследование
2. Интернет-исследование
3. Выставочный/библиотечный/архивный проект
4. Медийный/просветительский проект/мероприятие
5. Образовательная инициатива
6. Critical DH Studies / Ресантимент-анализ
1. Изучите номинации и проекты Альянса.
2. Разработайте свою идею.
3. Заполните анкету и шаблон заявки на сайте.
4. Ждите обратную связь до 1 августа.
> подробности — на сайте <
— Консультационную поддержку от ведущих экспертов Альянса.
— Тьюторскую поддержку (помощь в подготовке публикаций).
— Продюсерскую поддержку для реализации вашего плана.
— Рекомендательное письмо для поступления в магистратуры организаторов.
Заявки принимаются до 16 июля 2025 года.
Если у вас есть вопросы о конкурсе, Пишите нам на почту dh.alliance@yandex.ru.
Please open Telegram to view this post
VIEW IN TELEGRAM
Борис Орехов опубликовал word2vec-модель, обученную на русскоязычных художественных текстах объемом 13 млрд словоупотреблений (doi: 10.57967/hf/5921).
Обучающий корпус составил 13 981 681 569 слов или 1 357 318 182 предложения. Корпус был лемматизирован с помощью программы Mystem.
Модель доступна по ссылке: https://huggingface.co/nevmenandr/w2v-russian-fiction
В описании есть код для инициализации и обращения к модели на языке Python.
Библиографическая ссылка:
Общеизвестно, что расположение векоров в векторном пространстве модели зависит от жанровых особенностей обучающего корпуса. Исходя из этих соображений представляется полезным обучить модель только на художественных текстах, чтобы иметь под рукой инструмент как академического исследования векторной семантики в художественной литературе, так и основу для инженерных решений в области автоматической обработки художественных текстов.
Обучающий корпус составил 13 981 681 569 слов или 1 357 318 182 предложения. Корпус был лемматизирован с помощью программы Mystem.
Модель доступна по ссылке: https://huggingface.co/nevmenandr/w2v-russian-fiction
В описании есть код для инициализации и обращения к модели на языке Python.
Библиографическая ссылка:
@misc{boris_orekhov_2025,
author = { Boris Orekhov },
title = { w2v-russian-fiction (Revision 34453d9) },
year = 2025,
url = { https://huggingface.co/nevmenandr/w2v-russian-fiction },
doi = { 10.57967/hf/5921 },
publisher = { Hugging Face }
}
huggingface.co
nevmenandr/w2v-russian-fiction · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤13🔥10👍3
Борис Орехов опубликовал новый датасет, основанный на коллекции Google Ngrams (doi: 10.57967/hf/5987). Из оригинального набора данных отобраны биграммы на русском языке и их частотности с 1918 до 2010 год. Биграммы лемматизированы и представлены в виде таблиц. Частотность нормализована относительно общего количества биграмм за год и посчитана до 10-го знака после запятой. Финальный объем данных составил 87 537 955 записей.
Данные полезны для проведения исследований в области культуромики:
📚 Michel, J. B., Shen, Y. K., Aiden, A. P., Veres, A., Gray, M. K., Google Books Team, Pickett, J. P., Hoiberg, D., Clancy, D., Norvig, P., Orwant, J., Pinker, S., Nowak, M. A., & Aiden, E. L. (2011). Quantitative analysis of culture using millions of digitized books. Science (New York, N.Y.), 331(6014), 176–182. https://doi.org/10.1126/science.1199644
📚 Бонч-Осмоловская, А. А. (2023). Глава 4. Культуромика: исследование клуьтуры и языка с помощью текстовых данных Цифровые гуманитарные исследования: монография, Красноярск, 57–99.
📚 Бонч-Осмоловская, А. А. (2018). Имена времени: эпитеты десятилетий в Национальном корпусе русского языка как проекция культурной памяти. Шаги/Steps, 4(3-4), 115-146.
📚 Бонч-Осмоловская, А. А. (2015). Культуромика в национальном корпусе русского языка, к постановке задачи: три века русских дорог. Труды Института русского языка им. В. В. Виноградова, (6), 605-641.
Данные полезны для проведения исследований в области культуромики:
@misc{boris_orekhov_2025,
author = { Boris Orekhov },
title = { russian-20th-century-bigrams (Revision 8ef57d3) },
year = 2025,
url = { https://huggingface.co/datasets/nevmenandr/russian-20th-century-bigrams },
doi = { 10.57967/hf/5987 },
publisher = { Hugging Face }
}
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
nevmenandr/russian-20th-century-bigrams · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍10❤1