DH CLOUD
717 subscribers
77 photos
4 videos
6 files
239 links
Делаем то, что считаем нужным, не теряя того, что считаем ценным
Download Telegram
На Youtube-канале научно-методического семинара «Цифровая среда» Института цифровых гуманитарных исследований (DHRI) Сибирского федерального университета опубликовано видео состоявшегося в июне 2022 года доклада Бориса Орехова «Русский метод в стиховедении в контексте Digital Humanities».

Стиховедение — это нетипичный раздел литературоведения, который исторически ориентирован на количественные исследования и этим отличается от более распространенного среди филологов качественного герменевтического подхода к художественным текстам. Строго говоря подсчеты для описания стихового уровня не являются обязательными, например, филологи-классики ограничиваются каталогизацией известных форм и вопросами их исторической реконструкции. Но в русской науке благодаря Андрею Белому, А. Н. Колмогорову и М. Л. Гаспарову установилась традиция, позже названная «русским методом», подразумевающая количественную оценку распространенности стиховых форм. Количественное описание помогает разграничить «фоновые» употребления поэтических размеров и информативные выбросы.

Особенный интерес для современных digital humanities имеют применяемые стиховедами стратегии интерпретации количественных данных. В отличие от последователей концепции distant reading, те, кто пользуется «русским методом», не прибегают к ресурсу социального объяснения выявленных закономерностей, а остаются внутри гуманитарной системы координат, при этом не ограничивая себя и плоским дескриптивизмом. Способы, с помощью которых стиховеды наполняют свои данные смыслом, могут служить продуктивной моделью для digital humanities, во многом запертых в узком пространстве очевидных выводов. В то же время digital humanities могут существенно расширить инструментарий стиховедения за счет анализа данных и машинного обучения.

Борис Орехов - доцент НИУ ВШЭ, старший научный сотрудник ИРЛИ РАН, DH CLOUD.

Ссылка на видео: https://youtu.be/Vu4GFymJoF8
6
На первый взгляд, публиковать компьютерно сгенерированные стихи как датасет глупо: можно в любой момент подключить модель и наплодить еще практически бесконечное число строк. Ценность такой публикации вроде бы теряется.
На деле это не совсем так. Взять и запустить модель не всегда просто, особенно если она обучена несколько лет назад, нужно выстраивать виртуальное окружение с нужными версиями фреймворков (горе, если использованы не самые распространенные!) и их зависимостей. Простая вроде бы задача «получить текст» может обернуться головной болью на многие часы или даже дни. А иногда искусственно сгенерированными текстами интересуются исследователи-филологи, которые совсем не знают, как и где запускать код. Им датасет с уже готовыми текстами мог бы пригодиться.
Борис Орехов опубликовал в виде набора данных тексты, сгенерированные моделями, обученными им в течение 2019–2021 годов на собраниях немецких поэтов Гёльдерлина, Фонтане и Целана, а также на корпусе немецкого гекзаметра. Использовалась уже устаревшая по нынешним временам архитектура char-based RNN LSTM, но сами примеры текстов еще могут быть интересны специалистам.

Boris Orekhov. (2022). German Generated Poetic Texts nevmenandr/german-generated-poetic-texts: v1.0 (v1.0). Zenodo. https://doi.org/10.5281/zenodo.7114238
🔥101
Forwarded from Antibarbari HSE (Olga Alieva)
🎞 Публикуем видео лекции Бориса Орехова "Параллельный древнегреческо-русский корпус: как и зачем?"

В рамках проекта "Цифровая античность" (НИУ ВШЭ) начинается работа над созданием параллельного древнегреческо-русского корпуса.

Первый этап работы потребует подготовки и тестирования электронных инструментов, позволяющих создавать параллельные корпуса древнегреческих текстов и их русских переводов.

О том, что это за инструменты, и как "научить" их правильно соотносить оригинал с переводом, смотрите в первом видео проекта.
👍10
Мы в DH CLOUD уже некоторое время обсуждаем идею разнообразных ридеров или комментированных библиографических списков по разным увлекательным темам, а наши коллеги из ИТМО уже сделали такой авторский список про интернет, цифровые объекты и данные. С удовольствием делимся.
3👍2
Forwarded from любим интернет каждый день (poli kolozaridi)
мы сделали для студентовк магистерской программы, которую курируем в ИТМО, ридер для позднелетнего чтения про разные сюжеты вокруг интернета и исследований.

возможно, этот ридер будет интересен и вам. там (важно!) — не только про интернет, но

- и про цифровую гуманитаристику и свойства цифровых/оцифрованных/перцифрованных объектов — текст классика веб-истории Нильса Брюггера.
- производство времени в ПГТ на материалах антропологического исследования Дарьи Димке и Ирины Корюхиной «Завод по производству времени».
- инфраструктуры и почему они важны как концептуальная единица — в красивом тексте Стивена Грэхема и Найджела Трифта
- почему интернет не производит цифровых мигрантов, но играет важную роль в жизни подростов — мой краткий обзор книги даны бойд
- интеллектуальная работа с данными — это не абы какая новость, но некоторый сдвиг в способах интеллектуальной жизни, сложный, зато на русском текст Роба Китчина.

для нас эти тексты важны тем, что знакомят людей с тем, что такое исследование (статья про завод), теория (инфраструктуры), проблема с данными (Китчин), цифровые объекты (Брюггер), да и интернет как сюжет исследования (бойд в моём пересказе).

без этих составляющих про изучение интернета говорить сложно, а с ними — тоже порой непросто, зато понятно как.
🔥85
Семинар «Математик знает лучше» - серия встреч Александры Скрипченко, декана факультета математики НИУ ВШЭ, с людьми, получившими когда-то математическое образование, а теперь работающими в самых разных сферах.

В этом видео интервью с Динарой Гагариной, закончившей магистратуру по математическому моделированию, а сейчас занимающейся Digital Humanities и математическими методами в истории.

Ссылка
10
Forwarded from DHRussia Новости
2 ноября 2022 года в 15:00 (msk) /19:00 (krsk) состоится очередное заседание научно-методического семинара «Цифровая среда» Института цифровых гуманитарных исследований (DHRI) Сибирского федерального университета. На семинаре выступит Евгений Сергеевич Гришин (БРЭ, РАНХиГС, ИВ РАН) с докладом «Интерактивное представление цифровых карт и геоинформационных проектов: варианты решений».

Регистрация и аннотация доступны по адресу:
https://dhri.timepad.ru/event/2215815/

Записи заседаний семинаров DHRI доступны: bit.ly/DHRIyoutube
🔥2
Культурная аналитика, открытая лекция Льва Мановича

Понедельник, 31 октября |18:00 мск | Онлайн | Регистрация

В рамках проекта DH CLOUD и семинара по DH для студентов Вышки профессор Лев Манович прочтет лекцию о культурной аналитике. Именно он ввел в обращение этот термин и институционализировал само направление. Культурная аналитика или Cultural Analytics — область исследований, которая занимается изучением больших объемов культурных данных, используя для этого методы визуализации и вычисления. Объектом исследований являются как оцифрованные культурные артефакты, так и цифровой медиа-контент.

Модераторы встречи: Динара Гагарина, Анастасия Бонч-Осмоловская.

https://dhcloud.timepad.ru/event/2214083/
6
Напоминаем, что уже завтра в 18:00 мск состоится лекция Льва Мановича "Культурная аналитика".

Регистрация
👍6
Прямо сейчас идет лекций Льва Мановича "Культурная аналитика", присоединяйтесь!
👍3👎2
Лев Манович, лекция и дискуссия "Культурная аналитика" // DH CLOUD

Выложили видео вчерашней встречи.

https://youtu.be/A-eBieVu3RQ
16
Forwarded from DHRussia Новости
16 ноября (среда) 2022 года в 16:00 (msk) / 20:00 (krsk) на семинаре «Цифровая среда» DHRI@СФУ Куинн Домбровски (Стэнфордский университет) представит доклад “Directories as Utopian Infrastructure” («Каталоги как утопическая инфраструктура») — будут рассмотрены современные подходы к каталогизации ресурсов цифровых гуманитарных наук.
Доклад пройдет в Zoom на английском языке.
Регистрация и аннотация доступны по адресу: https://dhri.timepad.ru/event/2224905/
👍1
Сегодня начался симпозиум "Building Digital Humanities". Мероприятие проводится онлайн, участие бесплатное. Сессии симпозиума продлятся до 25 ноября.

https://web.cvent.com/event/811e389e-78de-46cd-877d-b20b9ae9ed85
👍4
Евгений Глазунов: Госкаталог РФ и унификации данных в нем

Понедельник, 14 ноября |18:00 мск | Онлайн | Регистрация

14 ноября на открытом мероприятии DH CLOUD выступит Евгений Глазунов с рассказом об унификации данных в Госкаталоге РФ, централизованном ресурсе, отражающем музейные экспонаты. Сотрудники музеев заполняют соответствующие поля в базе не всегда последовательно, и для поиска по этому ресурсу нужно произвести предварительную обработку с помощью методик NLP.

Дискутант: Иван Бегтин, директор, соучредитель АНО «Информационная культура», один из ведущих российских экспертов в области открытых данных (OpenData) и открытого государства (OpenGovernment), автор общественных проектов «Госзатраты», «Открытые НКО», «Понятный русский язык», «Цифровое сохранение».
🔥7👍1
Сегодня произошло важное событие в области цифрового сохранения культурного наследия: состоялся запуск электронного ресурса Слово Толстого, результата многолетней работы группы Tolstoy Digital. Ресурс представляет собой поисковую систему по текстам Толстого из «Юбилейного» собрания сочинений в 90 томах. Основная идея состояла в том, чтобы, сохраняя весь критический аппарат 90 томника, организовать пространство текстов концептуально новым образом, ориентированным на чтение и исследование наследия Толстого в цифровой среде. Более 15000 файлов были размечены в TEI формате. Кроме текстов были подготовлены справочники. На основе метаданных произведений Толстого был создан каталог произведений, в котором тексты Толстого, их черновики и варианты, комментарии к этим текстам объединены в единые сущности. В справочник людей включены 3000 имен, упомянутых в текстах. Редкие слова, размеченные в текстах, объясняются в словаре. Сами файлы в формате xml будут выложены в открытый доступ в ближайшее время.
🔥30👍2
Forwarded from DHRussia Новости
В следующую среду 14 декабря 2022 года в 16:00 (msk) / 20:00 (krsk) состоится очередное заседание научно-методического семинара «Цифровая среда» Института цифровых гуманитарных исследований (DHRI) Сибирского федерального университета. На семинаре выступит Анастасия Александровна Бонч-Осмоловская (DH Cloud) с докладом «Слово Толстого: путеводитель по наследию писателя на основе полного собрания сочинений в 90 томах».
Анонс и регистрация доступны по адресу: https://dhri.timepad.ru/event/2250328/
🔥52