DH CLOUD
698 subscribers
76 photos
4 videos
6 files
228 links
Делаем то, что считаем нужным, не теряя того, что считаем ценным
Download Telegram
Сегодня произошло важное событие в области цифрового сохранения культурного наследия: состоялся запуск электронного ресурса Слово Толстого, результата многолетней работы группы Tolstoy Digital. Ресурс представляет собой поисковую систему по текстам Толстого из «Юбилейного» собрания сочинений в 90 томах. Основная идея состояла в том, чтобы, сохраняя весь критический аппарат 90 томника, организовать пространство текстов концептуально новым образом, ориентированным на чтение и исследование наследия Толстого в цифровой среде. Более 15000 файлов были размечены в TEI формате. Кроме текстов были подготовлены справочники. На основе метаданных произведений Толстого был создан каталог произведений, в котором тексты Толстого, их черновики и варианты, комментарии к этим текстам объединены в единые сущности. В справочник людей включены 3000 имен, упомянутых в текстах. Редкие слова, размеченные в текстах, объясняются в словаре. Сами файлы в формате xml будут выложены в открытый доступ в ближайшее время.
Forwarded from DHRussia Новости
В следующую среду 14 декабря 2022 года в 16:00 (msk) / 20:00 (krsk) состоится очередное заседание научно-методического семинара «Цифровая среда» Института цифровых гуманитарных исследований (DHRI) Сибирского федерального университета. На семинаре выступит Анастасия Александровна Бонч-Осмоловская (DH Cloud) с докладом «Слово Толстого: путеводитель по наследию писателя на основе полного собрания сочинений в 90 томах».
Анонс и регистрация доступны по адресу: https://dhri.timepad.ru/event/2250328/
Полина Колозариди От этики до метода: работа с данными как социальное действие

Понедельник, 19 декабря, 18:00 | Онлайн | Регистрация

На семинаре Полина Колозариди расскажет о том, какие подходы к этике работы с онлайн-данными есть в гуманитарных и социальных научных практиках, и какие есть проблемы с этими подходами. Мы поговорим о том, почему слово «этика» часто обескураживает учёных, как возможны этические споры и какие отношения между исследователями, дисциплинами и объектами они формируют. Полина покажет базовую схему превращения материалов в данные, а данных — в политически значимые явления. На примерах мы разберёмся с тем, какие действия становятся возможными, а какие — осложняются в ситуациях озабоченности последствиями интеллектуальных проектов.
Мы стартовали, еще не поздно присоединиться. Сегодня с нами Полина Колозариди
Продолжаем разговор про цифровые издания. Завтра в доме творчества Переделкино состоится конференция «От буквы к цифре: наследие писателя в цифровую эпоху». Можно приехать в Переделкино или присоединиться к онлайн трансляции. Регистрация на трансляцию и программа конференции по ссылке. https://tolstoymuseum.timepad.ru/event/2265169/
Основательница DH магистратуры в пермской Вышке Динара Гагарина дала интервью «Системному Блоку». В октябре из-за антивоенных постов Динару отстранили от руководства магистратурой, а саму магистратуру попытались закрыть. В интервью Динара рассказала, как ей удалось отстоять магистратуру, а еще поделилась своим взглядом на то, что происходит с Digital Humanities в России после 24 февраля 2022

https://sysblok.ru/interviews/govorit-o-vojne-nebespolezno-dinara-gagarina-o-digital-humanities-v-rossii-posle-24-fevralja/
Forwarded from Ivan Begtin (Ivan Begtin)
К вопросу о том как искать данные, ключевой проект в этой области - это Google Dataset search [1] который до сих пор имеет статус исследовательского и "не вышел из инкубатора". Он всем хорош, например, использует разметку Dataset из Schema.org для идентификации наборов данных на сайтах и позволяет получать нужные данные быстро если владелец их разметил. Но у него есть системная проблема, она заключается в том что для наборов данных не работает ранжирование теми же методами что для других поисковых индексов, они редко ссылаются друг на друга. Так как определить данные по значимости при поиске? По ключевым словам? Поиск быстро "замусоривается"․ Что и произошло с ним в данном случае. Например, когда ищешь стат показатели по множеству запросов вылезают ссылки на коммерческий проект CEIC. Вроде такого [2], выдаётся первым на запрос "European statistics". Разметка на странице там есть, а вот содержания нет. Нет там и лицензий CC-BY, ни многого другого. Это типичная SEO страница для тех кто торгует данными. Это если мы ищем любые данные, не только бесплатные. А если сделаем фильтр на бесплатные и поищем "Russian statistics" то первым вылезет ссылка на набор данных Linkedin users in Russian Federation [3] сервиса NapoleonCat где нет никаких данных, только график картинкой.

Краткий вывод неутешителен, хороших поисковиков по данным сейчас нет. Задачи data discovery требуют больших усилий, с одной стороны, с другой это не рынок услуг, поскольку платить кому-то за целенаправленный поиск мало кто готов. Только рынок продуктов. Интересно когда появятся достойные альтернативы?

Ссылки:
[1] https://datasetsearch.research.google.com
[2] https://www.ceicdata.com/en/european-union/eurostat-trade-statistics-by-sitc-european-union-russia
[3] https://napoleoncat.com/stats/linkedin-users-in-russian_federation/2022/01/

#datadiscovery #datasets #opendata #searchengines #google
Дорогие коллеги - те, кто ведет курсы по DH в российских университетах,

пишу как модератор от России на DH Course Registry https://dhcr.clarin-dariah.eu/. К сожалению, практически вся имеющаяся там информация по российским DH программам не актуальна (и скрыта по истечении сроков).

Будет здорово, если вы добавите свои отдельные курсы или целые программы (бак, маг) на эту платформу. Принимаются курсы/программы по Digital Humanities в целом или по отдельным направлениям DH, в том числе компьютерной лингвистике, цифровой истории, исторической информатике.

Готова ответить на вопросы или помочь при необходимости.

Ну и в целом рекомендую https://dhcr.clarin-dariah.eu/ как самый большой международный каталог программ по Digital Humanities.
Круглый стол "Digital Humanities в Центральной Азии"

📍15 марта, 10:00 - 16:00 (GMT +5) / Онлайн / Регистрация

DH CLOUD совместно с экспертами Digital Humanities из ведущих университетов Центральной Азии проводят круглый стол.

Цель мероприятия — обсуждение цифровой трансформации гуманитарных исследований и образования в университетах стран Центральной Азии, актуализация таких исследований и проектов, формирование сообщества для развития Digital Humanities в регионе.

К участию приглашаются исследователи, преподаватели и студенты университетов, сотрудники архивов, музеев и библиотек, все, кто интересуется или занимается цифровой трансформацией гуманитарных наук.

Круглый стол будет состоять из трех полуторачасовых панельных дискуссий, где эксперты представят свое видение и ответят на вопросы модераторов и участников:

Цифровые исследования истории, культуры и языков народов и стран Центральной Азии;
Цифровое сохранение и репрезентация культурного наследия и исторической памяти;
Образовательные программы и инфраструктурное развитие Digital Humanities в Центральной Азии.

Сайт круглого стола: https://ca.dhcloud.org/
Колонка Бориса Орехова в «Известиях», посвященная нашумевшей истории о защите диплома, написанного нейросетью.

В тексте для газеты пришлось пожертвовать примерами абсурдных ответов chatGPT. А они бывают. Несмотря на то, что с широким спектром задач нейросеть справляется блестяще, это далеко не всесильный разум.

Комментарий к вопросу о великих романах Достоевского: у литературоведов даже есть специальный термин «великое пятикнижие», под которым подразумевают «Преступление и наказание», «Идиот», «Бесы», «Подросток», «Братья Карамазовы».
Forwarded from DHRussia Новости
В эту среду 22 февраля 2023 года в 15:00 (msk) / 19:00 (krsk) / 13:00 (CET) состоится очередное заседание научно-методического семинара «Цифровая среда» Института цифровых гуманитарных исследований (DHRI) Сибирского федерального университета. На семинаре выступит Дмитрий Олегович Жаров (Центрально-Европейский университет) с докладом «„Пишу тебе“. Цифровой корпус открыток».

Приглашенный дискутант — доцент исторического факультета МГУ, доктор исторических наук Александр Сергеевич Медяков, автор монографии «Война формата 9х14. Открытки в немецкой „культуре войны“ 1914-1918 гг.» (М., 2021).

Анонс и регистрация доступны по адресу: https://dhri.timepad.ru/event/2325300/
Channel photo updated
Центр научный работников и преподавателей иудаки в вузах «Сэфер» приглашает на онлайн курс изучения языка идиш цифровыми методами: корпуса газет на идише, многоязычные корпуса, программы для обработки текстов и аудиоданных на идише, создание собственных баз данных. Курс состоится 6, 13, 10 и 27 марта. #анонс #education https://sefercenter.org/rus/education/educational_programmes/izuchaya-idish-tsifrovymi-metodami-korpusa-bazy-dannykh-instrumentariy.php
Last call! До завтра еще можно подать заявку на трехдневную школу CLS INFRA. CLS INFRA - это европейский инфраструктурный проект, посвященный computational literary studies. Предлагается  крэш курс под названием Dig for gold, цель которого обучение современным методам извлечения знаний из корпуса текстов (от стилометрии до NLP). Школа бесплатная и будет проходить одновременно онлайн и оффлайн с 9 по 11 мая в Мадриде. Все подробности тут. https://clsinfra.io/events/training-school/ #education