DH CLOUD
718 subscribers
77 photos
4 videos
6 files
239 links
Делаем то, что считаем нужным, не теряя того, что считаем ценным
Download Telegram
Forwarded from Antibarbari HSE (Olga Alieva)
📆 17 мая в 18:10 (мск) в Греко-латинском клубе Antibarbari состоится встреча со Светланой Яцык, к.и.н., научным сотрудником Лаборатории медиевистических исследований НИУ «ВШЭ», участницей проекта Distinguo.

Тема встречи: Распознавание рукописного текста (HTR): история, перспективы, текущие проекты

За последние несколько лет развитие технологий распознавания рукописного текста (HTR) сделало автоматизированную транскрипцию древних документов доступной для широкого круга ученых. Существующее программное обеспечение позволяет безболезненно развертывать конвейеры HTR, а данные для обучения моделей (ground truth) становятся все более доступными, что дает ученым возможность быстро получать транскрипции в объемах, которые ранее потребовали бы годы интенсивной работы.

На этом заседании клуба мы обсудим существующие методы автоматической транскрипции, познакомимся с готовыми инструментами (Tesseract, Transkribus, kraken / eScriptorium) и проектами, которые их применяют.

В частности, на примере платформы eScriptorium мы разберем, как
- готовить данные для тренировки;
- обучать модели и делать их тонкую настройку (fine-tuning);
- оценивать качество транскрипции;
- использовать «грязную» неотредактированную транскрипцию для решения дальнейших исследовательских задач. #antibarbari_colloquia

Встреча пройдет на платформе Zoom. Ссылка для подключения.
🔥7
«Открытые данные против мракобесия и пренебрежения реальностью»: интервью с Кириллом Маслинским

Кирилл Маслинский — цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора в Пушкинском доме, создатель Детского корпуса и Репозитория открытых данных по русской литературе и фольклору. «Системный Блокъ» узнал у Кирилла, что можно найти в тысячах оцифрованных детских книг, когда в детской литературе было допустимо употреблять слово «какашка», зачем филологам репозиторий открытых данных и может ли этот репозиторий как-то помочь в борьбе с мракобесием и войнами.

Кратко: о чем интервью?

Одна из миссий Лаборатории цифровых исследований литературы и фольклора — воплощать литературные корпуса, которые работают по тому же принципу, что и Национальный корпус русского языка. Например, ДетКорпус из 3000 детских книг и корпус нарративной прозы из 500 романов XIX века.

Ещё одна важная задача — работа над репозиторием открытых данных, литературы и фольклора. Сегодня профессиональный долг исследователя — опубликовать после исследования данные по современным стандартам. Лаборатория помогает это сделать: данные необходимо не только переработать и донести до публики, но и сделать доступными для количественных исследований. Например, в случае с датасетом о бытовании литературных текстов в ГУЛАГе было около восьми раундов правок с авторами, потому что таблица создавалась филологами как «человекочитаемые» данные, а не как машиночитаемые.

На базе этих корпусов и данных проводятся исследования. Одно из них — про репрезентацию телесности и гендерные аспекты в детских текстах. Выяснилось, например, что у мальчиков писатели очень сильно актуализируют затылки, а у девочек — щеки. Это как бы такие отдельно «женские» и «мужские» части тела в текстах детского корпуса. Другое исследование, которое проводил Кирилл, было посвящено контекстному употреблению слова «счастье» в ДетКорпусе.

О том, каким «счастье» в детских книгах было в сталинском СССР и как изменилось к концу хрущевского периода, что такое digital commons, с какими сложностями столкнулись создатели датасета с данными ГУЛАГа и почему сегодня он актуален как никогда — в полном тексте интервью.

Время чтения: 28 минут.
5👍2👏2
Forwarded from Кот Шрёдингера (Андрей Константинов)
Помните, я рассказывал про свой любимый атлас geacron, который показывает границы стран в любой год за последние пять тысяч лет? Увидел еще один подобный инструмент для сопоставления разных исторических событий, очень интересный, - worldpopulationhistory. Тут под картой сразу несколько таймлайнов с главными событиями из истории развития общества, сельского хозяйства, медицины, науки, технологий, – одним словом, не с войнами, сменой вождей и прочей политической круговертью, а с инновациями, реально менявшими мир. Правда, только с первого года нашей эры. Вместо границ стран - места, где на самом деле жили люди (основная тема карты - как менялось население мира).

А не попадался ли кому-нибудь инструмент для создания и сравнения таймлайнов? Давно хочу этим заняться.
🔥4
Forwarded from Antibarbari HSE (Olga Alieva)
Публикуем запись вчерашнего выступления Светланы Яцык об автоматическом распознавании рукописного текста. Презентация доступна по ссылке выше.

Также вчера Светлана Александровна упомянула о том, что ей нужны волонтеры (возможно студенты) в проект по распознаванию русского рукописного текста. Это хорошая возможность освоить eScriptorium под руководством опытного наставника; пишите @gratis_dictum, если готовы за это взяться. Для студентов ВШЭ возможно получение кредитов за проектную деятельность.
👍5
Борис Орехов: Текст и знание в гуманитарных науках в эпоху больших языковых моделей

Выкладываем запись выступления Бориса Орехова 16 мая в УрФУ на научном семинаре, посвященном проблемам и возможностям применения нейросетей в гуманитарных исследованиях.

Отчуждаемо ли знание от текста? Можно ли считать, что критика “составителей речей” у Платона распространяется на ChatGPT? Где проще имитировать знание -- в гуманитарных науках или в естественных? Как выдает себя машина при написании курсовой по истории?

Огромное спасибо О. В. Алиевой за помощь с видео.

https://youtu.be/SVI9nSmrQWk
👍145🔥1
Forwarded from ololo community
​​Мы начинаем прием заявок на участие в онлайн-программе самообразования Supporting the Creative Economy для профессионалов, работающих в культурных и креативных индустриях и заинтересованных в разработке политик в данном направлении.

На протяжении четырех недель вы будете погружаться в мир креативной экономики, узнавая о ее экономической, технологической и социальной значимости, а также о том, какие возможности она предоставляет творческим предпринимателям.

Программа не только позволит вам расширить свои знания и навыки, но и даст возможность внести существенный вклад в разработку политик, способствующих развитию культурных и креативных индустрий Центральной Азии.

Программа создана British Council и Cultural Associates Oxford в партнерстве с ololo. Ознакомиться с программой и подать заявку можно по ссылкам ниже 🔻

#SupportingtheCreativeEconomy #oxford #britishcouncil #ololo #kzbritish
1
Как провести стилометрический эксперимент с помощью stylo? Исследуем сценарии «Черного зеркала»

Хотите научиться устанавливать авторство текстов и следить за изменениями в стилистике сценариев к любимым сериалам? Читайте гайд, как самому провести стилометрический эксперимент — с помощью stylo, библиотеки языка R и самого популярного инструмента для стилометрии. 

Кратко: о чем статья?

Стилометрия — это количественное исследование стилистики, обычно включающее частотный анализ письменного текста. «Системный Блокъ» рассказывал о ней здесь и делал подборку материалов о стилометрических исследованиях. На практике её можно применять во многих областях: от судебной лингвистики и до установки авторства пьес Мольера.

Самый распространенный инструмент для стилометрических исследований — stylo, библиотека языка программирования R (но не пугайтесь заранее: программировать особо не придётся — у stylo вполне понятный интерфейс). Для работы с ним потребуется установить интерпретатор (программу, которая «переводит» код на языке программирования в команды, понятные машине) языка R и среду для написания кода, которая называется RStudio.

Следуя инструкции работы со stylo, мы исследовали сериал-антиутопию «Черное зеркало», взяв в открытом доступе расшифровки всех эпизодов на английском языке. Эксперимент показал, что первые два сезона для британского телеканала стилистически отличаются от последующих трёх — созданных для Нетфликса. Хотя сценарии для них написал один и тот же человек — создатель сериала, Чарли Брукер.

Чтобы узнать, какая серия «Черного зеркала» стилистически выбивается из общего ряда, получить более подробную инструкцию по работе со stylo на Windows, Mac и Linux и проводить собственные эксперименты — читайте полный текст статьи.

Время чтения: 16 минут.
3
🌐Лекция «Гуманитарий в эпоху датаизма: как осмыслить данные вокруг нас?»

👤Приглашаем на заключительную лекцию марафона!
Докладчик: Андрей Володин, к. и. н., доцент кафедры исторической информатики исторического факультета МГУ им. М. В. Ломоносова, DHRI СФУ

Данные окружают нас, данные повсюду. Датафикация – процесс устойчивого фиксирования массовых наблюдений в разных форматах данных, позволяющий осуществить их качественную и количественную обработку, их научный анализ и синтез. А датаизм — это точка зрения, что Вселенная состоит из потоков данных, когда ценность всякого явления определяется вкладом в обработку данных. Как быть гуманитарием в этом новом мире, как осмыслить собственный «улов» данных и зачем вносить существенный вклад в обработку данных в эпоху повсеместного машинного обучения?

🕰 Мастер-класс начнется 25 мая в 17:00 (мск.)
👉🏻 Регистрация: perm.hse.ru/marathon/2023
👍6🔥2
Дорогие коллеги, если вы разрабатываете и ведете образовательные программы по Digital Humanities, цифровой истории, компьютерной лингвистике и смежным направлениям, расскажите об этой программе на сайте DH Course Registry https://dhcr.clarin-dariah.eu/.

На этой платформе собраны разные форматы - магистратуры, бакалавриаты, летние школы, отдельные курсы со всего мира. И пока тут практически нет программ из Центральной Азии и России.

Это отличная возможность, чтобы о вашей программе узнали потенциальные абитуриенты и международное сообщество.

Обращайтесь с любыми вопросами по платформе к Динаре Гагариной (@dinaraamirovna). Если вы хотите добавить свой курс, тоже напишите Динаре.
8
Forwarded from DHRussia Новости
31 мая 2023 года в 15:00 (msk) / 19:00 (krsk) состоится очередное заседание научно-методического семинара «Цифровая среда» Института цифровых гуманитарных исследований (DHRI) Сибирского федерального университета. На семинаре выступит Роман Борисович Кончаков (РАНХиГС) с докладом «Проблемы описания и публикации данных исторической статистики онлайн».
Регистрация и аннотация доклада по адресу: https://dhri.timepad.ru/event/2444752/
2👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Небольшая видео-презентация пленарного доклада Динары Гагариной "Digital Humanities в Центральной Азии: точки роста" на конференции Ташкентского университета прикладных наук.

Будем рады совместным проектам и мероприятиям по развитию цифровых гуманитарных исследований в Центральной Азии!
6🔥3👍1
Модули Python для решения задач Digital Humanities

Завели на нашем сайте раздел, где будем собирать полезные инструменты, разработанные сообществом DH CLOUD и студентами магистратур по Digital Humanities. Начнем с трех модулей для Python, дальше коллекция будет пополняться.

https://dhcloud.org/python/
15👍4🔥3
Румыния становится важным центром DH образования. Туда переехал из Лейпцига летний европейский университет «Сulture and technology» А в конце июня пройдет школа по корпусной лингвистике и digital humanities. (❗️взнос всего 50 евро) https://dilarass.uvt.ro/
6👍6
Борис Орехов опубликовал препринт с результатами эксперимента, в котором участвовало под сотню студентов-филологов. Задача была в том, чтобы понять, могут ли респонденты угадать стиль автора, на котором обучалась lstm-модель. Проверялись короткие отрывки в 4 строки, сгенерированные нейросетями, натренированными на текстах Некрасова, Мандельштама и раннего Пастернака. Во всех случаях большинство ответов оказались верными. Важным для результатов оказалось и то, знают ли респонденты стихи поэта наизусть.
17🔥2
Прикладной анализ данных в социальных науках

Академия Яндекса совместно с Европейским университетом в Санкт-Петербурге разработала новый хендбук (онлайн-учебник) «Прикладной анализ данных в социальных науках». Хендбук составлен так, чтобы любой человек без навыков в области анализа данных или программирования мог за короткий срок понять общую логику и техническую сторону процесса, провести самостоятельное исследование и научиться программировать на Python. Учебник бесплатный.
🔥16👍3
Stylo beats GPT: большие языковые модели не могут (пока) обмануть стилометрию

Этим вечером в Сиене закончилась главная итальянская DH-конференция AIUCD. Среди прочих докладов нас заинтересовал эксперимент по тестированию Delta на текстах, сгенерированных GPT3 и (чуть-чуть) ChatGPT.

🧪Чтобы проделать тест, исследователи нагенерировали в GPT3 текстов “в стиле” десяти английских авторов. Через API GPT3 они закидывали запросы вида “Напиши главу романа в стиле автора А”, “Напиши роман, имитирующий автора Б”, “Напиши рассказ так, как будто он написан автором В” и т.п. — всего 320 комбинаций. Так постепенно нагенерировали “текстоиды” (термин самих исследователей) длиной не менее 5000 слов. Эти текстоиды затем сравнивались с реальными текстами тех же авторов.

😔Результат пока что в пользу стилометрии: тексты GPT3 “в стиле” разных авторов похожи не на этих авторов , а друг на друга (см. картинку). Для ChatGPT, к которому у авторов статьи еще не было API, сделали эксперимент с одним автором (Диккенс), и там стайло тоже обмануть не удалось.

🤔 Причиной "неудач” языковых моделей в имитации авторского сигнала становится хроническое недоиспользование некоторых частотных слов. Например они редко используют отрицательные частицы (прям как некоторые из нас, не умеющие говорить “нет”), а еще модальные глаголы типа might.

🔗Ссылка на сборник AIUCD 2023 и нужную страницу со статьей про Delta vs GPT:

https://www.aiucd.it/wp-content/uploads/2023/06/2023_aiucd_la_memoria_digitale_v1.pdf#page=305
🔥8👍1