Forwarded from Antibarbari HSE (Olga Alieva)
📆 17 мая в 18:10 (мск) в Греко-латинском клубе Antibarbari состоится встреча со Светланой Яцык, к.и.н., научным сотрудником Лаборатории медиевистических исследований НИУ «ВШЭ», участницей проекта Distinguo.
Тема встречи: Распознавание рукописного текста (HTR): история, перспективы, текущие проекты
За последние несколько лет развитие технологий распознавания рукописного текста (HTR) сделало автоматизированную транскрипцию древних документов доступной для широкого круга ученых. Существующее программное обеспечение позволяет безболезненно развертывать конвейеры HTR, а данные для обучения моделей (ground truth) становятся все более доступными, что дает ученым возможность быстро получать транскрипции в объемах, которые ранее потребовали бы годы интенсивной работы.
На этом заседании клуба мы обсудим существующие методы автоматической транскрипции, познакомимся с готовыми инструментами (Tesseract, Transkribus, kraken / eScriptorium) и проектами, которые их применяют.
В частности, на примере платформы eScriptorium мы разберем, как
- готовить данные для тренировки;
- обучать модели и делать их тонкую настройку (fine-tuning);
- оценивать качество транскрипции;
- использовать «грязную» неотредактированную транскрипцию для решения дальнейших исследовательских задач. #antibarbari_colloquia
Встреча пройдет на платформе Zoom. Ссылка для подключения.
Тема встречи: Распознавание рукописного текста (HTR): история, перспективы, текущие проекты
За последние несколько лет развитие технологий распознавания рукописного текста (HTR) сделало автоматизированную транскрипцию древних документов доступной для широкого круга ученых. Существующее программное обеспечение позволяет безболезненно развертывать конвейеры HTR, а данные для обучения моделей (ground truth) становятся все более доступными, что дает ученым возможность быстро получать транскрипции в объемах, которые ранее потребовали бы годы интенсивной работы.
На этом заседании клуба мы обсудим существующие методы автоматической транскрипции, познакомимся с готовыми инструментами (Tesseract, Transkribus, kraken / eScriptorium) и проектами, которые их применяют.
В частности, на примере платформы eScriptorium мы разберем, как
- готовить данные для тренировки;
- обучать модели и делать их тонкую настройку (fine-tuning);
- оценивать качество транскрипции;
- использовать «грязную» неотредактированную транскрипцию для решения дальнейших исследовательских задач. #antibarbari_colloquia
Встреча пройдет на платформе Zoom. Ссылка для подключения.
🔥7
Выложили запись вчерашней лекции Инны Кижнер "Можно ли делать научные открытия с помощью цифровых коллекций художественных произведений?" Получилось интересно и насыщенно! Позже еще добавим библиографию.
https://youtu.be/YVw36fKy98Y
https://youtu.be/YVw36fKy98Y
YouTube
Инна Кижнер: Цифровые коллекции художественных произведений
Лекция Инны Кижнер "Можно ли делать научные открытия с помощью цифровых коллекций художественных произведений?" в рамках проекта DH CLOUD Community.
В лекции показаны возможности, которые дают цифровые коллекции для анализа культурно-значимых данных. Анализ…
В лекции показаны возможности, которые дают цифровые коллекции для анализа культурно-значимых данных. Анализ…
👍8❤3
Forwarded from Системный Блокъ
«Открытые данные против мракобесия и пренебрежения реальностью»: интервью с Кириллом Маслинским
Кирилл Маслинский — цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора в Пушкинском доме, создатель Детского корпуса и Репозитория открытых данных по русской литературе и фольклору. «Системный Блокъ» узнал у Кирилла, что можно найти в тысячах оцифрованных детских книг, когда в детской литературе было допустимо употреблять слово «какашка», зачем филологам репозиторий открытых данных и может ли этот репозиторий как-то помочь в борьбе с мракобесием и войнами.
Кратко: о чем интервью?
Одна из миссий Лаборатории цифровых исследований литературы и фольклора — воплощать литературные корпуса, которые работают по тому же принципу, что и Национальный корпус русского языка. Например, ДетКорпус из 3000 детских книг и корпус нарративной прозы из 500 романов XIX века.
Ещё одна важная задача — работа над репозиторием открытых данных, литературы и фольклора. Сегодня профессиональный долг исследователя — опубликовать после исследования данные по современным стандартам. Лаборатория помогает это сделать: данные необходимо не только переработать и донести до публики, но и сделать доступными для количественных исследований. Например, в случае с датасетом о бытовании литературных текстов в ГУЛАГе было около восьми раундов правок с авторами, потому что таблица создавалась филологами как «человекочитаемые» данные, а не как машиночитаемые.
На базе этих корпусов и данных проводятся исследования. Одно из них — про репрезентацию телесности и гендерные аспекты в детских текстах. Выяснилось, например, что у мальчиков писатели очень сильно актуализируют затылки, а у девочек — щеки. Это как бы такие отдельно «женские» и «мужские» части тела в текстах детского корпуса. Другое исследование, которое проводил Кирилл, было посвящено контекстному употреблению слова «счастье» в ДетКорпусе.
О том, каким «счастье» в детских книгах было в сталинском СССР и как изменилось к концу хрущевского периода, что такое digital commons, с какими сложностями столкнулись создатели датасета с данными ГУЛАГа и почему сегодня он актуален как никогда — в полном тексте интервью.
Время чтения: 28 минут.
Кирилл Маслинский — цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора в Пушкинском доме, создатель Детского корпуса и Репозитория открытых данных по русской литературе и фольклору. «Системный Блокъ» узнал у Кирилла, что можно найти в тысячах оцифрованных детских книг, когда в детской литературе было допустимо употреблять слово «какашка», зачем филологам репозиторий открытых данных и может ли этот репозиторий как-то помочь в борьбе с мракобесием и войнами.
Кратко: о чем интервью?
Одна из миссий Лаборатории цифровых исследований литературы и фольклора — воплощать литературные корпуса, которые работают по тому же принципу, что и Национальный корпус русского языка. Например, ДетКорпус из 3000 детских книг и корпус нарративной прозы из 500 романов XIX века.
Ещё одна важная задача — работа над репозиторием открытых данных, литературы и фольклора. Сегодня профессиональный долг исследователя — опубликовать после исследования данные по современным стандартам. Лаборатория помогает это сделать: данные необходимо не только переработать и донести до публики, но и сделать доступными для количественных исследований. Например, в случае с датасетом о бытовании литературных текстов в ГУЛАГе было около восьми раундов правок с авторами, потому что таблица создавалась филологами как «человекочитаемые» данные, а не как машиночитаемые.
На базе этих корпусов и данных проводятся исследования. Одно из них — про репрезентацию телесности и гендерные аспекты в детских текстах. Выяснилось, например, что у мальчиков писатели очень сильно актуализируют затылки, а у девочек — щеки. Это как бы такие отдельно «женские» и «мужские» части тела в текстах детского корпуса. Другое исследование, которое проводил Кирилл, было посвящено контекстному употреблению слова «счастье» в ДетКорпусе.
О том, каким «счастье» в детских книгах было в сталинском СССР и как изменилось к концу хрущевского периода, что такое digital commons, с какими сложностями столкнулись создатели датасета с данными ГУЛАГа и почему сегодня он актуален как никогда — в полном тексте интервью.
Время чтения: 28 минут.
Системный Блокъ
«Открытые данные против мракобесия и пренебрежения реальностью»: интервью с Кириллом Маслинским - Системный Блокъ
Кирилл Маслинский — цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора в Пушкинском Доме, создатель Детского корпуса и Репозитория открытых данных по русской литературе и фольклору. «Системный Блокъ» узнал у Кирилла, что…
❤5👍2👏2
Antibarbari HSE
📆 17 мая в 18:10 (мск) в Греко-латинском клубе Antibarbari состоится встреча со Светланой Яцык, к.и.н., научным сотрудником Лаборатории медиевистических исследований НИУ «ВШЭ», участницей проекта Distinguo. Тема встречи: Распознавание рукописного текста…
Это уже сегодня - семинар со Светланой Яцык "Распознавание рукописного текста (HTR): история, перспективы, текущие проекты"
👍1
Forwarded from Кот Шрёдингера (Андрей Константинов)
Помните, я рассказывал про свой любимый атлас geacron, который показывает границы стран в любой год за последние пять тысяч лет? Увидел еще один подобный инструмент для сопоставления разных исторических событий, очень интересный, - worldpopulationhistory. Тут под картой сразу несколько таймлайнов с главными событиями из истории развития общества, сельского хозяйства, медицины, науки, технологий, – одним словом, не с войнами, сменой вождей и прочей политической круговертью, а с инновациями, реально менявшими мир. Правда, только с первого года нашей эры. Вместо границ стран - места, где на самом деле жили люди (основная тема карты - как менялось население мира).
А не попадался ли кому-нибудь инструмент для создания и сравнения таймлайнов? Давно хочу этим заняться.
А не попадался ли кому-нибудь инструмент для создания и сравнения таймлайнов? Давно хочу этим заняться.
🔥4
Forwarded from Antibarbari HSE (Olga Alieva)
Публикуем запись вчерашнего выступления Светланы Яцык об автоматическом распознавании рукописного текста. Презентация доступна по ссылке выше.
Также вчера Светлана Александровна упомянула о том, что ей нужны волонтеры (возможно студенты) в проект по распознаванию русского рукописного текста. Это хорошая возможность освоить eScriptorium под руководством опытного наставника; пишите @gratis_dictum, если готовы за это взяться. Для студентов ВШЭ возможно получение кредитов за проектную деятельность.
Также вчера Светлана Александровна упомянула о том, что ей нужны волонтеры (возможно студенты) в проект по распознаванию русского рукописного текста. Это хорошая возможность освоить eScriptorium под руководством опытного наставника; пишите @gratis_dictum, если готовы за это взяться. Для студентов ВШЭ возможно получение кредитов за проектную деятельность.
VK
Antibarbari HSE. Запись со стены.
Светлана Яцык: Распознавание рукописного текста (HTR): история, перспективы, текущие проекты
Смотрите полностью ВКонтакте.
Смотрите полностью ВКонтакте.
👍5
Борис Орехов: Текст и знание в гуманитарных науках в эпоху больших языковых моделей
Выкладываем запись выступления Бориса Орехова 16 мая в УрФУ на научном семинаре, посвященном проблемам и возможностям применения нейросетей в гуманитарных исследованиях.
Отчуждаемо ли знание от текста? Можно ли считать, что критика “составителей речей” у Платона распространяется на ChatGPT? Где проще имитировать знание -- в гуманитарных науках или в естественных? Как выдает себя машина при написании курсовой по истории?
Огромное спасибо О. В. Алиевой за помощь с видео.
https://youtu.be/SVI9nSmrQWk
Выкладываем запись выступления Бориса Орехова 16 мая в УрФУ на научном семинаре, посвященном проблемам и возможностям применения нейросетей в гуманитарных исследованиях.
Отчуждаемо ли знание от текста? Можно ли считать, что критика “составителей речей” у Платона распространяется на ChatGPT? Где проще имитировать знание -- в гуманитарных науках или в естественных? Как выдает себя машина при написании курсовой по истории?
Огромное спасибо О. В. Алиевой за помощь с видео.
https://youtu.be/SVI9nSmrQWk
YouTube
Борис Орехов: Текст и знание в гуманитарных науках в эпоху больших языковых моделей
Запись доклада Бориса Орехова "Текст и знание в гуманитарных науках в эпоху больших языковых моделей". Выступление 16 мая в УрФУ на научном семинаре, посвященном проблемам и возможностям применения нейросетей в гуманитарных исследованиях.
Отчуждаемо ли…
Отчуждаемо ли…
👍14❤5🔥1
Forwarded from ololo community
Мы начинаем прием заявок на участие в онлайн-программе самообразования Supporting the Creative Economy для профессионалов, работающих в культурных и креативных индустриях и заинтересованных в разработке политик в данном направлении.
На протяжении четырех недель вы будете погружаться в мир креативной экономики, узнавая о ее экономической, технологической и социальной значимости, а также о том, какие возможности она предоставляет творческим предпринимателям.
Программа не только позволит вам расширить свои знания и навыки, но и даст возможность внести существенный вклад в разработку политик, способствующих развитию культурных и креативных индустрий Центральной Азии.
Программа создана British Council и Cultural Associates Oxford в партнерстве с ololo. Ознакомиться с программой и подать заявку можно по ссылкам ниже 🔻
#SupportingtheCreativeEconomy #oxford #britishcouncil #ololo #kzbritish
На протяжении четырех недель вы будете погружаться в мир креативной экономики, узнавая о ее экономической, технологической и социальной значимости, а также о том, какие возможности она предоставляет творческим предпринимателям.
Программа не только позволит вам расширить свои знания и навыки, но и даст возможность внести существенный вклад в разработку политик, способствующих развитию культурных и креативных индустрий Центральной Азии.
Программа создана British Council и Cultural Associates Oxford в партнерстве с ololo. Ознакомиться с программой и подать заявку можно по ссылкам ниже 🔻
#SupportingtheCreativeEconomy #oxford #britishcouncil #ololo #kzbritish
❤1
Forwarded from Системный Блокъ
Как провести стилометрический эксперимент с помощью stylo? Исследуем сценарии «Черного зеркала»
Хотите научиться устанавливать авторство текстов и следить за изменениями в стилистике сценариев к любимым сериалам? Читайте гайд, как самому провести стилометрический эксперимент — с помощью stylo, библиотеки языка R и самого популярного инструмента для стилометрии.
Кратко: о чем статья?
Стилометрия — это количественное исследование стилистики, обычно включающее частотный анализ письменного текста. «Системный Блокъ» рассказывал о ней здесь и делал подборку материалов о стилометрических исследованиях. На практике её можно применять во многих областях: от судебной лингвистики и до установки авторства пьес Мольера.
Самый распространенный инструмент для стилометрических исследований — stylo, библиотека языка программирования R (но не пугайтесь заранее: программировать особо не придётся — у stylo вполне понятный интерфейс). Для работы с ним потребуется установить интерпретатор (программу, которая «переводит» код на языке программирования в команды, понятные машине) языка R и среду для написания кода, которая называется RStudio.
Следуя инструкции работы со stylo, мы исследовали сериал-антиутопию «Черное зеркало», взяв в открытом доступе расшифровки всех эпизодов на английском языке. Эксперимент показал, что первые два сезона для британского телеканала стилистически отличаются от последующих трёх — созданных для Нетфликса. Хотя сценарии для них написал один и тот же человек — создатель сериала, Чарли Брукер.
Чтобы узнать, какая серия «Черного зеркала» стилистически выбивается из общего ряда, получить более подробную инструкцию по работе со stylo на Windows, Mac и Linux и проводить собственные эксперименты — читайте полный текст статьи.
Время чтения: 16 минут.
Хотите научиться устанавливать авторство текстов и следить за изменениями в стилистике сценариев к любимым сериалам? Читайте гайд, как самому провести стилометрический эксперимент — с помощью stylo, библиотеки языка R и самого популярного инструмента для стилометрии.
Кратко: о чем статья?
Стилометрия — это количественное исследование стилистики, обычно включающее частотный анализ письменного текста. «Системный Блокъ» рассказывал о ней здесь и делал подборку материалов о стилометрических исследованиях. На практике её можно применять во многих областях: от судебной лингвистики и до установки авторства пьес Мольера.
Самый распространенный инструмент для стилометрических исследований — stylo, библиотека языка программирования R (но не пугайтесь заранее: программировать особо не придётся — у stylo вполне понятный интерфейс). Для работы с ним потребуется установить интерпретатор (программу, которая «переводит» код на языке программирования в команды, понятные машине) языка R и среду для написания кода, которая называется RStudio.
Следуя инструкции работы со stylo, мы исследовали сериал-антиутопию «Черное зеркало», взяв в открытом доступе расшифровки всех эпизодов на английском языке. Эксперимент показал, что первые два сезона для британского телеканала стилистически отличаются от последующих трёх — созданных для Нетфликса. Хотя сценарии для них написал один и тот же человек — создатель сериала, Чарли Брукер.
Чтобы узнать, какая серия «Черного зеркала» стилистически выбивается из общего ряда, получить более подробную инструкцию по работе со stylo на Windows, Mac и Linux и проводить собственные эксперименты — читайте полный текст статьи.
Время чтения: 16 минут.
Системный Блокъ
Гайд по проведению стилометрического анализа с помощью Stylo на языке R
Системный Блокъ уже рассказывал о том, что такое стилометрия, и о многих стилометрических исследованиях. Читайте подробный гайд, как самому провести такой эксперимент — с помощью stylo, библиотеки языка R и самого популярного инструмента для стилометрии.
❤3
Forwarded from Марафон Homo Digitus 2023
🌐Лекция «Гуманитарий в эпоху датаизма: как осмыслить данные вокруг нас?»
👤Приглашаем на заключительную лекцию марафона!
Докладчик: Андрей Володин, к. и. н., доцент кафедры исторической информатики исторического факультета МГУ им. М. В. Ломоносова, DHRI СФУ
Данные окружают нас, данные повсюду. Датафикация – процесс устойчивого фиксирования массовых наблюдений в разных форматах данных, позволяющий осуществить их качественную и количественную обработку, их научный анализ и синтез. А датаизм — это точка зрения, что Вселенная состоит из потоков данных, когда ценность всякого явления определяется вкладом в обработку данных. Как быть гуманитарием в этом новом мире, как осмыслить собственный «улов» данных и зачем вносить существенный вклад в обработку данных в эпоху повсеместного машинного обучения?
🕰 Мастер-класс начнется 25 мая в 17:00 (мск.)
👉🏻 Регистрация: perm.hse.ru/marathon/2023
👤Приглашаем на заключительную лекцию марафона!
Докладчик: Андрей Володин, к. и. н., доцент кафедры исторической информатики исторического факультета МГУ им. М. В. Ломоносова, DHRI СФУ
Данные окружают нас, данные повсюду. Датафикация – процесс устойчивого фиксирования массовых наблюдений в разных форматах данных, позволяющий осуществить их качественную и количественную обработку, их научный анализ и синтез. А датаизм — это точка зрения, что Вселенная состоит из потоков данных, когда ценность всякого явления определяется вкладом в обработку данных. Как быть гуманитарием в этом новом мире, как осмыслить собственный «улов» данных и зачем вносить существенный вклад в обработку данных в эпоху повсеместного машинного обучения?
🕰 Мастер-класс начнется 25 мая в 17:00 (мск.)
👉🏻 Регистрация: perm.hse.ru/marathon/2023
👍6🔥2
Дорогие коллеги, если вы разрабатываете и ведете образовательные программы по Digital Humanities, цифровой истории, компьютерной лингвистике и смежным направлениям, расскажите об этой программе на сайте DH Course Registry https://dhcr.clarin-dariah.eu/.
На этой платформе собраны разные форматы - магистратуры, бакалавриаты, летние школы, отдельные курсы со всего мира. И пока тут практически нет программ из Центральной Азии и России.
Это отличная возможность, чтобы о вашей программе узнали потенциальные абитуриенты и международное сообщество.
Обращайтесь с любыми вопросами по платформе к Динаре Гагариной (@dinaraamirovna). Если вы хотите добавить свой курс, тоже напишите Динаре.
На этой платформе собраны разные форматы - магистратуры, бакалавриаты, летние школы, отдельные курсы со всего мира. И пока тут практически нет программ из Центральной Азии и России.
Это отличная возможность, чтобы о вашей программе узнали потенциальные абитуриенты и международное сообщество.
Обращайтесь с любыми вопросами по платформе к Динаре Гагариной (@dinaraamirovna). Если вы хотите добавить свой курс, тоже напишите Динаре.
❤8
Forwarded from DHRussia Новости
31 мая 2023 года в 15:00 (msk) / 19:00 (krsk) состоится очередное заседание научно-методического семинара «Цифровая среда» Института цифровых гуманитарных исследований (DHRI) Сибирского федерального университета. На семинаре выступит Роман Борисович Кончаков (РАНХиГС) с докладом «Проблемы описания и публикации данных исторической статистики онлайн».
Регистрация и аннотация доклада по адресу: https://dhri.timepad.ru/event/2444752/
Регистрация и аннотация доклада по адресу: https://dhri.timepad.ru/event/2444752/
dhri.timepad.ru
«Проблемы описания и публикации данных исторической статистики онлайн». Доклад Р.Б.Кончакова на семинаре „Цифровая среда“ DHRI@SFU…
31 мая 2023 года в 15:00 (msk) / 19:00 (krsk) состоится очередное заседание научно-методического семинара «Цифровая среда» Института цифровых гуманитарных исследований (DHRI) Сибирского федерального университета. На семинаре выступит Роман Борисович Кончаков…
❤2👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Небольшая видео-презентация пленарного доклада Динары Гагариной "Digital Humanities в Центральной Азии: точки роста" на конференции Ташкентского университета прикладных наук.
Будем рады совместным проектам и мероприятиям по развитию цифровых гуманитарных исследований в Центральной Азии!
Будем рады совместным проектам и мероприятиям по развитию цифровых гуманитарных исследований в Центральной Азии!
❤6🔥3👍1
Модули Python для решения задач Digital Humanities
Завели на нашем сайте раздел, где будем собирать полезные инструменты, разработанные сообществом DH CLOUD и студентами магистратур по Digital Humanities. Начнем с трех модулей для Python, дальше коллекция будет пополняться.
https://dhcloud.org/python/
Завели на нашем сайте раздел, где будем собирать полезные инструменты, разработанные сообществом DH CLOUD и студентами магистратур по Digital Humanities. Начнем с трех модулей для Python, дальше коллекция будет пополняться.
https://dhcloud.org/python/
dhcloud.org
Модули Python для решения задач Digital Humanities
В этом разделе будем собирать полезные инструменты, разработанные сообществом DH CLOUD и студентами магистратур по Digital Humanities. Начнем с трех
❤15👍4🔥3
Румыния становится важным центром DH образования. Туда переехал из Лейпцига летний европейский университет «Сulture and technology» А в конце июня пройдет школа по корпусной лингвистике и digital humanities. (❗️взнос всего 50 евро) https://dilarass.uvt.ro/
❤6👍6
Борис Орехов опубликовал препринт с результатами эксперимента, в котором участвовало под сотню студентов-филологов. Задача была в том, чтобы понять, могут ли респонденты угадать стиль автора, на котором обучалась lstm-модель. Проверялись короткие отрывки в 4 строки, сгенерированные нейросетями, натренированными на текстах Некрасова, Мандельштама и раннего Пастернака. Во всех случаях большинство ответов оказались верными. Важным для результатов оказалось и то, знают ли респонденты стихи поэта наизусть.
❤17🔥2
Прикладной анализ данных в социальных науках
Академия Яндекса совместно с Европейским университетом в Санкт-Петербурге разработала новый хендбук (онлайн-учебник) «Прикладной анализ данных в социальных науках». Хендбук составлен так, чтобы любой человек без навыков в области анализа данных или программирования мог за короткий срок понять общую логику и техническую сторону процесса, провести самостоятельное исследование и научиться программировать на Python. Учебник бесплатный.
Академия Яндекса совместно с Европейским университетом в Санкт-Петербурге разработала новый хендбук (онлайн-учебник) «Прикладной анализ данных в социальных науках». Хендбук составлен так, чтобы любой человек без навыков в области анализа данных или программирования мог за короткий срок понять общую логику и техническую сторону процесса, провести самостоятельное исследование и научиться программировать на Python. Учебник бесплатный.
education.yandex.ru
Прикладной анализ данных в социальных науках — Хендбук от Яндекс Образования
Учебник составлен так, чтобы любой человек без навыков в области анализа данных или программирования, мог за короткий срок понять общую логику и техническую сторону процесса, провести самостоятельное исследование и научиться программировать на Python.
🔥16👍3
Forwarded from Цифровой филолог (Даня Скоринкин)
Stylo beats GPT: большие языковые модели не могут (пока) обмануть стилометрию
Этим вечером в Сиене закончилась главная итальянская DH-конференция AIUCD. Среди прочих докладов нас заинтересовал эксперимент по тестированию Delta на текстах, сгенерированных GPT3 и (чуть-чуть) ChatGPT.
🧪Чтобы проделать тест, исследователи нагенерировали в GPT3 текстов “в стиле” десяти английских авторов. Через API GPT3 они закидывали запросы вида “Напиши главу романа в стиле автора А”, “Напиши роман, имитирующий автора Б”, “Напиши рассказ так, как будто он написан автором В” и т.п. — всего 320 комбинаций. Так постепенно нагенерировали “текстоиды” (термин самих исследователей) длиной не менее 5000 слов. Эти текстоиды затем сравнивались с реальными текстами тех же авторов.
😔Результат пока что в пользу стилометрии: тексты GPT3 “в стиле” разных авторов похожи не на этих авторов , а друг на друга (см. картинку). Для ChatGPT, к которому у авторов статьи еще не было API, сделали эксперимент с одним автором (Диккенс), и там стайло тоже обмануть не удалось.
🤔 Причиной "неудач” языковых моделей в имитации авторского сигнала становится хроническое недоиспользование некоторых частотных слов. Например они редко используют отрицательные частицы (прям как некоторые из нас, не умеющие говорить “нет”), а еще модальные глаголы типа might.
🔗Ссылка на сборник AIUCD 2023 и нужную страницу со статьей про Delta vs GPT:
https://www.aiucd.it/wp-content/uploads/2023/06/2023_aiucd_la_memoria_digitale_v1.pdf#page=305
Этим вечером в Сиене закончилась главная итальянская DH-конференция AIUCD. Среди прочих докладов нас заинтересовал эксперимент по тестированию Delta на текстах, сгенерированных GPT3 и (чуть-чуть) ChatGPT.
🧪Чтобы проделать тест, исследователи нагенерировали в GPT3 текстов “в стиле” десяти английских авторов. Через API GPT3 они закидывали запросы вида “Напиши главу романа в стиле автора А”, “Напиши роман, имитирующий автора Б”, “Напиши рассказ так, как будто он написан автором В” и т.п. — всего 320 комбинаций. Так постепенно нагенерировали “текстоиды” (термин самих исследователей) длиной не менее 5000 слов. Эти текстоиды затем сравнивались с реальными текстами тех же авторов.
😔Результат пока что в пользу стилометрии: тексты GPT3 “в стиле” разных авторов похожи не на этих авторов , а друг на друга (см. картинку). Для ChatGPT, к которому у авторов статьи еще не было API, сделали эксперимент с одним автором (Диккенс), и там стайло тоже обмануть не удалось.
🤔 Причиной "неудач” языковых моделей в имитации авторского сигнала становится хроническое недоиспользование некоторых частотных слов. Например они редко используют отрицательные частицы (прям как некоторые из нас, не умеющие говорить “нет”), а еще модальные глаголы типа might.
🔗Ссылка на сборник AIUCD 2023 и нужную страницу со статьей про Delta vs GPT:
https://www.aiucd.it/wp-content/uploads/2023/06/2023_aiucd_la_memoria_digitale_v1.pdf#page=305
🔥8👍1