Forwarded from Antibarbari HSE (Olga Alieva)
📆 17 мая в 18:10 (мск) в Греко-латинском клубе Antibarbari состоится встреча со Светланой Яцык, к.и.н., научным сотрудником Лаборатории медиевистических исследований НИУ «ВШЭ», участницей проекта Distinguo.
Тема встречи: Распознавание рукописного текста (HTR): история, перспективы, текущие проекты
За последние несколько лет развитие технологий распознавания рукописного текста (HTR) сделало автоматизированную транскрипцию древних документов доступной для широкого круга ученых. Существующее программное обеспечение позволяет безболезненно развертывать конвейеры HTR, а данные для обучения моделей (ground truth) становятся все более доступными, что дает ученым возможность быстро получать транскрипции в объемах, которые ранее потребовали бы годы интенсивной работы.
На этом заседании клуба мы обсудим существующие методы автоматической транскрипции, познакомимся с готовыми инструментами (Tesseract, Transkribus, kraken / eScriptorium) и проектами, которые их применяют.
В частности, на примере платформы eScriptorium мы разберем, как
- готовить данные для тренировки;
- обучать модели и делать их тонкую настройку (fine-tuning);
- оценивать качество транскрипции;
- использовать «грязную» неотредактированную транскрипцию для решения дальнейших исследовательских задач. #antibarbari_colloquia
Встреча пройдет на платформе Zoom. Ссылка для подключения.
Тема встречи: Распознавание рукописного текста (HTR): история, перспективы, текущие проекты
За последние несколько лет развитие технологий распознавания рукописного текста (HTR) сделало автоматизированную транскрипцию древних документов доступной для широкого круга ученых. Существующее программное обеспечение позволяет безболезненно развертывать конвейеры HTR, а данные для обучения моделей (ground truth) становятся все более доступными, что дает ученым возможность быстро получать транскрипции в объемах, которые ранее потребовали бы годы интенсивной работы.
На этом заседании клуба мы обсудим существующие методы автоматической транскрипции, познакомимся с готовыми инструментами (Tesseract, Transkribus, kraken / eScriptorium) и проектами, которые их применяют.
В частности, на примере платформы eScriptorium мы разберем, как
- готовить данные для тренировки;
- обучать модели и делать их тонкую настройку (fine-tuning);
- оценивать качество транскрипции;
- использовать «грязную» неотредактированную транскрипцию для решения дальнейших исследовательских задач. #antibarbari_colloquia
Встреча пройдет на платформе Zoom. Ссылка для подключения.