DH CLOUD
683 subscribers
76 photos
4 videos
5 files
225 links
Делаем то, что считаем нужным, не теряя того, что считаем ценным
Download Telegram
В рамках дискуссии «Гражданская наука: возможность или утопия?», состоявшейся 18 октября 2024 г. в Институте философии РАН, Борис Орехов выступил с докладом «Волонтеры и цифровые гуманитарные науки». В докладе спикер разграничил волонтерство и собственно факты добровольческой науки. Отмечалось, что основная роль этого участия в научном процессе состоит в накоплении данных. Были приведены примеры волонтерства и добровольческой активности в цифровых гуманитарных инициативах, в частности, проект «Пишу тебе» и сбор геоданных для художественных текстов. Был поставлен акцент на необходимости сохранения полученных данных в надежных долговременных хранилищах типа репозитория открытых данных.

Видео дискуссии: https://vk.com/video-73429097_456240662 (доклад Бориса Орехова на 3:05:29)
Очень важная публикация для всех, кто занимается цифровизацией культурного наследия и цифровыми музеями
⚡️Новое издание: «Концептуальная эталонная модель CIDOC CRM»

На русском языке вышла важная книга про универсальную модель данных. «Концептуальную эталонную модель CIDOC CRM» опубликовал Институт научной информации по общественным наукам РАН, а ответственным за перевод и редакцию русского издания стал Государственный Эрмитаж. Издание было представлено 25 сентября в Пловдиве (Болгария) на 59 встрече рабочей группы CIDOC CRM.

В основу русского перевода концептуальной эталонной модели (CIDOC CRM) положена версия 7.1.

«Перевод стандарта с английского на русский язык был выполнен не только самым первым, но и опубликован в виде отдельного издания. В гуманитарной области к стандартам не привыкли: их игнорируют, но этот стандарт – действующий и обновляемый, его не получится оставить без внимания. Он находится в открытом доступе. Парсинг позволил дать все соответствия в электронной версии модели на официальном сайте CIDOC CRM», – рассказала представитель рабочей группы разработчиков и переводчиков стандарта, кандидат филологических наук и старший научный сотрудник отдела археологии Восточной Европы и Сибири Государственного Эрмитажа Дарья Гук.

Ознакомиться с русскоязычной версией издания можно на официальном сайте CIDOC CRM и на Academia.edu.

Что такое CIDOC CRM?
CIDOC CRM (CIDOC Conceptual Reference Model, Концептуальная эталонная модель CIDOC) разработана рабочей группой по стандартизации документации комитета CIDOC (Международного комитета документации, International Committee for Documentation) и специализированной рабочей группой по разработке CIDOC CRM.

Модель CIDOC CRM может рассматриваться как средство для объединения разнородной информации по культурному наследию, публикуемой музеями, архивами и библиотеками. С 2006 года спецификация CIDOC CRM получила статус международного стандарта ISO 21127, используемого для проектирования электронных ресурсов и разработки алгоритмов ИИ.


Фото издания предоставлено Дарьей Гук

#данные #стандарты #издания #чтопочитать #музеи #библиотеки #архивы
Please open Telegram to view this post
VIEW IN TELEGRAM
💻 Опубликован датасет с изображениями и текстами, изданными на русском языке в дореформенной орфографии. Данные пригодятся для разработки и оценки систем оптического распознавания символов (OCR). Тексты, представленные в датасете, были вручную проверены экспертами

https://www.doi.org/10.57967/hf/3280
https://huggingface.co/datasets/nevmenandr/russian-old-orthography-ocr

✏️ Для цитирования:

@misc {boris_orekhov_2024,
author = { {Boris Orekhov} },
title = { russian-old-orthography-ocr (Revision 6f60636) },
year = 2024,
url = { https://huggingface.co/datasets/nevmenandr/russian-old-orthography-ocr },
doi = { 10.57967/hf/3280 },
publisher = { Hugging Face }
}
Please open Telegram to view this post
VIEW IN TELEGRAM
Не можем пройти мимо объявления о вакансиях лучшего медиа про цифровую культуру. Системный Блокъ - это полностью волонтерское издание, и это особенно восхищает
«Системный Блокъ» объявляет осенний набор участников!

«Системный Блокъ» расширяется и приглашает новых авторов, редакторов, менеджеров, дата-аналитиков. Мы — волонтерское издание. Нас объединяет интерес к науке и технологиям, а также желание вдохновлять людей интересными материалами, исследованиями, новостями, тестами и т. п. Среди нас есть филологи, программисты, менеджеры, историки, журналисты и аналитики — люди из совершенно разных сфер.

Ниже вы найдете набор ролей, которые могут быть интересны вам или вашим друзьям. Если что-то из этого вам близко, добро пожаловать к нам! Если вы хотите присоединиться, но идеальной роли нет, то все равно оставляйте заявку!

В посте — неполный перечень ролей, которые сейчас открыты, а в статье  — подробное описание задач и пожеланий к участникам.

1. Авторы в рубрики — ищем желающих писать для рубрик «Филология», «Общество», «Образование», «Биоинформатика», «Как это работает», «Тесты».
2. Кураторы рубрик «Археология», NLP, «Тесты»
3. Редакторы текстов
4. SMM-Lead / Менеджер отдела SMM
5. Выпускающие редакторы для соцсетей (SMM)
6. Продюсер дата-исследований
7. PR-менеджер
8. HR-менеджер
9. Менеджер студенческих практик
10. Продакт-менеджер и программист сайта
11. Дизайнер
12. Ивент-менеджер
13. Продакт/проджект-менеджер на новые проекты
14. Программист в команду «Пишу тебе»

Если вас заинтересовала одна из ролей – приглашаем
заполнить форму до 4 ноября. Проект полностью волонтерский, мы не платим денег. Зато у нас человечный менеджмент, отлаженные процессы и хорошая репутация в русском научпоп-сообществе. Присоединяйтесь!

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Как разработать LLM с нуля на обычном ноутбуке и использовать в качестве личного помощника

Как говорил известный физик Ричард Фейнман, «чего не могу воссоздать, того не понимаю».

В своей новой книге Себастьян Рашка, чьи бестселлеры «Python и машинное обучение» и «Машинное обучение с PyTorch и Scikit-Learn» уже знакомы как начинающим дата-сайентистам, так и опытным специалистам в Machine Learning & Deep Learning, предлагает читателю самостоятельно шаг за шагом создать большую языковую модель (GPT-like). От планирования и написания кода до обучения и тонкой настройки.

Каждый этап в «Создании большой языковой модели» («Build a Large Language Model (From Scratch)» объясняется понятным текстом, диаграммами и примерами.

С открытой частью ресурса можно ознакомиться в GitHub-репозитории.

#Gpt #llm #ai #чтопочитать #ресурсы
Новое заседание «Цифровой среды» – уже на следующей неделе

На этот раз на научном онлайн-семинаре Института цифровых гуманитарных исследований выступят сразу два спикера:

Борис Орехов
кандидат филологических наук, доцент Школы лингвистики НИУ «Высшая школа экономики», старший научный сотрудник Лаборатории цифровых исследований литературы и фольклора Института русской литературы (Пушкинский Дом) РАН, автор телеграм-канала и подкаста об университетах «Лига Айвы».

Даниил Скоринкин
кандидат филологических наук, исследователь и координатор DH-проектов в Университете Потсдама, главный редактор издания о цифровых технологиях в гуманитарных науках «Системный Блокъ».

Оба эксперта уже были гостями семинара по отдельности (вспоминаем выпуск с Борисом Валерьевичем о русском методе в стиховедении в контексте DH и выпуск с Даниилом Андреевичем о «взломе» стилометрии). А теперь нас ждет интересный разговор филологов из разных точек мира об использовании векторных семантических моделей в computational literary studies.

🕓 Встречаемся 27 ноября 2024, 14:00 (Москва) / 18:00 (Красноярск) / 12:00 (Потсдам)

🔜 Зарегистрироваться на семинар можно по ссылке

#цифроваясреда #смотреть #слушать #людиdh
Please open Telegram to view this post
VIEW IN TELEGRAM
Появился новый журнал о Digital Humanities на русском языке. Он называется «Цифровые гуманитарные исследования» и издается в Пушкинском Доме (Свидетельство о регистрации ЭЛ № ФС 77 — 86683 от 22.01.2024). Периодичность — 2 номера в год. Главный редактор — Борис Орехов.

Вышел первый номер, в нем есть три исследовательских статьи: Ольга Алиева пишет о мерах расстояния для определения авторства древнегреческих текстов, и там формулируются некоторые сомнения, которые вообще имеет смысл учитывать при чересчур оптимистичном отношении к стилометрии; Борис Орехов ищет ритмизацию в прозе Чернышевского и находит ее не на том уровне, где обычно действуют стиховеды; Инна Кижнер пишет о цифровых коллекциях культурно-значимых данных и обращает внимание на их системную неполноту и неготовность к тому, чтобы быть материалом для беспристрастного исследования.

Кроме исследовательских, в журнале уже публикуются и будут публиковаться важные для связности научного поля тексты: хроника, дискуссии, описания проектов, рецензии. В первом номере такие материалы уже есть. Во-первых, это чрезвычайно важная для осмысления текущего момента статья Бориса Орехова и Андрея Володина статья Digital Humanities в России и конец истории, в которой содержится и полемический ответ на текст Даниила Скоринкина с его видением состояния поля, и краткий исторический очерк цифрового литературоведения и цифровой истории в России. Во-вторых, это хроникальный текст Динары Гагариной о круглом столе Digital Humanities в Центральной Азии. В-третьих, это рецензия Дарьи Артемьевой на книгу Джули Томпсон Кляйн «Междисциплинарные цифровые гуманитарные науки: работа с границами в развивающейся сфере; рецензия содержит подробный пересказ источника, который позволяет составить подробное представление о книге.

Приглашаем всех и читать вышедшие материалы, и предлагать для публикации свои.
Борис Орехов опубликовал новый датасет, в его основе геоданные, они отражают маршрут персонажа поэмы И. П. Мятлева «Сенсации и замечания госпожи Курдюковой за границею, дан л'этранже» (1840). Это очень любопытный текст, во многом построенный на перемещении в пространстве. В датасете это перемещение представлено в машиночитаемом виде, что согласуется с тенденцией пространственного поворота в гуманитарных науках. Ссылка на запрос, который позволяет получить подкорпус с поэмой в НКРЯ: https://ruscorpora.ru/s/eZjxR

Для цитирования: Орехов, Борис, 2024, "Маршрут путешествия в поэме И. П. Мятлева «Сенсации и замечания госпожи Курдюковой за границею, дан л'этранже»", https://doi.org/10.31860/openlit-2023.4-G003, Репозиторий открытых данных по русской литературе и фольклору, V1

Карта на основе данных: https://www.datawrapper.de/_/vKbBp/

Картинка для привлечения внимания — фото издания Мятлева с полки в Музее-квартире А. Блока в Петербурге.
Завершился первый сезон подкаста «Лига Айвы» Бориса Орехова про эстетику и атмосферу университетского пространства.

В гостях у Бориса Валерьевича побывало несколько заметных исследователей из числа работающих с цифрой гуманитариев. Предлагаем послушать выпуски, в которых приняли участие #людиDH, – авторы самых ярких блогов, статей, докладов о Digital Humanities, постоянные и будущие герои постов «Гуманитариев в цифре».

🔜Даниил Скоринкин
🔜Андрей Володин
🔜Елена Корчмина
🔜Анастасия Белоусова
🔜Полина Колозариди
🔜Антонина Пучковская

Ждем новых эпизодов «Лиги Айвы» в 2025 году 🙂
Please open Telegram to view this post
VIEW IN TELEGRAM
Вышел новый сезон в проекте Слово Толстого: Хроника жизни писателя: календарь, таймлайн и жизнь в картинках. Новое в этом сезоне - это тексты и их репрезентация. В проект добавлены тексты писем и дневников современников Толстого, прежде всего его жены Софьи Андреевны, его врача Душана Маковицкого, друга пианиста Александра Гольденвейзера и секретаря Николая Гусева. Даты всех документов синхронизированы с собственными дневниками и письмами Толстого и представлены в виде календаря, по которому очень удобно навигировать. Таймлайн - это ключевые события жизни и творчества Толстого, дополненные фотографиями и аудиокомменатриями исследователй.
Media is too big
VIEW IN TELEGRAM
«Мне кажется, это очень человеческий проект. Я просто зависала в этих текстах. Я пошла посмотреть, как оформляются сноски Гольденвейзера, как их перевести в формат цифровой разметки, и очнулась через два часа — просто дочитывая текст»

Живой разговор с Анастасией Бонч-Осмоловской, куратором лингвистической части «Слова Толстого», о том, как возникла идея проекта и почему он так интересен цифровым гуманитариям.
Дедлайн подачи заявок на главную DH конференцию продлен до 8 декабря. Digital Humanities 2025 пройдет в Португалии 18-18 июля.

https://dh2025.adho.org/call-for-proposals/
Круглый стол по созданию баз данных в социальных и гуманитарных науках

16 декабря прикладной центр машинного обучения, анализа данных и статистики совместно с образовательной программой  «Прикладной анализ данных» Европейского университета в Санкт-Петербурге приглашает всех желающих принять участие в круглом столе по созданию баз данных.

Исследователи и IT-специалисты представят доклады о разрабатываемых и уже существующих решениях для сбора и хранения данных.

🔜 Мероприятие состоится очно и онлайн в 13:00 (мск). Для участия в любом из этих форматов необходима предварительная регистрация.

🔜 Подробная информация
Please open Telegram to view this post
VIEW IN TELEGRAM
🤍Альянс цифровых гуманитарных проектов

К концу календарного года рассказываем о нашем новом долгосрочном деле — Альянсе цифровых гуманитарных проектов. Это инициатива с заделом на будущий год, да и вообще — на будущее.

Альянс — объединение специалистов, которые делают цифровые гуманитарные проекты.

Вместе мы будем:
> разрабатывать стандарты в индустрии;
> поддерживать существующие проекты;
> заниматься внедрением цифровых решений в институции.

🤍17 декабря с 14 до 19 часов в DH-центре ИТМО и в онлайне пройдёт первая встреча организаторов и участников Альянса.

В программе — доклады Анастасии Бонч-Осмоловской, Андрея Володина и Полины Колозариди — о ключевых вызовах и проблемах цифровых гуманитарных проектов, а потом — обсуждение конкретных задач, проблем и инициатив. Расписанием мы поделимся в ближайшее время, а пока сохраняйте дату себе в календарь.

В этот день мы будем рады гостям. Если вы хотите прийти послушать, а может быть, познакомиться или даже присоединиться со своим проектом к Альянсу, заполните форму по ссылке.

До встречи 🤍
Please open Telegram to view this post
VIEW IN TELEGRAM
Уже завтра!!!
🤍 Программа первой встречи Альянса цифровых гуманитарных проектов

Уже завтра, 17 декабря, в 14:00 по мск/спб мы встречаемся в DH-центре и онлайне на учредительном съезде Альянса. Подробности об этом новом проекте читайте в этом посте, а тут — делимся расписанием.

14:00–15:00
Открытие и доклады

> Устойчивость, внедрение, изменение: проблемы долгосрочного существования цифровых гуманитарных проектов и как его обеспечить (Полина Колозариди, ИТМО)
> Потребности, возможности и целесообразность единых подходов и стандартизации к инфраструктуре для реализации DH-проектов (Павел Лушников, РГБ)
> Incepta humaniores sub specie aeternitatis (Андрей Володин, МГУ)
> Осознаём ли мы все вызовы? (Анастасия Бонч-Осмоловская, ИРЯ РАН, CultTech)

15:10–16:20
Дискуссия

Обсудим ключевые вопросы о развитии цифровых гуманитарных проектов:
— нужно ли делать проекты с заделом на внедрение или внедрение — это отдельная работа?
— на какие технологические решения нам ориентироваться?
— какие из организаций могут обеспечить долгосрочное развитие: университеты/IT/культурные институции/архивы и госструктуры?
— какое место занимает новый Альянс среди других существующих подобных организаций, чем мы отличаемся от других?
— какие стандарты нужны для формирования устойчивости?

Если вы ещё не зарегистрировались в качестве слушателя, но планируете присоединиться, — до 20:00 сегодня заполните форму по ссылке.

🤍До встречи!
Please open Telegram to view this post
VIEW IN TELEGRAM
Уже завтра состоится открытие Конференции, посвященной 20-летию Национального корпуса русского языка!

В течение двух дней участники мероприятия обсудят широкий круг вопросов – от корпусных методов лингвистических исследований и достоверности корпусных данных до вопросов создания корпусов и разработки пользовательского интерфейса, от применения нейросетевых моделей в подготовке корпусных данных до использования НКРЯ в преподавании гуманитарных дисциплин в университете и в школе.

Мероприятия пройдут очно в Инстиуте русского языка РАН по адресу: ул. Волхонка, 18/2.

Программу конференции можно найти на сайте института.

Предусмотрена онлайн-трансляция пленарных докладов по ссылке.