Forwarded from НКРЯ Национальный корпус русского языка
На сайте Национального корпуса русского языка появился новый раздел, посвящённый нейросетевым моделям, которые используются для разметки слов и текстов Корпуса.
Теперь пользователям доступны:
- токенизатор
- векторные модели для поиска слов-ассоциатов, адаптированные для 7 доменов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов
Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.
Теперь пользователям доступны:
- токенизатор
- векторные модели для поиска слов-ассоциатов, адаптированные для 7 доменов
- модели для словообразовательной разметки
- модели для разметки тематики, жанров, типов текстов
Новый раздел будет полезен всем, кто интересуется обработкой естественного языка и хочет узнать больше о том, какие технологии машинного обучения применяются в НКРЯ. Пользователи могут ознакомиться с описанием моделей и скачать их для собственного использования. Перед скачиванием модели надо ознакомиться с лицензионным соглашением и принять его условия.
вакансия_аналитик_младший.pdf
152.6 KB
Вакансия DH-специалиста в Институте востоковедения РАН
Описание в прикрепленном файле
Описание в прикрепленном файле
Forwarded from Гуманитарии в цифре
Цифровой Чехов: зачем и как именно создается семантическое издание произведений Антона Павловича
Уже в эту среду, 22 мая, приглашаем вас на заседание онлайн-семинара «Цифровая среда» с профессором кафедры лингвистики и профессиональной коммуникации ЮФУ Еленой Севериной.
Chekhov Digital – семантическое издание Полного собрания сочинений и писем А. П. Чехова, которое разрабатывается совместно Южным федеральным университетом и Центром гуманитарных исследований НИУ ВШЭ.
На семинаре Елена Михайловна расскажет о
→ процессе трансформации литературных произведений в структурированные машиночитаемые данные
→ методах и инструментах, которые реализуются в проекте Chekhov Digital
→ перспективах использования семантических данных для исследовательских и образовательных целей и планах по расширению проекта.
В роли дискутанта выступит доцент Школы лингвистики НИУ ВШЭ Анастасия Бонч-Осмоловская.
Ведущий семинара – доцент кафедры исторической информатики МГУ, руководитель стратегического проекта ИЦГИ (DHRI) Андрей Володин.
🟢 Начало: 15:00 (мск) / 19:00 (крск)
❗️Напоминаем о том, что на мероприятие нужно предварительно зарегистрироваться.
🟢 Посмотреть записи предыдущих выпусков «Цифровой среды».
#цифроваясреда #литература #семантика #смотреть #слушать
Уже в эту среду, 22 мая, приглашаем вас на заседание онлайн-семинара «Цифровая среда» с профессором кафедры лингвистики и профессиональной коммуникации ЮФУ Еленой Севериной.
Chekhov Digital – семантическое издание Полного собрания сочинений и писем А. П. Чехова, которое разрабатывается совместно Южным федеральным университетом и Центром гуманитарных исследований НИУ ВШЭ.
На семинаре Елена Михайловна расскажет о
→ процессе трансформации литературных произведений в структурированные машиночитаемые данные
→ методах и инструментах, которые реализуются в проекте Chekhov Digital
→ перспективах использования семантических данных для исследовательских и образовательных целей и планах по расширению проекта.
В роли дискутанта выступит доцент Школы лингвистики НИУ ВШЭ Анастасия Бонч-Осмоловская.
Ведущий семинара – доцент кафедры исторической информатики МГУ, руководитель стратегического проекта ИЦГИ (DHRI) Андрей Володин.
❗️Напоминаем о том, что на мероприятие нужно предварительно зарегистрироваться.
#цифроваясреда #литература #семантика #смотреть #слушать
Please open Telegram to view this post
VIEW IN TELEGRAM
Для тех, кто опоздал к бурным обсуждениям больших языковых моделей в прошлом году, или, наоборот, кто хочет быть в курсе последних новостей в этой сфере.
В конце мая в рамках Костомаровского форума в Институте Пушкина прошел круглый стол с пушкинским названием «Ай да AI. Нейросети и создание текстов: проблемы и перспективы генеративных моделей».
В дискуссии на круглом столе принимали участие доктор физико-математических наук Константин Воронцов, руководитель образовательной программы «Цифровые методы в гуманитарных науках» НИУ ВШЭ и сооснователь DH CLOUD Борис Орехов (о трудностях и решениях этих трудностей при построении такой магистерской программы можно послушать февральский доклад Бориса Орехова на специализированной конференции) и директор по стратегическим коммуникациям Brand Analytics Василий Черный.
Дискуссию можно посмотреть в записи или почитать материал о ней на Грамоте.
Главный лейтмотив дискуссии, к которому много раз обращались участники, в итоге сформировался вокруг того, что теперь можно будет одним нейросетям поручить писать тексты, другим читать их, а мы тем временем сможем «пойти на речку за червячками».
В конце мая в рамках Костомаровского форума в Институте Пушкина прошел круглый стол с пушкинским названием «Ай да AI. Нейросети и создание текстов: проблемы и перспективы генеративных моделей».
В дискуссии на круглом столе принимали участие доктор физико-математических наук Константин Воронцов, руководитель образовательной программы «Цифровые методы в гуманитарных науках» НИУ ВШЭ и сооснователь DH CLOUD Борис Орехов (о трудностях и решениях этих трудностей при построении такой магистерской программы можно послушать февральский доклад Бориса Орехова на специализированной конференции) и директор по стратегическим коммуникациям Brand Analytics Василий Черный.
Дискуссию можно посмотреть в записи или почитать материал о ней на Грамоте.
Главный лейтмотив дискуссии, к которому много раз обращались участники, в итоге сформировался вокруг того, что теперь можно будет одним нейросетям поручить писать тексты, другим читать их, а мы тем временем сможем «пойти на речку за червячками».
Широко известен эффект, который дают операции с векторами слов (о них можно почитать в главе про анализ текста в монографии Цифровые гуманитарные исследования и послушать в лекции Д. А. Рыжовой на курсе Критическое введение в Digital Humanities в НИУ ВШЭ): если вычесть из вектора слова «король» вектор слова «мужчина» и прибавить вектор слова «женщина», то получится вектор, близкий к вектору слова «королева».
Ученые из DH CLOUD выяснили, что этот эффект был предсказан 🔮 в классической русской литературе, а именно — в пьесе Гоголя "Женитьба": "Если бы губы Никанора Ивановича да приставить к носу Ивана Кузьмича, да взять сколько-нибудь развязности, какая у Балтазара Балтазарыча, да, пожалуй, прибавить к этому ещё дородности Ивана Павловича".
Ученые из DH CLOUD выяснили, что этот эффект был предсказан 🔮 в классической русской литературе, а именно — в пьесе Гоголя "Женитьба": "Если бы губы Никанора Ивановича да приставить к носу Ивана Кузьмича, да взять сколько-нибудь развязности, какая у Балтазара Балтазарыча, да, пожалуй, прибавить к этому ещё дородности Ивана Павловича".
Forwarded from RAntiquity (Olga Alieva)
Свои рассуждения о DH в общенаучном контексте предложил руководитель магистерской программы “Цифровые методы в гуманитарных науках”, доцент Школы лингвистики НИУ ВШЭ Борис Орехов.
Одним из неожиданных выводов лекции стала мысль о том, что междисциплинарность невозможна, а самые интересные цифровые исследования посвящены традиционным вопросам гуманитарных дисциплин. Когда же DH пытаются быть "просто" набором цифровых инструментов, это выглядит
Вот такой парадоксальный вывод курса получился. Видео всех лекций вы можете найти на сайте: http://criticaldh.ru/
На следующей неделе планируем еще одно мероприятие, оставайтесь на связи. #criticaldh
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Б.В. Орехов (НИУ ВШЭ). Digital Humanities в общенаучном контексте
Десятая лекция курса "Количественные методы в гуманитарных науках: критическое введение" (2024, НИУ ВШЭ).
Ссылка на слайды: https://nevmenandr.github.io/slides/2024-06-08/slides.pdf
Сайт курса: http://criticaldh.ru/
Ссылка на слайды: https://nevmenandr.github.io/slides/2024-06-08/slides.pdf
Сайт курса: http://criticaldh.ru/
Forwarded from Antibarbari HSE (Olga Alieva)
Поздравляем коллег и очень гордимся сотрудничеством! Спасибо всем, кто поддерживает нас лайками, репостами и лучами добра.
Будем же еще научнее, еще популярнее. Euge!
Please open Telegram to view this post
VIEW IN TELEGRAM
Сергей Кокин: Рассекречивание архивных документов и предоставление доступа к ним: опыт Украины (1991–2024)
Приглашаем на очередной семинар ”Цифровая история (в) Центральной Азии”, где в этот раз будет тема архивных документов и архивных проектов в Украине (в том числе совместных проектов со странами ЦА).
13 июня, 14:15 CEST / 15:15 Киев / 17:15 Ташкент и Алматы / 18:15 Бишкек / Эрлангене и Zoom.
Эксперт: Сергей Кокин, старший научный сотрудник Института истории Украины Академии наук Украины, бывший сотрудник архива Службы безопасности Украины.
Доклад посвящен процессу рассекречивания архивных документов в Украине с 1990-х годов до настоящего времени. Сейчас доступ к рассекреченным оцифрованным материалам предоставляется в читальном зале Архива Службы безопасности Украины в Киеве, ограничения на доступ к ним были сняты в 2014–2015 годах. Также будут рассмотрены созданные в стране базы данных репрессированных и реабилитированных лиц, а также международные проекты, реализуемые в том числе совместно со странами Центральной Азии.
Язык доклада: русский, вопросы могут задаваться на русском, украинском английском, немецком.
Для регистрации и получения ссылки напишите Динаре Гагариной (@dinaraamirovna или dinara.gagarina@fau.de).
Приглашаем на очередной семинар ”Цифровая история (в) Центральной Азии”, где в этот раз будет тема архивных документов и архивных проектов в Украине (в том числе совместных проектов со странами ЦА).
13 июня, 14:15 CEST / 15:15 Киев / 17:15 Ташкент и Алматы / 18:15 Бишкек / Эрлангене и Zoom.
Эксперт: Сергей Кокин, старший научный сотрудник Института истории Украины Академии наук Украины, бывший сотрудник архива Службы безопасности Украины.
Доклад посвящен процессу рассекречивания архивных документов в Украине с 1990-х годов до настоящего времени. Сейчас доступ к рассекреченным оцифрованным материалам предоставляется в читальном зале Архива Службы безопасности Украины в Киеве, ограничения на доступ к ним были сняты в 2014–2015 годах. Также будут рассмотрены созданные в стране базы данных репрессированных и реабилитированных лиц, а также международные проекты, реализуемые в том числе совместно со странами Центральной Азии.
Язык доклада: русский, вопросы могут задаваться на русском, украинском английском, немецком.
Для регистрации и получения ссылки напишите Динаре Гагариной (@dinaraamirovna или dinara.gagarina@fau.de).
Lehrstuhl für Neuere und Neueste Geschichte mit dem Schwerpunkt der Geschichte Osteuropas
Declassification of Archival Documents and Providing Access to Them: The Experience of Ukraine (1991–2024)
Serhii Kokin: Declassification of Archival Documents and Providing Access to Them: The Experience of Ukraine (1991–2024) // Seminar series “Digital History Central Asia”
“ЦИФРОВОЙ ГУМАНИТАРИЙ” – ЗВУЧИТ НЕОБЫЧНО И ПАРАДОКСАЛЬНО?
Магистерская программа “Цифровые методы в гуманитарных науках” НИУ ВШЭ❤️ приглашает на вебинар для поступающих.
Ссылка на вебинар.
В субботу 15 июня в 13.00 (мск.) мы ждем🔘 тех, кто:
📖 … уже является специалистом в гуманитарной области и хочет научиться применять новейшие компьютерные методы в работе с гуманитарным знанием;
👀 … на “ты” с программированием, анализом данных, статистикой и другими цифровыми технологиями – и хочет с их помощью узнавать новое про литературу, историю и культуру;
☕️ … всех, кому интересно как: подружить нейросети с поэзией, создать цифровую копию Помпей, вычислить настоящего автора шекспировских пьес, построить компьютерную модель “Войны и мира”, научить компьютер расшифровывать древние манускрипты – и многое другое!
Руководители и преподаватели расскажут о магистерской программе и ответят на ваши вопросы.
🔗 Наш сайт: https://www.hse.ru/ma/dh
🖥 Наше сообщество: https://dhcloud.org/
🆕 Наши новости: https://tttttt.me/dhcloud https://tttttt.me/rantiquity
💬 Наши люди: Борис Орехов, Ольга Алиева, Анастасия Бонч-Осмоловская и др.
Магистерская программа “Цифровые методы в гуманитарных науках” НИУ ВШЭ
Ссылка на вебинар.
В субботу 15 июня в 13.00 (мск.) мы ждем
Руководители и преподаватели расскажут о магистерской программе и ответят на ваши вопросы.
Please open Telegram to view this post
VIEW IN TELEGRAM
Zoom Video
Join our Cloud HD Video Meeting
Zoom is the leader in modern enterprise video communications, with an easy, reliable cloud platform for video and audio conferencing, chat, and webinars across mobile, desktop, and room systems. Zoom Rooms is the original software-based conference room solution…
Что почитать летом?
В этом году исполняется 5 лет магистерской программе Цифровые методы в гуманитарных науках НИУ ВШЭ❤️ . Не такой маленький срок в нашем быстро живущем мире.
К юбилею мы составили список публикаций и выступлений по DH преподавателей магистратуры 😎, среди которых два сооснователя DH CLOUD.
Список рубрицирован, а внутри каждой тематической рубрики пункты разделены на научные текстовые публикации, видео выступлений (чаще всего тоже научных) и популяризаторские высказывания (чаще всего текстовые). Перечень снабжен ссылками. Он включает материалы с 2013 по 2024 год, так что получился изрядным.
Если вы пропустили что-то из этих текстов и видео, то лето — хороший момент, чтобы наверстать.
В этом году исполняется 5 лет магистерской программе Цифровые методы в гуманитарных науках НИУ ВШЭ
К юбилею мы составили список публикаций и выступлений по DH преподавателей магистратуры 😎, среди которых два сооснователя DH CLOUD.
Список рубрицирован, а внутри каждой тематической рубрики пункты разделены на научные текстовые публикации, видео выступлений (чаще всего тоже научных) и популяризаторские высказывания (чаще всего текстовые). Перечень снабжен ссылками. Он включает материалы с 2013 по 2024 год, так что получился изрядным.
Если вы пропустили что-то из этих текстов и видео, то лето — хороший момент, чтобы наверстать.
Please open Telegram to view this post
VIEW IN TELEGRAM
www.hse.ru
Магистерская программа «Цифровые методы в гуманитарных науках»
У Бориса Орехова на портале Грамота вышло интервью о векторных моделях и способах их применения, в том числе при исследовании культурно значимых текстов.
Это выступление продолжает серию работ Орехова, инкорпорирующую технологию векторизации контекстов в инструментарий цифровых гуманитарных исследований, начатую проектом Векторные романы (2017).
Это выступление продолжает серию работ Орехова, инкорпорирующую технологию векторизации контекстов в инструментарий цифровых гуманитарных исследований, начатую проектом Векторные романы (2017).
gramota.ru
Что такое векторные модели и как можно их использовать
Компьютерный лингвист Борис Орехов умеет превращать значение слова в последовательность чисел
Forwarded from Ебаный DH
Завтра в 18:30 по Берлину / 19:30 по Москве у нас будет онлайн-доклад Агаты Холобут и Яна Рыбицкого (со-автор библиотеки stylo и специалист по стилометрии перевода) про количественный анализ того, как кинематограф меняет, адаптирует и трансформирует диалоги из литературного текста (на примере экранизаций “Гордости и предубеждения”), а также что происходит при их переводе. Регистрация чтоб послушать доклад — по ссылке
Доклад будет на английском языке
Доклад будет на английском языке
Forwarded from Гуманитарии в цифре
27 июня в 11:00 (мск)/ 15:00 (крск) встречаемся с доцентом МГУ, руководителем Института цифровых гуманитарных исследований СФУ Андреем Володиным на лекции «Digital Humanities: эпистемологическое сообщество».
Зарегистрироваться в качестве слушателя еще не поздно: заполните короткую анкету, пройдя по этой ссылке.
Иллюстрация: Kandinsky 3.1, промт Digital Humanities: эпистемологическое сообщество
#Летняяшкола #история #историческаяинформатика
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Гуманитарии в цифре
Топ-5 небанальных книг, которые помогут разобраться в пришествии технологий в нашу жизнь и культуру
Что почитать, если хочется понять, какую роль технологии играют в нашей жизни и в жизни людей творческих профессий? Как сделаны продукты, которые управляют нашей жизнью, как они вписаны в социальный и интеллектуальный контекст? Хорошо объясняют это не только книги, написанные в последние годы, но и незаслуженно забытые, вышедшие 50 лет назад.
Академический руководитель магистратуры Цифровые методы в гуманитарных науках НИУ ВШЭ Борис Орехов порекомендовал для «Гуманитариев в цифре» то, что, по его мнению, стоит почитать, чтобы иметь хороший интеллектуальный фундамент в этой области, и при этом не кружиться вокруг одних и тех же заглавий, которые и так у всех на слуху.
1️⃣ Абраам Моль «Искусство и компьютер». Уже довольно старая (1971, русский перевод: 1975), но недооцененная книга французского философа о том, как художники разных медиа могут работать с компьютером. Тематика книги во многом пересекается с тем, что называется «литературой формальных ограничений», но содержит много открывающих глаза экскурсов в теорию информации и основы эстетики. Эта книга сильно повлияла на понимание материала сегодняшними безусловными авторитетами в области формализации неформализуемого, прежде всего, Михаила Гаспарова. По-русски вышла в сборнике «Искусство и ЭВМ».
2️⃣ Адам Гринфилд «Радикальные технологии. Устройство повседневной жизни». Книга более новая, но и быстрее устаревающая. В картинках, которые рисует автор, мы узнаем свою повседневность нескольколетней давности, но уже не сегодняшнего дня. Впрочем, сами концепции стареют медленнее примеров, потому что, как известно, люди склонны переоценивать то, что в техническом смысле может быть достигнуто в краткосрочной перспективе, но недооценивать то, что может быть случится в долгосрочной.
3️⃣ Гаспар Кёниг «Конец индивидуума. Путешествие философа в страну искусственного интеллекта». Еще одна книга от философа. Не такая плоская, как прочие, силящиеся объяснить роль ИИ в нашем мире.
4️⃣ Рудольф Зарипов «Машинный поиск вариантов при моделировании творческого процесса». Еще одна старая (1983), но не устаревшая книга о компьютерах и творчестве. Формулы для комбинаторного порождения мелодий вас могут не заинтересовать, но зато книге предпослано глубокое введение с рассказом про историю искусственного интеллекта, с объяснением, при чем тут понятие фрейма, и другими полезными соображениями.
5️⃣ Сергей Николенко, Артур Кадурин, Екатерина Архангельская «Глубокое обучение» (2018). Лучшая, потому что самая понятная и самая человечная книга про нейросети. Если бы все так писали о сложном, даже котики никогда не плакали бы.
#чтопочитать
Что почитать, если хочется понять, какую роль технологии играют в нашей жизни и в жизни людей творческих профессий? Как сделаны продукты, которые управляют нашей жизнью, как они вписаны в социальный и интеллектуальный контекст? Хорошо объясняют это не только книги, написанные в последние годы, но и незаслуженно забытые, вышедшие 50 лет назад.
Академический руководитель магистратуры Цифровые методы в гуманитарных науках НИУ ВШЭ Борис Орехов порекомендовал для «Гуманитариев в цифре» то, что, по его мнению, стоит почитать, чтобы иметь хороший интеллектуальный фундамент в этой области, и при этом не кружиться вокруг одних и тех же заглавий, которые и так у всех на слуху.
#чтопочитать
Please open Telegram to view this post
VIEW IN TELEGRAM
Философские пристрастия искусственного интеллекта
📍Санкт-Петербург, Менделеевская линия, д.5, ауд. 8 (Институт философии СПбГУ).
⏰ 4 июля, 18:00 мск.
Очередной семинар серии «Лаборатория цифровой философии» ориентируется на интеграцию философских (и, конкретнее, этических) вопросов в контекст современных разработок искусственного интеллекта.
Темы для обсуждения:
- Как внедрение этического мышления в процесс создания ИИ помогает предсказывать воздействие технологий на общество?
- Как избежать вредных стереотипов в визуализации данных, как справиться с дискриминацией в автоматизированных процессах?
- Какие идеи Платона и Аристотеля могут использоваться в разработке, использования и оценке моделей искусственного интеллекта (LLAMA, GPT и др.)?
С результатами исследований в области философии и этики искусственного интеллекта выступят заведующий кафедрой этики доцент В.Ю. Перов; и.о.заведующего кафедрой философской антропологии доцент И.Ю. Ларионов.
Отдельная тема дискуссии — сравнение обучения ИИ с платоновским воспоминанием и/или применением учения Аристотеля о четырех причинах.
Регистрация: Дмитрий Ярочкин, ya.yarochkin@yandex.ru
📍Санкт-Петербург, Менделеевская линия, д.5, ауд. 8 (Институт философии СПбГУ).
⏰ 4 июля, 18:00 мск.
Очередной семинар серии «Лаборатория цифровой философии» ориентируется на интеграцию философских (и, конкретнее, этических) вопросов в контекст современных разработок искусственного интеллекта.
Темы для обсуждения:
- Как внедрение этического мышления в процесс создания ИИ помогает предсказывать воздействие технологий на общество?
- Как избежать вредных стереотипов в визуализации данных, как справиться с дискриминацией в автоматизированных процессах?
- Какие идеи Платона и Аристотеля могут использоваться в разработке, использования и оценке моделей искусственного интеллекта (LLAMA, GPT и др.)?
С результатами исследований в области философии и этики искусственного интеллекта выступят заведующий кафедрой этики доцент В.Ю. Перов; и.о.заведующего кафедрой философской антропологии доцент И.Ю. Ларионов.
Отдельная тема дискуссии — сравнение обучения ИИ с платоновским воспоминанием и/или применением учения Аристотеля о четырех причинах.
Регистрация: Дмитрий Ярочкин, ya.yarochkin@yandex.ru
Один канал в телеграме опубликовал очень странный, на наш взгляд, список книг о digital humanities, где все либо давно устарело, либо по-английски. А свежее (или нестареющее) и по-русски тоже можно почитать. Так что публикуем нашу подборку:
📖 Цифровые гуманитарные исследования (2023) - книга, названная монографией, но на самом деле представляющая собой учебник, в котором отражены все современные направления работы в области DH.
📖 Гаспаров М. Л. Очерк истории русского стиха (1984) - монография, открывшая глаза отечественным филологом на то, как можно изучать стихи, и сформировавшая самую сильную область отечественных digital humanities — стиховедение. Как стиховедение соотносится с DH, можно узнать 🎦 тут.
📖 Ярхо Б. И. Методология точного литературоведения (2006) - автор — человек, глубоко понимавший задачи литературоведения, и разработавший целую идейную платформу для применения количественных методов к литературному материалу в эпоху, когда еще и современной статистики-то не было. Совершенно гигантический труд, уже много определивший в науке и которому еще предстоит многое предопределить.
📖 Пильщиков И. А. Семь бесед о филологии и Digital Humanities (2022) - История, теория и практика цифровых исследований от патриарха отечественной филологии Игоря Алексеевича Пильщикова
📖 Орехов Б. В. Башкирский стих XX века: корпусное исследование (2019) - обновленное стиховедение с привлечением корпусных технологий, современного data science и инструментов машинной обработки текста, все это сделано на материале поэзии одного из народов РФ, включенного в общетюркский культурный контекст.
А если не только почитать, но и посмотреть, то вот:
📚 Список публикаций и выступлений по DH преподавателей магистратуры НИУ ВШЭ (2024)
А если не только почитать, но и посмотреть, то вот:
Please open Telegram to view this post
VIEW IN TELEGRAM