Системный Блокъ
10.7K subscribers
241 photos
2 videos
1 file
854 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
Download Telegram
​​«Размечено»: как распознавать именованные сущности в исторических дневниках

Дневники людей, живших в различных исторических эпохах, могут многое сказать исследователю. Рассказываем в новой статье, какой цифровой корпус для будущих исследований с применением ML создали в рамках проекта «Размечено»

Кратко: о чём статья?

В 2015 году появился корпус исторических дневников «Прожито», которым сегодня активно пользуются исследователи из разных сфер. Но находить все необходимые данные вручную было бы слишком проблематично, так что для автоматизации поиска интересующих дат, мест и событий существует распознавание именованных сущностей (named entity recognition, NER).

А в 2019 году был создан корпус LitBank — датасет для NER, составленный на основе 100 классических произведений англоязычной литературы. Благодаря нему появилась идея создать подобный датасет для русского языка. Особенно в свете появления других корпусов исторических текстов — «Project1917», «Пишу тебе». Так появилась идея создания «Размечено».

Всего в датасет вошла 1331 дневниковая запись, взятая из 124 уникальных дневников и состоящие из 14119 токенов (в этом случае токены — слова). Тексты были размечены на предмет упоминания имён, местоположений, организаций, учреждений, характеристик человека и прочих именных сущностей.

В дальнейшем на основании этой разметки можно решать задачи извлечения событий и построения сложных нарративов, характерных для дневников. Помимо этого, описанный алгоритм разметки данных можно перенести на любой другой корпус — например, на дневники из Прожито за другую эпоху.

Полный текст статьи, примеры разметки и подробности о том, как функционирует «Размечено» — по ссылке.

Время чтения: 12 минут.
Ничего не закончилось: как люди уезжают из Украины и возвращаются обратно

«Системный Блокъ» проанализировал данные о миграции из Украины с начала боевых действий.

Всего за три месяца из Украины уехали больше семи миллионов человек — это больше, чем в любой другой миграционный кризис с середины ХХ века. Самым популярным направлением миграции стала Польша, а второе и третье место поделили Румыния и Россия.

Но с апреля люди возвращаются обратно в регионы, откуда огонь отступил: Киевскую и Черниговскую области, Западную Украину. В Украину уже вернулась треть уехавших — это почти 3,3 миллиона человек, еще 5,5 миллионов остаются в Европе.

Теперь больше всего украинских беженцев в России: здесь размещаются 1,5 миллиона человек, хотя данных о вернувшихся из России нет. Кроме России и Польши, многие нашли пристанище в Германии – там сейчас находятся 867 тысяч человек.
​​«К идее разных интернетов мы пока не привыкли»: Полина Колозариди об исследованиях интернета

«Системный Блокъ» поговорил с Полиной Колозариди — интернет-исследовательницей, координаторкой Клуба любителей интернета и общества, преподавательницей ИТМО и НИУ ВШЭ — о том, чем занимаются интернет-исследователи, как развивался и чем различается интернет в разных городах России, и как связаны интернет и демократия.

Кратко: о чём интервью?

Любое интернет-исследование начинается с проблематизации: что мы называем интернетом в каждом конкретном случае? Точно ли нас интересует интернет, а не что-то другое? Только определив это, можно переходить к подбору концептуального (наиболее точного и подходящего) языка и методологии.

При этом важно осознавать, насколько по-разному воспринимают интернет сами пользователи, насколько по-разному с ним обращаются. Например, как отмечает дана бойд в книге «Все сложно», для подростков это не технология, а скорее способ публичной жизни. Особенно интересны исследователям локальные истории глобального интернета (в разных регионах, странах, городах), про то, как именно люди пользуются интернетом, и как это отличается в разных странах.

Для книги, которую Полина с командой сейчас готовят к выпуску, они два года ездили в экспедиции в разные города России: история интернета отличается в каждом российском городе, поскольку он протягивался не государством (унифицированно), а разными акторами — бизнесом, университетами,  активистами, библиотеками, фондами.

Не менее интересный сюжет — интернет во время пандемии. Когда в одних странах всех немедленно перевели на удалёнку, в других — школьников выводили в оффлайн при первой возможности. Кто-то так и остался работать полностью онлайн, а где-то, наоборот, усиливается оффлайн-жизнь.

Подробнее об этих и других сюжетах, которые волнуют интернет-исследователей: демократии, политике и социальных связях в интернете, ТикТоке и Тиндере, можно узнать из полной версии интервью на сайте.

Время чтения: 32 минуты.
Что и зачем вычисляют филологи: 7 стилометрических исследований

Сегодня филологи не только активно читают, но и активно вычисляют: авторство, особенности перевода, даже эмоции в текстах.

Основной метод такого статистического анализа – стилометрия. Он требует компьютерных вычислений и может использоваться в исследованиях художественных переводов, гендерных особенностей в языке и других целях. Больше о стилометрии и её функциях— читайте в нашей подборке.

Стилометрия: как в разное время люди искали авторов текстов
Чтобы понять, с чего начиналась стилометрия и к чему пришла сегодня, нужно пройти путь от 1440 года до 2022. К счастью, его краткий маршрут можно найти в статье.

В чём заслуга Лоренцо Валла? Как экспериментировали в способах определения авторства? Почему шекспировский вопрос до сих пор открыт?

Время чтения: 17 минут.

Компьютерная атрибуция текста: установка авторства текста
Одна из важных задач стилометрии – установить автора текста. А иногда и установить, сколько авторов над ним работали. Исследователей «Беовульфа» волновал именно этот вопрос, но договориться всё равно не получилось.

Каковы идеальные условия для стилистической атрибуции? Почему даже в гуманитарных науках важна воспроизводимость эксперимента? При чём тут Андрей?

Время чтения: 17 минут.

Кстати, у этого спора цифровых филологов есть продолжение! Если захотите узнать ещё больше о проблеме «Беовульфа», найдёте его здесь.

Компьютер нашёл автора пьес Мольера (спойлер: это Мольер)
С Мольером вопросов не так много, как с Шекспиром, но в авторстве его пьес всё равно подозревали Корнеля. Стилометрия эту теорию опровергла, но к исследованию всё равно осталась пара вопросов.

Почему вообще возникли сомнения в подлинности текстов Мольера? Как предлоги и артикли помогают установить авторство? Когда исследовать фрагменты было бы лучше, чем целые тексты?

Время чтения: 3 минуты.

Как менялись песни Битлов и можно ли вычислить эмоции компьютерными методами?
Исследование психологами песен The Beatles фокусировалось не просто на частотности слов, но на смене эмоций в текстах. Это стало возможно благодаря коннотациям и особому «Словарю эмоций».

Как измерять эмоции в тексте? Какая эмоция в песнях The Beatles наименее предсказуемая? Кто из битлов отвечал за слова «girl» и «dead»?

Время чтения: 6 минут.

Тайна стихов декабриста Батенькова
Один из самых популярных стилометричкеских методов – дельта Барроуза. Он фокусируется на частоте употребления в них служебных слов, благодаря которым можно установить авторство. Пример исследования этим методом – стихи поэта-декабриста.

Почему вообще возникла проблема верификации текстов Батенькова? Кто «подкинул» Батенькову чужие тексты? Как компьютер различал тексты разных авторов?

Время чтения: 15 минут.

Разделяй и определяй, или Кто автор «Сна в красном тереме»
Исследования древнеанглийской литературы, французской комедии XVII века, русских стихов современника Пушкина… но как насчёт авторства одного из «Четырех великих романов Китая»? Ещё один пример использования дельты Барроуза и дополнительных стилометрических методов.

Что такое тематическое моделирование? Кто добавил в восьмидесятичастный роман ещё сорок частей? Почему даже один метод может дать противоречивые результаты?

Время чтения: 7 минут.

Есть ли стиль у переводчика? А если найдем?
Ещё одна задача стилометрии – определить точность перевода. Благодаря таким исследованиям удаётся понять, насколько точно переводчику удалось передать стиль оригинального автора, и не оказалось ли в нём слишком много собственных стилистических находок.

Правда ли, что американский читатель не отличит Толстого от Достоевского? Угадывает ли компьютер автора оригинала по переводу? Можно ли «вычислить» особенности стиля конкретного переводчика?

Время чтения: 8 минут.
Точка, точка, запятая: как интернет меняет язык

Обнажаем скрытый смысл отдельных символов и размера букв в онлайн-переписке

Сеть меняет нормы общения и придаёт стандартным правилам и символам письменного литературного языка новые смыслы. В онлайн-сообщении смысл может скрываться именно в них — будь то точка в конце сообщения или буква «а» в слове «молоко».

Ученые только начинают исследовать это явление, но уже говорят о нескольких «трендах отмены». Давайте на них посмотрим:

Точка пропадает из цифрового общения

В литературной речи точка фиксирует конец предложения или текста. Но в онлайн-чатах эту функцию выполняет факт отправки сообщения, а одно сообщение часто состоит из одного предложения.

В результате точка привлекает особое внимание и будто несёт дополнительный смысл. По мнению лингвиста Марка Либермана, в сообщениях с точками на конце сегодня чувствуется резкость и даже агрессивность.

Заглавные буквы уступают место «элегантному шепоту» строчных

Многие пользователи пишут маленькими буквами там, где по правилам нужны большие. Здесь всё просто: правильное применение заглавных буквы никак не меняет смысл сообщения.

Скобки перестали быть знаком препинания

Скобки как знак препинания почти не используются, потому что язык в мессенджерах ближе к разговорному, чем к письменному. Но в российском интернете они превратились в самостоятельный символ, обозначающий радость или огорчение.

Кстати, для европейцев существуют только цельные эмодзи из двоеточия, дефиса и скобки или современные эмодзи-смайлики. Поэтому скобки — неожиданный пример того, что даже во всемирной сети языки развиваются по-разному.

О том, как пробел связан с психотерапией и какие впечатления создают опечатки и намеренные ошибки, читайте в нашей статье.

Время чтения: 9 минут.
Правильность в языке: а судьи кто?

Кто решает, что звОнит — это неправильно, а «кофе» мужского рода? И главное, откуда у этого кого-то знание о том, как правильно? Продолжаем разбираться с «нормой» в языке вместе с Алексеем Богдановым — кандидатом филологических наук и «радикальным лингвистом».

Если первый пост в его блоге был посвящен научной стороне вопроса, то этот — общественной. Ведь именно в дискуссиях, как правило, возникают ситуации, когда люди стремятся установить истину, обращаясь при этом к словарям и gramota.ru.

🤔Доверять ли «Грамоте» и подобным сервисам?

И да, и нет. В случае вопросов про орфографию ответ обычно может быть найден в словарях или справочниках по орфографии, и это совершенно нормальная ситуация. А вот многие разговорные конструкции не имеют узаконенного варианта написания, так что в этих вопросах все носители языка в равной степени специалисты (даже больше, чем словари).

🤔А как, собственно, создаются словари?

Здесь есть несколько путей. Первый и самый очевидный источник — перепечатать вариант произношения слова из другого издания. Второй — эксперимент: авторы могут выйти на улицу и опросить какое-то количество носителей так, чтобы понять, какой из вариантов они употребляют из нескольких возможных. Так, правда, происходит очень редко (а жаль).

Есть и ещё несколько опций, о них — в полной версии поста. Но важно прежде всего понимать: как бы хорош ни был словарь, информация в нём будет быстро устаревать, поскольку живой язык постоянно меняется.

🤔Откуда тогда вообще берутся «правильные» варианты?

Забавно, но зачастую «правильные» варианты формируются совсем не последовательно. Например, из целой системы изменений ударения однотипных глагольных форм (звонИт, курИт, солИт и др.) в норму вошел только один глагол. А отмирание форм косвенных падежей фамилий на -енко прошло вовсе незамеченным защитниками нормы. Вариант внутри Лапенки еще каких-нибудь 50 лет назад был бы наиболее распространенным. Теперь же так почти не говорят — а говорят, конечно, внутри Лапенко.

Ещё больше примеров незамеченных изменений, источников словарных норм и бесполезных «правильных» вариантов найдёте в полном тексте поста.
«Системному Блоку» четыре года: вспоминаем четыре главных поста последних месяцев

В последний год работы «Системный Блокъ» много писал о том, что происходит не только в мире науки, но и в мире вообще. Неудивительно, что в числе главных постов этого года — сухие страшные цифры, новые технологии и значимые исследования.

Заявления и цифры: статистика погибших на Донбассе с 2014 по 2021 год

«Системный Блокъ» визуализировал статистику количества погибших на Донбассе военных и гражданских лиц за период с 2014 по 2021 год. Все цифры взяты из ежегодных отчетов Уполномоченного по правам человека Донецкой народной республики, и из них видно, что большая часть жертв пришлась на первые два года конфликта — 2014 (тогда погибли 2546 человек) и 2015 (погибли 1395 человек). Статистика за 2022 год в посте не приводится.

Полный текст поста

Приказано забыть: каким данным угрожает ликвидация «Мемориала»*

14 декабря 2021 года проходил суд над «Мемориалом» — старейшей правозащитной организации России, главным хранителем памяти о репрессиях.

«Системный Блокъ» проанализировал статистику о данных, которые собрал «Мемориал» за годы своей работы. Это не только три миллиона карточек репрессированных из Книг памяти, но и более миллиона страниц оцифрованных воспоминаний о ГУЛАГе, а также информация о местах захоронений, принудительного труда и массовых расстрелов в Москве.

*Решением минюста «Международный мемориал» внесен в реестр НКО, выполняющих функции «иностранного агента»

Полный текст поста

Пост из мирной жизни: новая технология улучшения качества изображений

В сентябре Google представил технологию, которая может увеличить фотографию размером 32×32 до 256×256 (в 8 раз) или 64×64 до размера 1024×1024 (в 16 раз) — и все это без потери качества! Её применение может быть одинаково полезным при восстановлении старых семейных фотографий и улучшении медицинских визуализаций (изображений, полученных при УЗИ, МРТ или, например, рентгенографии).

Полный текст поста и видео о технологии в нашей группе Вконтакте

Интерактивный учебник по Python для гуманитарных исследований

В январе 2021 года Принстонский университет выпустил монографию «Humanities Data Analysis: Case Studies with Python». Сегодня её можно читать онлайн на интерактивном сайте — с графиками, кодом, ссылками на источники и датасеты.

Описанные в книге методы и инструменты применяются в самых разных исследованиях: от изучения читательской аудитории и установления авторства прозы XII века до анализа кулинарных книг и судебных решений. Этими кейсами можно вдохновляться, а код — использовать для своих задач.

Полный текст поста

P. S. Если пятилетний юбилей вы хотите отметить вместе с «Системным Блоком», самое время присоединиться к нашей команде. Заполняйте форму по ссылке, а мы обязательно с вами свяжемся!
Знатный борщ, голодная тетка и мужик-молодец: как менялись значения слов в русском языке на протяжении XVIII-XIX веков

За два века слово может изменить свое значение до неузнаваемости. Многие слова, которыми мы пользуемся сегодня, совершенно иначе воспринимались нашими предками. Тест на лингвистическую интуицию: сможете ли вы догадаться, когда возникла поговорка «голод не тетка», а слово «молодец» стало похвалой?
Тревоги «маленьких людей» Англии XVI-XVIII веков: на что жаловались и чего добивались крестьяне и горожане

В Англии XVII—XVIII вв. подача петиций и жалоб была обычным делом. Рассказываем про цифровой проект английских ученых, который позволяет проанализировать обращения крестьян и горожан в вышестоящие инстанции.

Кратко: о чём статья?

О проекте «The Power of Petitioning in Seventeenth-Century England», архиве жалоб и петиций англичан живших в XVII—XVIII вв. На сайте проекта любой исследователь или случайный посетитель имеет неограниченный доступ как к архиву обработанных петиций, так и к научным публикациям авторов проекта. Он помогает ответить на такие вопросы: с какими проблемами англичане чаще всего обращались к властям? Каким государственным лицам они писали? Как оформлялись петиции, чтобы их рассмотрели и дали желаемый ответ? Какие риторические техники использовались для убеждения властей?

А ещё можно узнать, чем началась и закончилась история с жалобами заключенных на тюремную администрацию в 1710 году, и выяснить, что говорят петиции о положении женщин в Англии, которые добивались королевских амнистий, оправдательных приговоров и запрещённых свиданий.

Подробности этих и других историй — в полной версии статьи.

Время чтения: 11 минут.
Обзор магистратур по цифровым гуманитарным исследованиям
#education #digest

Где в России в 2022 году учат на цифрового гуманитария? Куда можно зайти с дипломом филолога (историка, культуролога, мемолога…) — и выйти с навыками программирования, анализа и визуализации данных, веб-разработки, с опытом работы в междисциплинарной исследовательской команде? Где с радостью примут программиста, математика или физика, мечтающего о применении своих скилов в гуманитарных исследованиях?

«Системный Блокъ» снова рассказывает про актуальные магистерские программы в области Digital Humanities в России.

«Цифровые методы в гуманитарных науках»
НИУ ВШЭ, Москва
Магистратура от DH-центра Вышки. Здесь можно прокачаться в Python, особенно если вы пришли с нулевым уровнем, разобраться в анализе данных, не имея технического бэкграунда, и, конечно, погрузиться в современные Digital Humanities. У магистратуры есть уклон в работу с текстовыми данными, но это не мешает отдельным студентам заниматься 3D-моделированием памятников архитектуры или компьютерным зрением в исследованиях кино. Выпускники работают в Яндексе, Сбере, ABBYY и в той же Вышке, некоторые уже учатся на зарубежных PhD программах. В этом году прием документов до 26 июля.

«Цифровые методы в гуманитарных исследованиях»
ИТМО, Санкт-Петербург
Раньше эта программа называлась очень модно и молодежно: «Data, Culture and Visualization» — и она по-прежнему заточена под разные креативные индустрии и профессии. Если вы мечтаете менеджерить и курировать цифровые проекты, дизайнить и проектировать креативные пространства — вам сюда. Еще на этой программе сильные internet studies, если вы вдруг мечтали изучать твиттер или там ранний русский интернет. Ну и традиционно у ИТМО много контактов с питерскими культурными институциями: музеи, библиотеки, выставочные площадки, бары. Технические навыки вроде Python, основ NLP и анализа данных — прилагаются.

«Цифровые методы в гуманитарных науках»
НИУ ВШЭ, Пермь
Программа от пермского кампуса Вышки собрала хорошую команду специалистов по цифровой истории (исторические базы данных, исторические ГИСы, исторический сетевой анализ, 3D-моделирование), Digital Humanities и новым медиа. В результате студенты занимаются самыми разными проектами: от исследования образа города в соцсетях до изучения Карибского кризиса через корпусный анализ. Еще магистратура примечательна тем, что одна из выпускниц прямо в процессе обучения стала директором агентства по науке Тывы. Технические навыки, как и в предыдущих случаях, входят в набор: здесь учат Python, основам анализа данных

«Магистратуры Digital Humanities»
ТГУ, Томск
Здесь делают две сестринские программы, объединенные под вывеской Digital Humanities. Это «Человек и технологии в цифровом мире» и «Дизайн и разработка графических пользовательских интерфейсов». Первая программа — более гуманитарно-философская, она про осмысление и критический анализ цифровой трансформации мира. Впрочем, прикладные навыки тоже дают — учат основам менеджмента в IT, основам Python, сетевому анализу. Вторая программа — более техническая, и посвящена разработке интерфейсов, но с максимальным вниманием к человеку, который пользуется интерфейсам, и его «человеческим» свойствам.

«Цифровые технологии в филологии, компьютерная лингвистика»
ЮФУ, Ростов-на-Дону
Программа по Digital Humanities от Южного федерального университета. Здесь уже из названия виден уклон в филологию и лингвистику — программа представляет собой этакий гибрид курса компьютерной лингвистики и Digital Humanities. Здесь тоже преподают основы NLP, учат кодить на Python, но к этим обязательным вещам добавлены локальные специи — например, цифрогуманитарные курсы по донскому фольклору (sic!). Во время практики здесь можно поработать с корпусом донских говоров ДонКРЯ, а также поучаствовать в проекте цифрового семантического издания А. П. Чехова Chekhov Digital.
Что такое машинное обучение?
Машинное обучение — это набор методов, которые позволяют компьютеру решать сложные задачи, не используя точный алгоритм действий. Постепенно во всё большем количестве областей оно позволяет достичь если не прорыва, то существенного прогресса: AlphaFold успешно решает одну из главных задач биологии и медицины, PaLM способна отвечать на вопросы, генерировать программный код, суммаризовать тексты.

Кратко: о чём статья?
Машинное обучение не предполагает готовых точных алгоритмов. Допустим, для написания программы, которая определяла бы, кто на изображении — кот или собака, программисту пришлось бы придумывать алгоритм, с помощью которого определялись характерные признаки животных (форма ушей, длина лап и хвоста, и другие), далее понадобился бы алгоритм, который по этим характерным признакам отличал кошек от собак и т.д.

Из-за огромной вариативности картинок формализовать решение такой задачи почти невозможно. А методы машинного обучения позволяют обойти эту проблему с помощью процедуры обучения, посредством которой компьютер сам выделяет из данных закономерности и признаки, необходимые для решения задачи.

Под процедурой обучения подразумевают подбор оптимальных (с точки зрения качества решения задачи) параметров модели. Набор данных, содержащий входы (например, изображений котов и собак) и правильные ответы для них, называется обучающей выборкой. На ней и проводится обучение модели. В процессе обучения мы явно, как учитель, «указываем» модели на её ошибки. Но есть методы, для работы которых разметка обучающей выборки не требуется. Такие методы называются машинным обучением без учителя.

Примеры таких случаев, подробный разбор процессов обучения и картинки с собаками найдёте в полном тексте статьи.

Время чтения: 8,5 минут.
Тогда и сейчас: 4 статьи о том, как (не) изменился мир

В материалах по истории мы часто проводим параллели между миром сегодня и 300, 400, 500 лет назад. В этой подборке «Системный Блокъ» собрал для вас тексты, которые особенно наглядно показывают изменчивость и постоянство общества, в котором мы живём, и мира, который нас окружает.

Социальная сеть Бэкона: фейсбук 500-летней давности
Проект «Шесть рукопожатий Бэкона» восстановил связи и знакомства англичан, живших с 1500 по 1700-й годы, визуализировав их на единой карте (спойлер: выглядит очень эффектно).

Как выяснить, кто с кем «дружил» 500 лет назад? Знал ли Бэкон Шекспира и Ньютона? Сколько «друзей» было у грозы морей, Фрэнсиса Дрейка?

Время чтения: 5 минут.

Шпионаж и слежка 400 лет назад
Материал о том, как найти письмо шпиона среди 20 000 писем эпохи Тюдоров. И, конечно, о том, как обстоят дела со слежкой спецслужб сегодня.

Стоит ли опасаться за свои метаданные (и что отличает их от обычных данных)? Когда «не-чтение» эффективнее чтения? Что такое сетевой анализ?

Время чтения: 14 минут.

300 лет дистанционного обучения
Рассказываем о том, как было устроено дистанционное обучение в XVIII веке и о том, как уже в 1980-е годы появилась возможность учиться «онлайн».

Чему и как учили первых дистанционных учеников? Где и когда появились дистанционные курсы иностранных языков? Какой университет рискнул запустить первые онлайн-программы для бакалавров и магистров (и чем это закончилось)?

Время чтения: 10 минут.

221B, 302-бис и улица Садовая: адреса сегодня и 300 лет назад
Разбираемся с тем, как и зачем появились номера домов, а также как они связаны с Просвещением, призывом в армию и дискриминацией евреев в Европе.

Как искали дома, пока не было адреса и номера? Почему про берлинскую нумерацию Твен писал, что «сделал эту систему полный идиот; но идиот не мог бы придумать столько вариаций»? Какие способы нумеровать дома вообще существуют?

Время чтения: 10 минут.
Цифровое шекспироведение: драма в трех действиях

Человеку из XXI века может быть сложно понять социальные реалии, в которых создавались пьесы Шекспира. С помощью цифрового анализа исследователи выяснили особенности национальных, гендерных и других ролей, использованных автором. Разбираемся, каким языком пользовались кельты, женщины и обманщики в шекспировских пьесах.

Кратко: о чём статья?

Выпуск журнала «Язык и литература: международный журнал стилистики» за август 2020 года был посвящен цифровым исследованиям шекспировского стиля. В статье — три показательных исследования.

Джонатан Калпепер и Элисон Финдли поставили цель эмпирическим путем выявить, как современники Шекспира относились к шотландцам, валлийцам и ирландцам через презентацию этих четырех национальностей в тексте пьесы. Для этого они обратились к анализу словосочетаний, выявив случаи совместного появления слов, а затем объединили их в тематические группы. В случае всех трёх языков группы получились примерно одинаковыми: «война», «сопутствующие группы» (здесь речь о других народах), «знать» и «завоевание и подавление».

Получается, уклон в восприятии кельтов был скорее к враждебному отношению. При этом восприятие трёх национальностей всё же несколько различалось. Для шотландского языка группы «знать» и «политическая власть» имеют более положительную окраску, шотландцы, в отличие от ирландцев, заслуживают в глазах англичан одновременно уважение и страх. А вот валлийцам повезло меньше всех — в их случае речь идет преимущественно о подавлении валлийцев англичанами.

Об исследовании мужского и женского языков в пьесах Шекспира, статусе остроумных мужчин и персонажах-обманщиках — читайте в полном тексте статьи.

Время чтения: 14 минут.
Кто скрывается за псевдонимом «Элена Ферранте»: стилометрия против мистификаций

Системный Блокъ много писал о стилометрии: об атрибуции и верификации авторства, анализе эмоций в песнях и стиля переводчика. Теперь на примере известного итальянского автора рассказываем, как стилометрия помогает раскрывать литературные мистификации

Кратко: о чём статья?

«Элена Ферранте» — псевдоним известного современного итальянского автора, личность которого до сих пор остается анонимной. Перу Ферранте принадлежит семейная сага «Неаполитанский квартет», первая часть которой стала бестселлером.

Издательству «E/O» удалось сотворить из образа Элены Ферранте загадочный миф. Женщина ли пишет эти романы, или это мужчина так умело следует женскому дискурсу? Или авторов вообще несколько?

Главными «подозреваемыми» стали Доминико Старноне — известный неаполитанский писатель — и Анита Райа — переводчица, которой издательство выплачивало аномальные суммы.

Изучая эти версии и подключив к расследованию стилометрические методы, цифровые филологи опубликовали сборник из восьми исследований.

О двух из них и о том, могут ли оба подозреваемых быть причастны к романам, узнаете из полного текста статьи. А заодно посмотрите на сети, которые наглядно показывают стилистическую близость романов разных авторов.

Время чтения: 15 минут.
Обсуждая гуманизм: тематическое моделирование немецкоязычной прессы XIX в.

Как цифровые методы помогают понять эволюцию идеи гуманизма в Германии XIX века? Рассказываем об исследовании «гуманистического дискурса» в немецкоязычных газетах при помощи тематического моделирования.

Кратко: о чём статья?

В эпоху Возрождения на смену схоластике и средневековому корпоратизму пришел гуманизм, но к сегодняшнему дню его понимание сильно изменилось. Проследить за тем, как именно, может помочь тематическое моделирование. С его помощью возможно не только обозначить основные темы в огромном корпусе текстов, но и отыскать такие темы, которые человек бы уловить не смог.

Для исследования была взята выборка из цифрового корпуса Австрийских газет (ANNO). С помощью алгоритмов оптического распознавания (OCR) и механизма поиска исследователи обнаружили, что слово Humanismus (“гуманизм”) в разных формах имело 326 вхождений между 1808 и 1850 годами. В итоге, после отбора наиболее релевантных текстов, всех фильтров, чисток и перераспределения данных в разных программах, исследователи получили 10 топиков, которые бы ассоциировались с прогрессией дискурса о “гуманизме”. Среди них — филология, образование и революция.

О других семи и о подробностях исследования узнаете из полного текста статьи.

Время чтения: 6 минут.
Эзотерика программирования

Поэзия и программирование. Очень далекие одна от другой области. Но есть ли у них точки пересечения? Они сходятся в чарующей и прекрасной зоне бесполезного. Чтобы узнать о ней больше, читайте новый пост цифрового филолога Бориса Орехова.

💻 Что самого гуманитарного есть в программировании?

Если считать лингвистику гуманитарной наукой (на самом деле, она скорее ближе к естественным, вроде биологии), то можно, например, порассуждать о внутреннем устройстве программных языков. В C++, Perl и Python тоже есть слова, синтаксис, приемы выразительности, а выразительность — категория гуманитарная.

Та область, в которой выразительность языка традиционно проверяется на прочность, это поэзия. Причем стихи пишут и на языках программирования. Про это Борис Орехов когда-то писал специальную статью.

💻 Где сочетаются интеллектуальная красота и технологии?
Отдельная ниша в программировании — создание языков, не предназначенных для написания на них полезных программ, а призванных развлекать. Такие языки называются эзотерическими, и для их каталогизации даже существует специальная энциклопедия.

Например, существует язык Перлигата, который позволяет писать код на милой каждому гуманитарию латыни. Или, например, язык программирования Шекспир. Программы на нем напоминают пьесы елизаветинской эпохи, хотя при ближайшем рассмотрении это, конечно, полный постмодерн.

Подробности и примеры о Перлигате и Шекспире читайте в полном тексте поста. И заодно посмотрите иллюстрации, сгенерированные нейросетью DALL-E.

Время чтения: 11,5 минут.
Сибирские пожары, взрыв в Бейруте и машины на парковке: подборка о том, что можно увидеть из космоса

Рубрика «урбанистика» в «Системном Блоке» рассказывала и об эволюции городов, и о краудсорсинге, и о геокодировании, а еще… о космосе. Собрали для вас четыре важных текста о том, кому, когда и зачем нужны космоснимки.

Что видит компьютер на космических снимках
Как данные дистанционного зондирования Земли (ДЗЗ) помогают суммировать наши представления о мире вокруг, а нейросети распознают объекты, сфотографированные из космоса.

Насколько далеко глядит спутник? Сколько спутников обращаются вокруг Земли? Как ДЗЗ может пригодиться фермерам?

Время чтения: 8 минут.

Как мы теряем природные ресурсы… темноты
Рассказываем, как спутники помогают с проблемой «светового загрязнения». Почему самые «яркие» точки на карте — совсем не бессонные мегаполисы, а места добыча нефти и газа, склады и теплицы.

Когда интенсивность освещения в разных городах США возрастает с 20% до 50%? Почему зависимость «население-освещенность» мнимая и волноваться нужно не из-за нее? Где и из-за чего освещение от искусственных источников за три года увеличилось на 500%?

Время чтения: 7 минут.

Как выглядят сибирские пожары из космоса?
«Теперь зола лежит одна, как ни вороши, ни ищи — ни души»: сегодня и песня Монеточки, и статья про сибирские пожары 2019 года одинаково актуальны. О том, какие данные об «одной золе» в Сибири, Африке и Южной Америке можно получить благодаря спутникам, читайте в статье.

Какие сервисы помогают отслеживать аномалии температуры и пожары сегодня? Может ли спутник определить природу аномалии? Какие показатели, кроме температуры, важны при определении пожара?

Время чтения: 5 минут.

Взрыв в Бейруте: как оценить масштаб катастрофы из космоса
Сейчас многие, вероятно, уже не помнят про взрыв в порту Бейрута летом 2020 года, но этот случай по-прежнему показателен. На примере Бейрута рассказываем, как спутники помогают разобраться с катастрофой, которая оставила за собой разрушенные здания, сотни погибших, тысячи пострадавших и страну на грани гуманитарной катастрофы.

Как такая катастрофа могла произойти? Какую именно помощь могут оказать спутники в подобной ситуации? Как спутник определяет радиус повреждений?

Время чтения: 5 минут.
Бёрдвотчинг: что это за птица такая?

Лето почти закончилось, а вы все еще не отличаете сатанинского козодоя от башенного стрижа? А может, вам хотелось стать орнитологом, когда вырастете? Системный Блокъ рассказывает, как, вооружившись мобильными приложениями, с пользой провести выходные.

Кратко: о чём статья?
Бёрдвотчинг (от англ. birdwatching) — это наблюдение за птицами в их естественной среде обитания — своего рода орнитологическая работа, но обычно на любительском уровне.

История бёрдвотчинга начинается с конца XVIII века — именно в это время люди начинают обращать внимание на пернатых с позиций эстетической ценности и научного интереса. А в XXI веке стать бёрдвотчером гораздо проще благодаря простому доступу к уже собранной и систематизированной информации.

Помимо атласов-определителей птиц существует более 30 различных сайтов и приложений для Android/IOS, которые помогают бёрдвотчерам. Среди них можно выделить два типа ресурсов: одни помогают определить вид по конкретному признаку (например, по голосу), другие не только распознают птицу, но и предоставляют объемную справочную информацию (от описания до записи голоса), позволяют вносить свои данные в общую базу и обращаться к данным других пользователей.

Примеры таких приложений и ответ на вопрос: «зачем всё-таки нужен бёрдвотчинг?», найдёте в полном тексте статьи.

Время чтения: 5,5 минут.
Ай да натуралист! Какие экологические приложения помогут с пользой провести летние выходные

Летом можно не только хорошо отдохнуть, но и поучаствовать в экопроекте и даже помочь науке. «Системный Блокъ» рассказывает, как с пользой провести летние выходные. 

Кратко: о чём статья?

Главный герой статьи — iNaturalist, один из самых популярных ресурсов, которые помогают пользователям лучше понимать, что их окружает: идентифицировать растения, грибы, насекомых и животных. В нём можно делиться наблюдениями за природой в разных форматах: прикрепить описание, загрузить фотографию или звуковую дорожку. Например, пение птички!

Участники сообщества iNaturalist — а их почти 5,5 миллионов, могут подписываться на интересных им наблюдателей. Данные, которые собирают пользователи, используются и за пределами самой сети: к ним обращаются в том числе и учёные. Используя приложение, пользователь становится участником проекта гражданской науки (об этом мы подробно рассказываем в этой статье) и частью большого сообщества, которое объединяет очень разных людей по всему миру: и ученых-биологов, и просто любителей отдыха на открытом воздухе.

Среди других героев статьи:

PlantNet— одно из наиболее популярных экологических приложений для идентификации растений;

Что это за цветок? — русскоязычное приложение, у которого есть возможность работы в оффлайн-режиме;

Экогид — русскоязычное приложение, вместе с которым можно изучать птиц России.

Подробности о других приложениях и возможностях участвовать в экопроектах онлайн, найдёте в полном тексте статьи.

Время чтения: 3 минуты.