Системный Блокъ
10.7K subscribers
241 photos
2 videos
1 file
854 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
Download Telegram
Русская классика глазами нейросети ruDALLE

Нейросетевая модель DALL E от OpenAI впечатлила мир способностью генерировать действительно адекватные и реалистичные картинки по произвольному описанию (ну хотя бы иногда). Сгенерированные этой моделью «кресла в форме авокадо» и «влюбленной редьки» многократно облетели интернет.

Недавно появился русский аналог под названием ruDALLE — и с ним (или с ней) уже тоже проделали много веселых экспериментов. Мы решили проверить, как эта модель представляет себе русскую классику. Картинки ниже — результат генерации изображений моделью ruDALLE на основе первых строк выдающихся произведений русской классической литературы. Попробуйте угадать, начала каких произведений заставили нейросеть увидеть ЭТО.

Учтите, что мы исключали посвящения, эпиграфы, перечисления героев, не относящиеся к сюжету вступления и прочее. В нашем тесте использовались именно первые строки основного текста: первых глав, действий, реплик и т.п. Как правило, именно эти строки считаются начальными в произведении, например: «Мой дядя самых честных правил» или «Я пригласил вас, господа, с тем чтобы сообщить вам пренеприятное известие».

https://sysblok.ru/test/russkaja-klassika-glazami-nejroseti-rudalle/
Как работает автоматический поиск рифмы
Проводим тест-драйв на примере двух стихотворений — на русском и английском.

Искать рифмы можно через анализ последних звуков в строках, но такой способ упускает неточные рифмы и слова, произношение которых изменилось со временем. Чтобы решить проблему, в 2018 году чешский стиховед Петр Плехач предложил использовать для поиска рифм коллокации и машинное обучение.

«Системный Блокъ» решил проверить, как алгоритм справится со стихотворением Маяковского «‎А вы могли бы?»‎ и 117-м сонетом Шекспира. Мы написали свою программу, используя RhymeTagger — библиотеку на Python, созданную Плехачем в 2021 году.

Спойлер: знаменитой «Лесенке» Маяковского всё-таки удалось сбить алгоритм с толку. Но несмотря на это, он смог узнать неточную рифму.

https://sysblok.ru/philology/programma-dlja-poiska-rifmy-kak-ona-rabotaet-i-kogda-lomaetsja/
Идеальная формула депрессивной песни
Если вы когда-нибудь думали: «Эх, вот бы кто-то посчитал, насколько мне грустно от этой музыки!», то ваше странное желание исполнено.

Мы уже писали о том, как изменились тексты поп-песен за последние 50 лет. Но в анализе песни важны не только слова, но и мелодия.

Британская рок-группа Radiohead известна как пишущая «грустную» музыку. Поклонник группы, дата-сайентист Чарли Томпсон решил вычислить их самую депрессивную песню с помощью языка программирования R, опираясь на музыкальную и текстовую составляющую.

Ученый придумал «индекс уныния» — формулу депрессивной песни, которая усредняет показатели музыкальной позитивности, процента «грустных» слов и лирической плотности (насколько важно каждое грустное слово). В итоге самой грустной песней оказалась «True Love Waits», а самой бодрой — «15 Step» из альбома In Rainbows.

Ещё Томпсон создал Sentify — сайт, где можно визуализировать настроение песен вашего любимого исполнителя. Достаточно вбить имя любимого исполнителя, и вы увидите график настроения всех его мелодий.

https://sysblok.ru/musicology/idealnaja-formula-depressivnoj-pesni-na-primere-radiohead/
Что говорит о дневниках 1917 года анализ данных
«Системный Блокъ» выяснил, что волновало участников событий и о чем писали газеты.

Восстания, Первая мировая война, броневики, голод, бедность… И в это же время Русские сезоны, последняя выставка Бубнового валета и «Смутное» Кандинского. За бешеным калейдоскопом событий 1917 года стояли живые люди — политики, интеллигенты, генералы и другие.

Мы уже писали о проекте «1917. Свободная история», который собрал дневники больше 1500 героев. Нам было сложно удержаться от анализа такого обширного корпуса данных, и вот что из этого вышло.

Взглянем на революцию глазами очевидцев:
• Больше всего авторы писали о революции, войне и культуре, а ещё — про экзистенциальные вопросы.
• Часть тем про революцию связаны с конкретными событиями, остальные объединяют общие рассуждения о революции.
• Бедность и проблемы с продовольствием — единственная тема, которая регулярно всплывает с октября 1916 года по январь 1918-го.

https://sysblok.ru/linguistics/vperedi-sushhij-saharnyj-golod-chto-govorit-o-dnevnikah-1917-goda-analiz-dannyh/
Как Джордж Вашингтон стал эмо в ТикТок трендах
Пользователи ТикТока находят современные понятия в книгах 17-го века, и мы решили их проверить.

Пару месяцев назад в ТикТоке начали набирать сотни тысяч просмотров записи экрана с Google Books Ngram Viewer. Сайт показывает популярность слова в текстах разного времени, и любопытные находят слово «эмо» в 1803 году, а упоминание «Звёздных войн» — ещё в 1696-м.

«Системный Блокъ» решил разобраться, в чём секрет такой статистики. Причин оказалось много: от банальной многозначности слов до некорректного распознавания текста.

Например, слово emo встречается не только в англоязычных книгах, но и учебниках по латыни — там оно переводится как «покупаю». А если искать слово эмо среди русских книг, то мы увидим пик в 1820-х — но не из-за распространения романтизма, а из-за проблем с оцифровкой.

Другой пример «star wars» тоже оказался связан с оцифровкой: словосочетание из скриншота в тексте 1681 года почти невозможно разобрать.

https://sysblok.ru/philology/kak-dzhordzh-vashington-stal-jemo-google-n-grams-v-tiktok-trendah/
Пушкин — сексист или всё-таки нет?
Продолжаем разбирать произведения из школьной программы через призму современных ценностей.

Мы уже рассказывали о том, какими видятся мужчины и женщины в произведениях школьной программы. Тогда в анализ текста Пушкина вошли «Евгений Онегин» и «Руслан и Людмила». Внимательные читатели заметили, что в анализе не хватает значимых произведения классика — «Повести покойного Ивана Петровича Белкина» и «Капитанской дочки» 📖

Что изменится, если мы включим эти тексты в исследование?
• Женщины по-прежнему реже участвуют в диалогах, а женским персонажам писатель уделяет меньше внимания — количество лексем женского рода в три раза меньше, чем мужского.
• Героини Пушкина оказались активнее, чем мы предполагали: в «Повестях Белкина» и «Капитанской дочке» они чаще всего возражают, кричат и ожидают — хотя в прошлый раз они только ждали, любили, плакали и знали.
• У мужских и женских персонажей одинаково активная позиция, и при этом мужчины выглядят более рациональными, а женщины — эмоциональными.
• Герои Пушкина по-прежнему много думают, но теперь они чаще велят, меньше читают и любят 💔
• Прилагательное «бедная» описывает тяжелую судьбу героинь, а если оно относится к герою — то он либо старик, либо покойный, либо материально беден.

https://sysblok.ru/philology/russkie-klassiki-seksisty-ili-vse-taki-net-korpusnyj-analiz-teksta-pushkina/
«Мы заставили нейронную сеть креативить»
Исследователи из университетов Страсбурга, Казани и Хоккайдо придумали систему, которая поможет в поиске новых лекарств.

Еще пять лет назад использование ИИ для генерации новых молекул казалось фантастикой. Теперь же алгоритм придумывает химические реакции почти как человек, хотя иногда и фантазирует слишком сильно. Тимур Маджидов из Казанского федерального университета рассказал «Системному Блоку» об истории и работе нейросети — а заодно и о будущем химии. 🧪

Создание нейросети началось с тренировок автокодировщика на SMILES — это способ представления химических соединений с помощью буквенных строк. Полученные наборы чисел превращали в двухмерные карты и использовали для анализа пустот в химическом пространстве или предсказания свойств молекул на основе их близости.

Сейчас технология состоит из трех частей. Первая — это нейронная сеть, которая создаёт новые тексты, если дать ей прочесть много старых. Вторая часть представляет всю химическую реакцию в виде текста и кодирует информацию о реагентах, продуктах и связях в ходе реакции. Третья — это фильтр, который выкидывает уже известные или неинтересные реакции.

В будущем поиском и синтезом молекул будут заниматься химические роботы, но это только начальный этап разработки лекарств. Дальнейшие этапы — поиск безопасных вариантов, тестирование на побочную активность, испытания на животных и клинические испытания — требуют участия человека.

https://sysblok.ru/interviews/my-zastavili-nejronnuju-set-kreativit-kak-algoritmy-modelirujut-himicheskie-reakcii/
Обзор блогов «Системного Блока»
Как стриминговым платформам мешает отсутствие чувства юмора, где снимают фильмы одного дубля и почему фильтры для воды покупают, даже если они плохо фильтруют воду

В новом дайджесте блогов «Системного Блока» эксперты рассуждают о судьбе гиперреалистичных персонажей из видеоигр и выборе локации для съемки цифрового кино, а наш главный редактор делится историями из жизни нашей редакции. Выбирайте:

— Способность машин обрабатывать текст или распознавать изображения нельзя считать признаком их «интеллектуальности», а более сложный ИИ — пока фантастика. Борис Орехов объясняет, что такое искусственный интеллект, как связаны машинное обучение и демократия и какое место занимают ученые из России в гонке искусственных интеллектов.

Искусственный интеллект: визионеры и инженеры

— В конце января редакция «Системного Блока» устроила оцифровочный выезд в Санкт-Петербург. За один субботний вечер в музее мы отсканировали с двух сторон 477 старых почтовых открыток. А еще мы пожили в Доме паломника, выпили пива на Невском, увернулись от сосуль и познакомились с высокоэффективными методами организации революционного террора… О наших приключениях рассказывает в своем блоге главный редактор «СБъ» Даниил Скоринкин.

Как мы оцифровали попугаев в платьях и скелетов-скайдайверов

— Многие IT-компании пытаются добиться гиперреалистичности видеоигр с помощью дополненной реальности или цифровых аватаров. В начале 90-х Мортал Комбат решил эту проблему гениально: оцифровал боевых персонажей с реальных актеров с помощью покадровой съёмки. Своими наблюдениями за тем, как изюминка легендарной видеоигры мешает продвижению серии в мире алгоритмов, делится социолог Константин Глазков.

Фаталити алгоритмов

— Незадолго до пандемии в Эрмитаже сняли пятичасовой фильм без склеек. Но в музее и раньше случались громкие съемки длинного безмонтажного кино: в 2002 году Александр Сокуров одним дублем снял фильм «Русский ковчег». Почему такие фильмы можно снимать только на цифровые камеры и в чем причина исключительной любви киношников к Эрмитажу — в новом посте Бориса Орехова.

Эрмитаж и безмонтажное кино

— Что общего между фильтрами для воды в России и зимбабвийским втулочным насосом? Социолог Константин Глазков рассказывает о том, чем японские картриджи отличаются от «обычных» и в чем секрет успеха фильтрации воды как технологии.

Не нужно знать, как устроен фильтр, чтобы пить чистую воду
Может ли Дарвин объяснить Конан Дойла и футуризм
В день рождения знаменитого английского натуралиста вспоминаем наш материал об эволюции в литературе.

В отличие от биологии, в филологии нет общепринятой теории эволюции литературы. Никто до конца не понимает, почему одни книги оказываются в центре внимания и становятся классикой, другие быстро забываются, а третьи так и остаются неизвестными.

Но есть те, кто пытается адаптировать теорию эволюции к анализу словесности. Рассказываем о двух подходах к объяснению эволюции литературы, один из которых придумали русские филологи еще в начале XX века.

Немного инсайтов:
• В отличие от природы, литература развивается только через скачки.
• На контрасте с теорией эволюции в литературе сильнейшим оказывается «слабейший» — тот, кто поначалу находится на периферии и не воспринимается опасным для литературных конкурентов.
• По мнению социолога литературы Франко Моретти, тексты канонизируют именно читатели, а не ученые.

https://sysblok.ru/philology/jevoljucija-literatury-mozhet-li-darvin-objasnit-konan-dojla-i-futurizm/
Как «писательский» талант влияет на карьеру депутата
Считаем KPI депутатов Госдумы и проверяем, попадают ли «эффективные» депутаты в рай или хотя бы в следующий созыв.

Шестой и седьмой созывы Государственной Думы прославились беспрецедентной активностью. Все больше депутатов становятся авторами новых законов — в седьмом созыве группа из 10+ депутатов выдвинула целых 713 принятых законов, а в пятом таких было всего 145. Эксперты объясняют это стремлением депутатов повысить свой рейтинг в партии и избраться на второй срок. Мы решили проверить, как это предположение бьется с реальностью.

В нашу выборку попали больше 1300 депутатов шестого и седьмого созыва из всех фракций. Кроме Правительства и Президента, самыми инициативными «писателями» оказались депутаты фракции «Единая Россия» — список возглавили Иванов Валерий Викторович, Водолацкий Виктор Петрович, Выборный Анатолий Борисович, Гаджиев Магомед Тажудинович, Гетта Антон Александрович. Их перу принадлежат самые резонансные законы: о поправке в Конституцию, о пенсионной реформе, о СМИ-иноагентах и об увеличении НДС.

По статистике, соавторство в большем количестве законов немного увеличивает шансы на переизбрание. Но несмотря на это, лидеры рейтинга не попали в восьмую Думы — в отличие от некоторых малоактивных коллег. Когда мы провели тест на выборке депутатов, ставших соавторами минимум 10 законопроектов, связь почти исчезла. Следовательно, в топе законотворцев большая или меньшая активность никак не повышает шансы на переход в новую Госдуму.

https://sysblok.ru/society/vydajushhiesja-pisateli-gosdumy-izuchaem-kpi-deputatov-s-pomoshhju-python/
Что такое геоданные
Раскладываем по полочкам географические объекты.

Мы заказываем такси и еду, строим маршруты по навигатору, отыскиваем нужные организации на картах — и все благодаря им.

Геоданные — это информация о местонахождении объектов, их точные координаты. С геоданными работает геоинформационная система (ГИС), которая похожа на слоёный пирог: каждый слой включает определенный тип объектов — реки, леса, дороги, города.

Существуют два типа представления геоданных: векторный и растровый. Векторный тип описывает объект — например, реку или дерево — с помощью геометрических фигур или математических формул. Растровый «‎покрывает» территорию сплошным слоем и хранит числовое значение: это может быть крутизна склона, высота над уровнем моря, тип растительности или экономические показатели. Чаще всего ГИС работает с обеими моделями.

Геоданные используют практически все. Например, городские администрации и ЖКХ применяют ГИС при планировании построек и для анализа всех жилищных коммуникаций, чтобы быстро устранить неполадки. С помощью геоданных бизнес выбирает выгодное местоположение своих офисов, а экологи могут предсказывать природные катаклизмы и содействовать их устранению.

https://sysblok.ru/glossary/chto-takoe-geodannye/
Стимул, правда, дурачок: визуализация текстов Гражданской Обороны
Вспоминаем творчество Егора Летова к 14-летию со дня его смерти

Даже если вы не знакомы с его песнями, в вашей жизни точно была компания, назойливо распевающая «Все идет по плану». А если нет, то всегда любопытно взглянуть, как менялось творчество популярной рок-группы на разломе российской государственности.

В нашем материале мы проанализировали около 200 текстов, автором которых был Егор Летов.

https://sysblok.ru/visual/novyj-mertvyj-horoshij-vizualizacija-tekstov-grazhdanskoj-oborony/
Пушкинский дом обновил корпус нарративной прозы XIX века
С ноября 2021 года пользователям доступна улучшенная версия датасета.

Составители корпуса из Лаборатории цифровых исследований литературы и фольклора ИРЛИ РАН унифицировали имена файлов, промаркировали конец каждого абзаца, привели тексты в соответствие с новой орфографией и внесли другие изменения.

Корпус нарративной прозы XIX века опубликован в декабре 2020 года в Репозитории открытых данных по русской литературе и фольклору. В датасет вошли романы и повести 1830—1900 годов, причем не только классические, но и малоизвестные в наши дни. Там же доступны метаданные: годы жизни и псевдонимы авторов произведений, сведения о первых публикациях и библиографическая информация о печатных изданиях, с которых были сделаны цифровые копии.

В репозитории можно найти не только «Корпус нарративной прозы XIX века», но и другие датасеты, например «Корпус “русской песни” 1800—1840-х гг.», «Корпус русской прозы для детей и юношества» или базу данных «Стилеметрические данные “Тихого Дона” и современной ему прозы».

Автор: Екатерина Горбатова
Что остается за кадром оцифрованной культуры?
Зачем нужна оцифровка музейных экспонатов, где посмотреть идеальную цифровую коллекцию и как решают вопрос толерантности в онлайн-музеях Европы

Научный сотрудник лаборатории «Digital Humanities» Инна Кижнер рассказала «Системному Блоку» о нюансах оцифровки и хитросплетениях культурных смыслов в цифровой среде.

Оказалось, что цифровые коллекции вроде Google Arts&Culture подвержены искажениям из-за того, что алгоритмы выбирают коллекции по принципу «где больше». К примеру, если NASA отправило в Google Arts&Culture около 160 тысяч изображений, а учреждения культуры Казахстана — меньше, то при поисковом запросе «Казахстан» мы увидим фотографии со встречи советских или российских космонавтов и американских астронавтов на Байконуре.

Оцифровка музейных объектов начинается с учета. Российские музеи обязаны оцифровать свои коллекции до 2026 года, но нехватка компетентных людей и техники снижает качество изображений и метаданных. В отличие от лаконичного российского Госкаталога, коллекция Metropolitan Museum of Art в Нью-Йорке содержит много изображений в хорошем качестве, четкие фильтры, а главное — текстовые описания, привязывающие объект к географии, времени и выставкам.

Смысл оцифрованных коллекций не только том, чтобы увидеть на экране музей, который мы не можем посетить. Оцифровка делает доступными контексты и создает иной уровень погружения в культуру. Например, человек может увидеть картинку и задаться вопросами: «Вот кружево, вот прическа, вот поза — а насколько давние эти явления? Когда и где они вошли в моду?»

Но даже если учреждения культуры стремятся создать удобные и быстрые цифровые коллекции, то бюрократическая система, неравные финансовые возможности и культурные традиции могут этому препятствовать. В этом смысле юг Европы менее открыт, чем север. Сказывается и региональное неравенство в рамках страны: например, в России в сфере оцифровки и онлайн-публикаций для библиотек лидируют Москва и Санкт-Петербург, хотя по количеству публикаций на собственных сайтах музеев северная столица уступает Дальнему Востоку.

https://sysblok.ru/interviews/kultura-v-cifrovom-site-chto-ostaetsja-za-kadrom/
Вышел интерактивный учебник по Python для гуманитарных исследований
Теперь его можно читать онлайн — вместе с графиками, кодом и ссылками на источники и датасеты.

В январе 2021 года Принстонский университет издал первое полное пособие по использованию Python в гуманитарных науках — «Humanities Data Analysis: Case Studies with Python». В отличие от привычных научных монографий, книга содержит подробный разбор кейсов и дает доступ к коду и датасетам — так что читатель сможет воспроизвести исследование.

Первая часть книги описывает основы: базовые понятия Python, парсинг (сбор и анализ) файлов разных форматов, обработку таблиц, векторизацию текстов и построение социальных сетей. Второй раздел рассказывает о методах статистического и стилометрического анализа, тематическом моделировании и методе построения исторических карт. Главы оканчиваются заданиями для самостоятельного выполнения.

Описанные в книге методы и инструменты задействуют в разных исследованиях: от изучения читательской аудитории и установления авторства прозы XII века до анализа кулинарных книг и судебных решений. Кейсами можно вдохновляться, а код — использовать для своих задач.

Источник: https://www.humanitiesdataanalysis.org/index.html

Автор: Руслан Родионов