Системный Блокъ
10.8K subscribers
241 photos
2 videos
1 file
845 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
Download Telegram
​​Разделить цену победы: большое исследование призыва в ВОВ от команды «Системного Блока»
#history #research

В истории Войны много неизвестных и спорных мест. К сожалению, до сих пор многие данные засекречены, ведутся споры о количестве погибших, многие до сих пор не знают, чем закончился путь их дедушки или отца. Мы предлагаем посмотреть на историю ВОВ через историю призыва и опираться не на единичные источники, а сразу на миллионы свидетельств.

Команда «Системного Блока» провела для вас собственное исследование — мы изучили 26 миллионов карточек военно-пересыльных пунктов, через которые солдаты направлялись на фронт. Сквозь призму призыва нам удается посмотреть на историю участия в войне отдельных республик и восстановить хронологию событий.

Исследование динамики призыва позволило выделить характерные портреты призыва в республиках и объединить схожие республики в группы. Призыв во многом схож в РСФСР, Казахстане и Киргизии. Совершенно по-другому выглядит призыв в республиках, которые были оккупированы в ходе войны — всю историю оккупации и освобождения можно видеть через графики призыва. В Грузинской, Азербайджанской и Армянской ССР активный призыв ведется до 1943 года, а для республик Средней Азии характерен особый вид призыва — трудовой. И все эти явления видны в данных.

Обработанные данные мы выложили в наш открытый репозиторий, они доступны исследователям. Мы выступаем за открытость всех общественно важных данных и материалов по Великой Отечественной войне и XX веку в целом.

Полный текст исследования и интерактивные визуализации по ссылке:
https://sysblok.ru/history/neizvestnyj-soldat/
​​Определяем дату написания картины онлайн
#knowhow #research

Когда цифровизация стала глобальным трендом, в открытом доступе появились тематические датасеты, которые состоят из десятков тысяч картин различных авторов и эпох. Работая с такими датасетами, можно генерировать дополнительные метаданные — в нашем случаем это возраст изображений, тем самым автоматизируя работу искусствоведов.

Возможность определять возраст или стиль изображений полезна не только искусствоведам и коллекционерам. С помощью этого инструмента можно изучать тенденции современного искусства и выявлять закономерности, которые позволяют понять, к стилю какой из эпох более всего склонен автор.

Задача и стратегии ее решения

Ключевая фигура в решении задачи — сверточная нейронная сеть для выделения признаков на изображениях. Рассматривались архитектуры ResNet18 и VGG-19, однако последняя дала лучшие результаты.

Если не углубляться в теоретические основы глубокого обучения, то сверточные сети можно описать как алгоритм последовательного сжатия изображений, который способен выделять их ключевые особенности на разных уровнях абстракции (подробнее можно почитать на хабре).

Примененив сверточную сеть с обрезанными полносвязными слоями, мы вычисляем матрицу Грама, а также применяем классификацию или регрессию. В нашем случае в роли модели классификатора выступает SVM.

Матрица Грама является специальным представлением изображения — это матрица попарных скалярных произведения численного значения пикселей. Её использование позволяет конвертировать преобразованную сверточной сетью картину в формат, удобный для определения стиля. Матрица Грама сглаживает пространственную структуру, позволяя получить больше информации о текстуре изображения, чем о присутствующих на ней конкретных объектах.

В итоге оказалось, что наилучший MSE даёт VGG-19, а лучшее значение F1-меры достигается той же сетью с батч-нормализацией. Использование F1 в данной задаче обусловлено отсутствием в выбранном датасете баланса классов, каждый из которых представлял собой временной промежуток в 50 лет. Применение этой метрики позволяет более объективно оценить качество моделей.

Результаты и их интерпретация

Использование матрицы Грама позволило почти в два раза улучшить качество моделей на представленном датасете. Для многих классов ошибочных классификаций совсем немного.

Однако использование информации о стиле для определения временного отрезка гарантированно работает только для эпохи премодерна, которой характерно последовательное совершенствование техник изобразительного искусства.

Наш небольшой эксперимент показал, что задача определения возраста картины может быть решена посредством использования методов искусственного интеллекта. Следующий этап — увеличение количества данных, усложнение модели, масштабирование задачи на XX и XXI века, а также увеличение количества временных промежутков.

Код проекта можно найти на github.

Модель работает онлайн — протестировать можно здесь.

https://sysblok.ru/knowhow/opredeljaem-datu-napisanija-kartiny-onlajn-bez-registracii-i-sms/

Дарья Петрова, Вадим Порватов, Валерий Покровский
Данные победы: подборка материалов «Системного Блока», посвященных исследованию Великой Отечественной войны
#best #research #visualisation

Каждый год перед 9 мая возрастает посещаемость сайтов ОБД «Мемориал», «Память народа» и «Подвиг народа». Это оцифрованные военные архивы с десятками миллионов записей об участниках Великой Отечественной — выживших или погибших на фронтах войны. В прошлом году «Системный Блокъ» поговорил с техническим руководителем этих проектов — Виктором Тумаркиным: https://sysblok.ru/interviews/my-vytaskivaem-ljudej-iz-nebytija/

У нас есть собственное исследование данных Великой Отечественной войны. В прошлом году мы обработали 26 млн карточек военно-пересыльных пунктов, с которых солдат отправляли на фронт, и таким образом посмотрели на историю ВОВ через историю призыва: https://sysblok.ru/history/neizvestnyj-soldat/

Теперь мы выпустили видеоверсию этого data-исследования: https://youtu.be/xJcPJ-QfE9A

Динамика призыва в годы войны в РСФСР

Также мы подготовили инфографику по нашему исследованию, прикрепляем ее ниже.

Самый большой подъем призыва ожидаемо совпадает с началом Великой Отечественной войны, он значительно превышает плановые призывы. Призыв начинается за несколько месяцев до июня, хотя плановый призыв должен был проходить ближе к осени. В РСФСР призывная кампания продолжалась до самого конца войны и ослабла только с июня 1945.

Четыре крупных пика связаны призывами на фронт новобранцев, родившихся в 1924, 1925, 1926 и 1927 году. Эти пики выделяются возрастным составом — они почти полностью состоят из молодежи.
​​Как речи президентов на 9 мая влияют на коллективную память
#linguistics #research #digitalmemory

Важный атрибут Дня Победы — речь президента Российской Федерации перед началом парада. Мы собрали все речи президентов, которые произносились в честь 9 мая с 2000 года, и раскрыли три сюжета, к которым власть прибегает в своих выступлениях: война, сакральное и современное.

Наш основной инструмент — бесплатная платформа Voyant Tools, которая может помочь узнать много нового про текст. Но сначала с помощью библиотек на Python мы лемматизировали наш корпус, то есть привели все слова к начальной форме.

Коллективная память — это память, которая конструируется какой-то группой. Эта память может накладываться на индивидуальные воспоминания, а может и трансформировать их, укладывая в свои рамки. Коллективную память формируют государственные и общественные институты, медиа, нарративы в речах, учебники истории, фильмы, школьные концерты и прочее.

Возвращаемся к данным: что показал анализ речей президентов

После загрузки текстов в Voyant Tools на платформе появились результаты обработки разных аспектов корпуса. Из всех результатов мы выбрали три сюжета.

Война и мир. Среди наиболее часто используемых слов «война» занимает второе место, тогда как «мир» только девятое. В речи 2019 года слово «мир» не употребляется вообще. Интересно, что в 2002, 2004 и в 2011 годах «мир» звучал чаще, чем война, но после такого уже не было.

Сейчас и сегодня. Слово «сегодня» находится на двенадцатом месте по встречаемости. И оно встречается не только в контексте «сегодня мы поздравляем». Почти в каждой речи есть блок, посвященный актуальным угрозам. Чаще всего это терроризм, с которым нужно бороться. Содержание этого блока меняется. Например, в 2008 году речь шла про недопустимость пересмотра границ и пренебрежения нормами международного права.

Память и сакрализация. Тему памяти о войне можно связать с «попытками переписать историю» и словами про знание настоящей правды. Разговор о священном — это способ вывести какие-то взгляды в сферу табуированного, оберегая свои ценности. Можно вспомнить разные законодательные инициативы и принятые законы против осквернения, переписывания истории, оскорбления и других действий, которые с точки зрения дискурса власти можно назвать кощунственными.

На гитхабе лежат оригинальные и уже лемматизированные речи, которые вы можете загрузить в Voyant Tools и самостоятельно исследовать другие сюжеты.

https://sysblok.ru/linguistics/nravstvennoe-pravo-i-nemerknushhaja-pravda-kak-rechi-prezidentov-na-9-maja-vlijajut-na-kollektivnuju-pamjat/

Мария Кнышева