Системный Блокъ
10.9K subscribers
270 photos
2 videos
1 file
946 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
Download Telegram
​Что случилось с самыми унылыми стихотворениями XIX века

Элегия — ключевой поэтический жанр «‎золотого века» русской поэзии. Но что происходило с элегией за 20 лет ее развития (с 1815 по 1835)? Ответить на этот вопрос нам может помочь корпус из 390 элегий, напечатанных в журналах начала 19 века.

Первое и самое простое, что можно сделать с таким жанрово-единообразным корпусом, — посмотреть, какие слова отличают его от поэзии вообще. Для этого можно сравнить наиболее частотные слова в элегиях и в поэтическом подкорпусе НКРЯ. Сравнение показывает, что среди первых 40 частотных слов в обоих корпусах элегии отличают слова «милый», «небо», «слеза» и «мечта». Если смотреть на сочетания из двух слов (биграммы), то для элегий характерны: «последний раз», «милый друг», «вся радость», «юные годы», «слезы лить», «сладкий сон».

Рассматривая эволюцию жанра элегии, мы в первую очередь обращаем внимание на развитие и изменение содержания. Метод тематического моделирования позволяет проанализировать развитие отдельных тем через распределение слов в текстах корпуса. За основу берется количество появлений отдельного слова *** в каждом стихотворении (например, для элегии Пушкина «Поедем, я готов…»: «поехать»: 2, «я»: 4, «готовый»: 3 и т.д.), составляется таблица со всеми словами. Далее алгоритм анализирует, какие слова встречаются друг с другом в каждом тексте, и на основании общего распределения в корпусе вычленяет в текстах темы.

Для корпуса элегий была построена такая тематическая модель из 12 тем. Заметно, что в текстах конца 1810-х — начала 1820-х годов больше, чем в другие периоды встречаются историческая тема (11), ключевые слова: «слава», «страна», «меч», «родина», «сын», «герой», «враг», «бой» и тема «поэта и поэзии» (10), ключевые слова: «бог», «сердце», «певец», «лира», «слава», «муза».

Интересно, что начиная с середины 1820-х годов все большую долю в корпусе занимает «любовная» тема (5), и все чаще встречаются слова: «я», «ты», «любовь», «душа», «друг», «она», «любить».

Тоня Мартыненко
Сегодня 1 сентября📚 И хотя не всем завтра предстоит снова отправиться в школу, день знаний — отличный повод научиться чему-нибудь новому. «Системный Блокъ» подготовил для вас подборку образовательных статей о русском языке, шахматах и учителях — в общем, о том, с чем у нас с детства ассоциируются школьные годы.

Как аннотация текстов связана с шахматами?
Как благодаря знаменитой игре можно не только повторить ход гроссмейстера Е2-Е4, но и определить лингвистическую сложность текста?

Помедленнее, я записываю
Речь грузчиков, субтитры, русский язык в иностранном исполнении и другие жемчужины коллекции самых необычных корпусов.

Не стыдно и весело: чем хороши языковые боты
Робот — друг человека? Рассказываем, как живут голосовые помощники для изучения языков и можно ли с ними подружиться.

Пощады не будет: учителей меняют на роботов
В продолжение предыдущей статьи «Системный Блокъ» исследует обратную сторону медали: может ли робот не просто стать лучшим другом человека, но и оставить его без работы (спойлер: искусственный интеллект не стоит недооценивать).

Дефенестрация? Не, не слышал!
Как алгоритмы помогают определить словарный запас человека и какую неочевидную выгоду сулит написание кандидатской.
Накануне войны: что можно увидеть в сети родства монархов Европы 1914 года

Историк Михаил Щегольков проанализировал международную обстановку последнего мирного месяца перед Первой мировой войной, изучив родственные связи европейских монархов с помощью сетевого анализа.

Узлами сети европейских монархов стали 21 монарх и 6 претендентов на престол, а толщина ребер означает количество общих предков либо общих потомков у двух человек.

Сетевой метод дает интересные результаты: например, на построенном графе становятся видно, что практически вся Европа делится на католиков и протестантов. Нидерланды оказываются единственной страной, связанной только с нейтральными странами, а Норвегия, Дания и Греция так тесно взаимодействуют между собой, потому что ими правили родные братья.

https://sysblok.ru/history/nakanune-vojny-chto-mozhno-uvidet-v-seti-rodstva-monarhov-evropy-1914-goda/
Чему учат в современной началке, и как корпус из учебников русского языка для начальной школы может помочь ответить на этот вопрос?

Подавляющее большинство заданий в корпусе учебников 1-4 классов представлено в форме императива, т.е. повелительного наклонения (запиши, подумайте и т.д.) С огромным отрывом лидирует предложение прочитать, далее следуют несколько форм заданий на письмо: от списывания с образца до написания собственных примеров.

Затем идут задания на поиск и различные виды обработки информации: Порадуйтесь и вы тому, что вас окружает в природе; «Попутешествуй» по картине.

Интересно проследить, способны ли формулировки заданий отражать учебную программу, разный набор тем в зависимости от класса. График ниже показывает частоту трех глаголов — произнести, образовать и спрягать в инструкциях к упражнениям с 1 по 4 класс. "Произносить" задания чаще всего нужно в 1-2 классах. В третьем классе появляется необходимость образовывать новые слова и предложения. Понятие глагольных спряжений вводится лишь в четвертом классе, что тоже явно отражено на графике.

Интересно, что в серии учебников под ред. Нечаевой мы столкнулись с разными заданиями для мальчиков и девочек — находка для гендерных исследователей! Но если вернуться к вопросу, чему же учат в начальной школе на уроках русского языка, можем с уверенностью сказать, что ЧИТАТЬ, ПИСАТЬ И СПИСЫВАТЬ, а потом уже всему остальному.

Антонина Лапошина
VR в образовании: от Древнего Египта до высадки на Луну

Дополненная, виртуальная и смешанная реальность в образовании — давно не фантастика. С каждым годом AR, VR и XR завоевывают новые позиции в школах, университетах и музеях. «Системный Блокъ» перевел рассказ эксперта Стива Бембери о лучших образовательных VR-новинках прошлого года:

1.Number Hunt (Vive/Rift/WMR)
В формате шутера вы мчитесь вокруг арен, населенных антропоморфизированными числами, стреляя в числовые NPC из пистолета, который может выполнять четыре математические операции (сложение, деление, вычитание, умножение). Это очень веселый и необычный подход к математике.

2. Nanome (Vive / Rift/WMR)
Nanome предоставляет пользователю возможность выбрать огромное количество химических веществ для экспериментов. Нанотехнологии представлены так, как если бы ученик был человеком-муравьем.

3. Nefertari: Journey to Eternity (HTC Vive)
Приложение позволяет гулять по гробнице Нефертити, слушая первоклассные исторические комментарии. А интерактивные точки знакомят учеников с историей, культурой и конструированием гробниц.

4. Becoming Homeless (HTC Vive)
приложение Becoming Homeless (Стать бездомным). Это короткий, но мощный опыт, позволяющий вам встать на место кого-то, кто оказался на улице. По мере того, как ваше положение ухудшается, вы испытываете суровые реалии жизни бездомного от первого лица.

5. Hold The World (Rift/WMR)
Удивительный виртуальный музей. Выбрав объект, о котором вы хотели бы больше узнать, вы можете сфокусироваться на его частях или углубиться в историю. Невероятно и захватывающе в равной мере.

6. Google Tour Creator (Web)
Tour Creator — это веб-инструмент, позволяющий создавать интерактивные виртуальные туры с несколькими сценами. Это безусловно самый доступный инструмент для преподавателей, которые ищут способы интегрировать 360о туры в учебную программу.

7. Apollo 11 VR HD — (Vive/Rift/WMR)
Виртуальный полет на луну (переиздание приложения 2016 года) в более высоком разрешении и с новыми демонстрационными режимами.

8. Anne Frank House VR (Rift/Go/Gear)
Созданное при поддержке музея Анны Франк, приложение детально воссоздает Secret Annex — печально известное тайное убежище, где Анна Франк и её семья скрывались во время Второй Мировой войны.

9. The Kremer Collection VR Museum
Это виртуальная галерея содержит более 70 работ классиков старой школы, таких как Рембрандт, воссозданных в потрясающих деталях, позволяющих вам приблизиться к искусству как никогда раньше. Каждая сопровождается не только текстовым, но и аудио описанием.

10. HoloLab Champions (Vive/Rift)
Химическое приложение в котором ученики вступают в соревнование, где нужно завершить эксперимент быстро, но безопасно, чтобы стать чемпионом и разблокировать разные достижения.
Как власти в Гонконге используют технологии, чтобы найти протестующих, а протестующие — чтобы спрятаться от властей

В Гонконге не прекращаются протесты, которые начались в июне с мирных шествий против нового закона об экстрадиции. И полиция, и протестующие используют современные технологии, чтобы обойти соперника. Какие именно устройства и приложения участвуют в битве?

Протестующие

1. Лазеры

Чтобы скрыться от системы распознавания лиц, манифестанты пытались использовать лазерные указки, которыми засвечивали камеры. Однако ход оказался неэффективным: попасть в небольшие камеры наблюдения, которые к тому же высоко закреплены, весьма непросто. Так что лазеры часто направляют в глаза полицейским, которым, в отличие от бездушных железок, это навредить может.

2. Социальные сети

Для координирования движения участники протестов создают сообщества и анонимные чаты в Facebook и Telegram. В них они обсуждают места проведения акций, способы защиты от контрмер полиции, дальнейшие действия. Существуют даже группы, в которых участники обсуждают последующие встречи для сбора мусора и уборки после маршей.

3. Мессенджеры

Однако даже анонимные чаты не могут обеспечить безопасность участников. Так, Telegram предположил, что за DDOS-атаками на сервис стоит китайское правительство. Многие протестующие используют Air-drop как средство связи — чтобы быстро обмениваться информацией о местоположении полицейских нарядов и времени следующей встречи.

4. Никакого WeChat и банковских карт

Большинство протестующих очень внимательно относятся к электронным следам. Чтобы избежать поимки, они не используют банковские карты, электронные проездные в метро, многоразовые sim-карты. Только старые мобильники, только незаписывающие устройства.

Государство

1. Система опознавания лиц

Система опознавания лиц дает свои результаты. Как оказалось, медицинской маски и зонтика недостаточно, чтобы ее обмануть. Система отслеживает даже телодвижения и комплекцию.

2. Социальные сети

Китай подозревают в обрушении серверов Telegram. Кроме этого Twitter и Facebook провели внутренние расследования и выяснили, что власти Китая использовали некоторые аккаунты этих социальных сетей в своих интересах (фабрика троллей, made in China). Эти страницы обвиняли участников протестов в насилии и незаконном проведении акций.

Эвелина Григорьян
Тест Тьюринга для киберпоэтов

Тест Тьюринга был создан английским математиком и пионером компьютерных наук Аланом Тьюрингом. Основная задача теста — определить, может ли машина мыслить. Согласно теории учёного, если компьютер может в текстовом режиме вести беседу так, чтобы человек не догадался о природе своего собеседника, у машины есть интеллект.

В 2013 году Бенджамин Лэйрд и Оскар Шварц решили использовать идеи теста Тьюринга, чтобы выяснить, может ли компьютер писать стихи наравне с человеком.

Слова, фразы и конструкции, составляющие язык, — это строительный материал. Алгоритм может взять любой язык, использовать корпус стихотворений конкретного поэта или, может быть, целого стихотворного жанра и затем научиться писать собственные стихи.

Участникам эксперимента «Bot or not» предлагалось выбрать из двух стихотворений «человеческое». Согласно теории Тьюринга, компьютер проходит тест на интеллект, если ему удаётся обмануть человека в 30% случаев. В базе данных программы Бенджамина Лэйрда и Оскара Шварца есть «компьютерные» стихотворения, убедившие 65% читателей, что они были написаны людьми.

https://sysblok.ru/philology/test-tjuringa-dlja-kiberpojetov/
Знакомый почерк: цифровые технологии для юристов

Любой текст, написанный от руки, имеет много особенностей: форма, размер и расположение букв, сила, с которой ручка отпечаталась на бумаге. Эти и другие признаки выделяют юристы, когда проводят почерковедческую экспертизу. Главная задача экспертизы — установление автора рукописи. Можно ли использовать для этого цифровые технологии?

Точный подход к анализу почерка — количественный или графометрический основан на выделении количественных признаков и их статистическом анализе. Для этого применяются компьютерные технологии. Одна из них — инструмент GRAPHJ. Он работает с отсканированными документами и может использоваться на разных этапах экспертизы.

Как работает GRAPHJ?

GRAPHJ распознает строки текста. По умолчанию, текстовая строка делится на три области — нижнюю, среднюю и верхнюю. Сначала в документе находятся все средние области.

Отсканированная картинка разбивается на пиксели и бинаризируется (переводится в черно-белый вариант): все пиксели темнее определенной границы получают значение 0 (черный), а остальные — 1 (белый). Картинка делится на h линий (h — высота картинки), и из нее создается гистограмма, каждая точка которой — число нулей в определенной линии.

Границы слов определяются по разрывам на гистограмме. Затем распознаются отдельные символы и подсчитываются их вхождения. Пользователь сам выделяет в тексте образец символа, а программа ищет совпадения.

Биометрия и технологии

Еще один точный подход — биометрический, основанный на измерении биологических и поведенческих характеристик человека. Перед экспертизой почерка открылись новые горизонты с появлением цифровой биометрической подписи. Существуют различные приложения для ее создания, мы расскажем про GrafoCerta (итал. «достоверная подпись») — разработку итальянской компании Namirial.

У цифровых подписей много преимуществ: они не требуют печати бумаги, могут быть использованы повторно. Для их создания даже не обязательно иметь специальный планшет: у GrafoCerta есть мобильные приложения для Windows, Android и IOS! Гарантируется безопасность и юридическая сила цифровой подписи: приложение фиксирует биометрические характеристики человека.

Преимущество приложения в том, что оно фиксирует скорость письма и силу давления на ручку — важнейшие признаки, обусловенные моторной памятью человека, которые рука «помнит» сама.

Дарья Балуева
Оцифровать Французскую революцию: Парламентские архивы

Заниматься историей Французской революции сегодня значительно проще, чем тридцать лет назад. Документы, которые некогда были доступны лишь в читальном зале Национальных архивов, становятся общественным достоянием.

Один из самых значительных примеров этого процесса — оцифровка Парламентских архивов (Archives parlementaires).

Первые восемьдесят два тома были оцифрованы в рамках сотрудничества Университетских библиотек Стэнфорда с Национальной библиотекой Франции. А в 2014 году в Париже Институт Французской революции и Библиотека Сорбонны начали превращать текст архивов в полноценную базу данных.

Теперь к этому огромному массиву текста (80 000 страниц в оригинальном издании) стало возможно, например, применять методы вычислительной лингвистики.

https://sysblok.ru/history/ocifrovat-francuzskuju-revoljuciju-parlamentskie-arhivy/
Картинка вместо тысячи слов: 10 визуализаций, нужных каждому ученому

Большинство людей предпочитают визуализацию данных большим таблицам чисел. Поэтому именно визуализация часто знакомит широкую аудиторию с результатами исследования в понятной для нее форме.

В этой статье рассматриваем 10 основных способов визуализации данных:

Гистограммы — способ графического представления табличных данных или числовой переменной. Диапазон значений переменной разбивается на несколько равных интервалов, которые откладываются на горизонтальной оси. По вертикальной оси отражается, сколько значений попадает в интервал: чем больше значений, тем выше столбик гистограммы.

Столбчатые/Круговые диаграммы — аналог гистограмм для работы с категориальной переменной, которая принимает фиксированное количество значений: низкий, нормальный или высокий; да или нет. (Чтобы выбрать между столбчатой и круговой диаграммой иногда стоит создать и ту, и другую, и посмотреть, какая будет лучше восприниматься).

Точечные/Линейные диаграммы — графики, которые отображают данные в двух измерениях в прямоугольной системе координат и позволяют своими глазами увидеть взаимосвязи между двумя переменными и изучить их.

Временные ряды — разновидность точечной диаграммы, у которой по оси X всегда откладывается время. Время непрерывно, поэтому диаграмма получается линейной. Отлично подходят для исследования значения переменной в определенный период времени.

Карты отношений — диаграммы для визуализации взаимосвязи между разными категориями и группами данных, на основе которых можно сформулировать ряд гипотез.

Тепловые карты — способ отображения дополнительного измерения на 2D графике. Вся таблица или карта закрашивается цветами разных оттенков, а интенсивность цвета может выделять частотность или выявлять тенденции и зоны повышенного интереса.

Географические карты — инструмент для визуализации географических данных (долготы и широты, почтовых индексов или данных аэропортов и т.д.) А дополнительные инструменты, например цветовой спектр и ранжирование, седлают визуализацию еще нагляднее.

3-D (трехмерные) диаграммы — интерактивный график с дополнительным измерением позволяет получить более полное представление о данных. Добавив к точечной диаграмме третье измерение, пользователь может вращать диаграмму, изменять ее масштаб и даже устанавливать настройки ее представления.

Многомерные диаграммы — удобная визуализация для данных с большим колличеством параметров. Многомерные диаграммы позволят визуализировать взаимовлияние четырех, пяти или более функций одновременно.

Облако слов (или облако тегов) — график для визуализации текстового корпуса, позволяющий увидеть наиболее характерную лексику. Например, с помощью облака можно наглядно провизуализировать используемые выражения в негативных отзывах на фильмы/товары. И не забудьте лемматизировать и отфильтровать стоп-слова («и», «в», «на» и т.д.) для более качественного результата!

https://sysblok.ru/visual/10-vizualizacij-nuzhnyh-kazhdomu-uchenomu/
​Чат-бот подбирает парфюм

Описать запах сложнее, чем, например, цвет или звук. Обычно аромат связывают с его источником: пахнет лимоном, сиренью; и реже — с абстрактными образами. Но как найти подходящий аромат, если не хватает слов для обозначения своих ольфакторных предпочтений?

Специалистка по рекомендательным системам Клэр Лонго (Claire Longo) создала бота, который подбирает парфюм по текстовому описанию ситуации или образа.

Эта работа была вдохновлена богатым тезаурусом нишевой парфюмерии — редкими, эксклюзивными ароматами от небольших брендов. Их подробные и поэтичные описания помогают выстроить семантический образ и найти нечто подобное тому или иному парфюмерному образцу.

Как это работает?

Данные для бота собраны с популярного сайта нишевой парфюмерии. Каждый документ с информацией о парфюме имеет два векторных представления, построенных с помощью латентно-семантического анализа (LSA) и Doc2Vec. Использование двух разных векторов помогает учитывать как конкретные описания («запах ванили»), так и более абстрактные («запах утреннего леса»).

Когда пользователь вводит свой запрос, бот определяет эмоциональную окрашенность каждого предложения и затем группирует их: позитивные и нейтральные — с одной стороны, негативные — с другой. Затем с помощью усредненного косинусного расстояния в двух векторных пространствах бот ищет парфюм, чьё описание наиболее близко к положительным и нейтральным предложениям из запроса пользователя. Если описание парфюма ближе к негативно окрашенным предложениям, он исключается из рекомендаций. В итоге бот предлагает на выбор 5 самых подходящих ароматов. (Код проекта опубликован в открытом доступе)

«Системный Блокъ», например, узнал чем пахнет Digital Humanities

Анастасия Бодрова
​​Оцифровка писем Толстого: от Ленина до телеграм-канала

Сохранение наследия Льва Толстого началось еще при жизни писателя и активно продолжилось в советские годы. Ленин много писал о Толстом, называл его «зеркалом русской революции» и «матерым человечищем», так что у официальных советских идеологов не оставалось иного выбора: канонизировать писателя надо было с максимальными почестями, несмотря на очевидные расхождения идей Толстого и практики большевизма.

В 1928-м, в год столетия Толстого, начался выпуск полного собрания сочинений писателя. Эта работа продолжалась до 1958 года, за 30 лет были напечатаны 90 томов — в сумме это 46820 страниц.

В компьютерную эпоху встал вопрос о цифровом сохранении наследия Толстого. Проект оказался многоступенчатым и продолжается до сих пор. Основные вехи в истории оцифровки:

— В 2006 году издание, ставшее к тому моменту библиографической редкостью, было отсканировано музеем Толстого и Российской государственной библиотекой.
— В 2014 году в рамках проекта Толстой в один клик музей Толстого и компания ABBYY организовали распознавание и вычитку полного собрания сочинений в 90 томах. Силами тысяч волонтеров книги были распознаны и выложены в открытый доступ в виде электронных текстов. Каждая страница 90-томника после автоматического распознавания была вычитана не менее чем тремя волонтерами и проверена модератором.
— В рамках проекта Толстой.Digital готовится семантическое издание Толстого — издание, в котором распознаны и помечены не только слова, но и значения, факты, даты, цитаты, связи, контексты. Издание использует мировой стандарт оцифровки текстового культурного наследия TEI.

С опорой на результаты работы Толстой.Digital и при поддержке музея Толстого мы запустили телеграм-канал From:Толстой, начав с публикации писем Толстого в модном-молодежном оформлении — с эмоджи и хэштегами. Пласт писем является не самым известным широкой публике фрагментом издания, но важен для понимания фигуры писателя: Толстой был значимым инфлюенсером своего времени и оказывал влияние на многих современников.

Присоединяйтесь: @FromTolstoy

В качестве бонуса подписчикам мы будем выкладывать в канал сканы рукописных оригиналов писем и прочие редкости :)
Музей оцифрованный: как выжить в век промышленного производства медианарративов

Музей, как публичная социальная институция, сегодня активно внедряется в пространство цифровых технологий. В России ключевой игрок оцифровки музейных коллекций и предметов — Государственный каталог Музейного Фонда Российской Федерации.

И с одной стороны, сложившийся механизм оцифровки худо-бедно работает — на конец августа 2019 г. в Гос.каталог занесено около 14,5 миллионов экспонатов. Но на этом плюсы заканчиваются; дальше начинаются сложности: процесс оцифровки — это дополнительная нагрузка на работников музеев, трудоемкая и дорогостоящая.

Но главная проблема, которая уведет нас к рассмотрению зарубежного опыта оцифровки культурного наследия и его виртуального использования — практически полное отсутствие в Гос.каталоге инструментов для анализа размещаемых данных.

Примером «умного» внедрения цифровых технологий в музейное пространство выступает опыт «Музея дизайна Купер-Хьюит». Если мы соберемся его посетить, то на входе вместе с билетом нам дадут интерактивную ручку. По ходу знакомства с экспозицией мы прикасаемся ей к интересующим нас предметам, тем самым скачивая в свой личный кабинет нужные сведения о них.

Параллельно с этим сведения о нашем выборе собираются сотрудниками музея и анализируются с целью более глубокого понимания интересов посетителей. Вот здесь можно прочитать текст аналитика музея — о том, какие данные они получают напрямую от ручек посетителей, как их используют и почему это полезно для музея.

Одним из первых европейских музеев, который выложил большую часть своей коллекции (около 460 000 экспонатов) в открытый доступ, стал в 2013 г. амстердамский музей Rijksmuseum. А в 2017 г. Метрополитен-музей (The Metropolitan Museum of Art; США, Нью-Йорк) открыл виртуальный доступ к своей коллекции (около 375 000 экспонатов).

В конце 2018 г. Метрополитен-музей начал сотрудничество с Microsoft и Массачусетским технологическим институтом с целью дальнейшего совершенствования механизмов интеграции музейных коллекций в виртуальное пространство.

На сегодняшний день, кроме описанных выше случаев, также оцифрованы коллекции таких музеев как The National Gallery of Art (США), The Walters Art Museum (США), The Museum of Modern Art (США), The Art Insttitute of Chicago (США), Statens Museum for Kunst (Дания), Designmuseo (Финляндия), и далее, далее, далее…

И если зарубежное музейное сообщество с помощью «цифры» открывает свои коллекции для всех желающих, создавая совершенно новые практики восприятия, исследования и модели научных публикаций об искусстве, то у наших музейщиков такой опыт еще только впереди.

Александр Симонов
Пусти пожить болельщика: чемпионат в Москве и рынок Airbnb

Крупные спортивные события, например чемпионаты мира по футболу или олимпиады, создают кратковременный, но очень мощный приток туристов. Существующей гостиничной инфраструктуры может не хватить на всех желающих, однако нельзя просто взять и открыть больше гостиниц.

Мы задались вопросом: как развивался рынок краткосрочной аренды в Москве в период Чемпионата мира по футболу летом 2018 года. Сервис Airbnb появился в России лишь в 2012, тогда как в мире он функционирует с 2008 года, то есть развитие феномена краткосрочной аренды жилья в Москве только начиналось и Чемпионат мира мог стать катализатором интенсивного развития сервиса.

При статистическом анализе становится видно, что в период проведения Чемпионата мира предложение Airbnb выросло приблизительно в 3 раза. Взрывной рост наблюдался в непосредственной близости от мест проведения соревнований и в типичных периферийных районах.

https://sysblok.ru/urban/pusti-pozhit-bolelshhika-chempionat-v-moskve-i-rynok-airbnb/
Соцсети русской драмы. Основы сетевого анализа

«Системный Блокъ» уже не раз писал о сетевом анализе взаимосвязей между людьми, литературными героями и другими объектами реального и вымышленного мира. Теперь мы рассказываем про пять основных мер центральности узла.

Степень (Degree)

Степень вершины отражает количество связей этой вершины. Например, в сети на основе литературного произведения степень узла покажет, со сколькими персонажами взаимодействует герой на протяжении действия или главы.

Взвешенная степень (Weighted degree, strength)

Взвешенная степень — это расширенная версия обычной степени, учитывающая не только количество соседних вершин, но и веса рёбер. Например, в соцсетях пьес веса показывают сколько раз персонажи общаются друг с другом в течение всего произведения.

Степень близости (Closeness centrality)

Эта характеристика показывает, насколько легко попасть из данной вершины в другие узлы сети. В пьесах такая метрика может означать, напрямую ли взаимодействуют с этим персонажем или нет.

Степень посредничества (Betweenness centrality)

Степень посредничества показывает, насколько связующим является узел. В терминах пьесы можно сказать, что она определяет вероятность того, что два персонажа связаны через этого персонажа-посредника.

Степень влиятельности (Eigenvector centrality)

Степень влиятельности показывает важность персонажа, учитывая влиятельность других персонажей, с которыми он взаимодействует. В пьесах эта метрика позволяет разделить действующих лиц на «центральных» и «периферийных».

https://sysblok.ru/philology/socseti-russkoj-dramy-chast-i-osnovy-setevogo-analiza/
Я/МЫ НКРЯ: что происходит с национальным корпусом

8 сентября ряд функций Национального корпуса русского языка (НКРЯ) стал недоступен: об этом в фейсбуке сообщила профессор русистики Университета Тромсе Лора Янда. В этом же посте Лора высказала опасение, что проект может быть окончательно закрыт 1 января 2020 года. В сообществе ученых-лингвистов пост вызвал тревогу; стали появляться призывы спасти корпус.

Так закрывают или нет?

В комментариях к посту Лоры Янды директор по распространению технологий Яндекса Григорий Бакунов заявил, что компания не намерена закрывать проект. Разработчики опубликовали обращение к пользователям, где объяснили ошибки переходом корпуса на новую технологию поиска.

Разгорелась дискуссия между Иваном Бегтиным и Григорием Бакуновым. По мнению Ивана, данные и исходный код проекта должны стать открытыми. В ответ на это представитель Яндекса заявил, что выложить код в open source сейчас невозможно, поскольку проект содержит большое количество внутренних инструментов, открывать которые Яндекс не готов.

Наконец, через две с половиной недели появился комментарий от самого НКРЯ, основной посыл которого — корпус вне опасности.

Почему национальный академический проект вообще связан с коммерческой компанией?

Корпус стал доступен для широкого пользователя с 29 апреля 2004 года, но его открытию предшествовали годы серьезной подготовки. У истоков НКРЯ стояли В.А. Плунгян, Д.В. Сичинава, М.А. Даниэль, И.С.Красильщик, С.К.Ландо, С.А.Шаров, Е.В. Рахилина и многие другие. А программно-техническую и финансовую поддержку НКРЯ оказала компания Яндекс.

Яндекс поддерживает ресурс, которым пользуются тысячи исследователей в России и за рубежом уже 15 лет. Участие крупнейшей российской IT-компании — без сомнения, мощная поддержка, но даже ее недостаточно, если появляются подобные проблемы. Национальный проект нуждается в охране и финансировании, чтобы развиваться дальше; остальным игрокам IT-рынка стоит присоединиться к сохранению важного ресурса.

Но все-таки коммерческие и академические проекты существуют в разных мирах: всегда остается опасность, что поддержка станет экономически невыгодной и будет прекращена. Поэтому управление такими ресурсами должно быть в руках сообщества — людей, которые лучше всего понимают их научную ценность и не измеряют ее в коммерческих KPI. В 2019 году это не просто «круто» — это очевидный путь развития.

https://sysblok.ru/society/ja-my-nkrja-chto-proishodit-s-nacionalnym-korpusom/
​Языки музыки

Музыка состоит из множества параметров, которые можно отобразить письменными средствами: высота звука, его продолжительность, громкость, тембр и другие. И хотя нотную запись нельзя в полной мере назвать языком программирования, тем не менее в ней содержатся управляющие структуры, такие как повторения или опциональные окончания.

В первой части рассказываем о том, почему запись музыки — это нетривиальная задача, способная расширить возможности компьютерных наук. Оказывается, при создании цифровых языков разметки для записи музыки приходится учитывать множество параметров. Ведь музыка чаще всего состоит из нескольких голосов, звучащих одновременно в гармоническом или полифоническом сочетании, а традиционные компьютерные архитектуры и языки программирования, напротив, являются последовательными.

Во второй части говорим о принципиальных отличиях музыки от других видов данных и об особенностях музыкальной компьютерной разметки. Например, о категории времени, которая важна для музыкальных произведений ничуть не меньше чем содержание. И о том, как разные языки ищут для выражения особенных музыкальных категорий разные компьютерные средства: Music V имеет отдельные подразделы — «партитура» и «оркестр», а Max MSP — разную семантику для управления аудиосигналом и обработки изображений.
Авторский стиль, его распознание и перенос

Авторский стиль тяжело определить формально — это целый комплекс деталей, которые заметны человеческому глазу, но могут ускользнуть от компьютера. Указать на характерный выбор слов, конструкций, моделей легко, но как рассказать алгоритму про метафоры или научить его распознавать другие тонкие материи?

Один из вариантов обучения машины стилистическому копированию основывается на статистическом распределении величин, присутствующих во всех текстах. Так, при помощи средней длины слова, количества знаков препинания или уникальных слов можно создать текст в стилистике Оксимирона с правдоподобной грамматикой и лексикой. А при помощи рекуррентной нейросети записать целый альбом «Нейронной обороны».

https://sysblok.ru/nlp/avtorskij-stil-ego-raspoznanie-i-perenos/
Нейросеть-предатель: алгоритм обучили выявлять тексты-подделки

Алгоритмы искусственного интеллекта позволяют генерировать текст достаточно убедительный для того, чтобы обмануть обычного человека. Для этого они используют языковые модели, на основе которых компьютер может научиться предсказывать следующее слово в заданном контексте.

Опасность этой технологии заключается в том, что она открывает большие возможности для поточного создания фейковых новостей, отзывов или аккаунтов в социальных сетях. К счастью, алгоритмы ИИ теперь могут и распознавать фейковый текст.

Исследователи Гарвардского университета и лаборатории MIT-IBM Watson AI Lab на основе открытого OpenAI кода разработали инструмент для распознавания текста, сгенерированного с помощью искусственного интеллекта — (the Giant Language Model Test Room, GLTR).

GLTR анализирует текст с точки зрения вероятности появления одних слов после других и для визуализации работы алгоритма подсвечивает их разными цветами. Так, статистически наиболее вероятные слова (топ-10) подсвечиваются зеленым; менее вероятные — желтым (100) и красным (1000); наименее — фиолетовым.

Так, при анализе статьи о предсказуемости результата CRISPR редактирования, опубликованной в журнале «Nature», инструмент выдает значительно большее количество красных и фиолетовых слов, что является маркером текста, написанного человеком.

«Наша цель — создать системы для сотрудничества человека и искусственного интеллекта», — говорит аспирант Себастьян Германн, один из разработчиков GLTR. А протестировать систему распознавания автоматически сгенерированных текстов можно здесь.

Екатерина Смирнова
Чем фрейдовский банан отличается от огурца: большие данные в психологии

Для большинства не является секретом, что многие компании собирают данные о своих клиентах и используют их для создания таргетированной рекламы. Но большие данные могут изучать не только маркетологи, но и психологи. Большие данные, например, помогут понять, почему люди часто не до конца откровенны даже в анонимных тестах и опросах.

Примеры использования Big Data в психологии приводит Сет Стивенс-Давидовиц в книге «Все лгут. Поисковики, Big Data и Интернет знают о вас всё».

Поисковик знает лучше

Первый любопытный кейс — сексуальная ориентация. В Америке количество мужчин, открыто заявляющих о своей гомосексуальности, сильно различается в зависимости от штата: в Род-Айленде живет больше гомосексуалов, чем в Миссисипи. Исследователь изучил аккаунты респондентов в Фейсбуке и выяснил, что внутренняя миграция действительно объясняет некоторый дисбаланс в распределении. Однако данные о поисках порно стабильны: 5 процентов запросов приходится на гомосексуальную порнографию повсеместно.

Сны по Фрейду


Другой интересный пример из книги — сны. Фрейд утверждал, что форма бананов и огурцов имеет глубокий смысл, особенно в сновидениях. Использовав данные пользователей, которые записывали содержание своих снов, исследователь нашел в них все описания еды. Первый вывод — продукты снятся чаще, если их есть. Второй — огурец на седьмом месте среди овощей, появляющихся в снах, и на седьмом месте среди покупаемых овощей вообще. Кажется, банан — это все-таки просто банан.

Психология и большие данные: что дальше

Сегодня большие данные используются для анализа поведения людей. Они позволяют составить более точный психологический портрет человека. С помощью компьютерного зрения возможно отслеживать эмоции людей и их действия в конкретной ситуации; нейросеть, распознающая человеческую речь, может диагностировать психоз или нервный срыв, что дает еще больше данных для психологических и социальных исследований.

Однако большие данные не заменяют традиционных методов психологии. Их анализ дает возможности узнать особенности среды, но не может рассказать о поведении конкретного человека. Совокупное использование этих методов поможет увидеть ситуацию с нескольких точек зрения и понять взаимосвязь окружения людей, их мнения и поведения.

Ксения Михайлова