Системный Блокъ
10.9K subscribers
270 photos
2 videos
1 file
945 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
Download Telegram
Как искусственные нейроны помогают управлять живыми

Специалисты по нейросетям из Массачусетского технологического института создали и протестировали на животных компьютерные модели, имитирующие работу зрительной коры мозга.

Модели обучались на более чем 1 миллионе изображений: на вход подавалось размеченная картинка с указанием самого важного объекта на ней, а модель по разметке училась распознавать, что на изображении - стул или самолет. Так ученые определили, что в ответ на одно и то же изображение искусственные нейроны генерируют сигналы, схожие с сигналами нейронов зрительной коры.

А можно ли с помощью этих моделей контролировать нейронную активность коры головного мозга? Для ответа на этот вопрос ученые сопоставили активность нейронов модели и нейронов животных в ответ на изображения и составили карту поля V4 зрительной коры, которое отвечает за восприятие цветов. Каждому нейрону соответствовал узел компьютерной модели. Но поскольку в зоне V4 миллионы нейронов, карты были составлены для групп из 5-40 нейронов.

Затем ученые попытались использовать предсказания полученной модели, чтобы управлять активностью нейронов зрительной коры мозга. Первой целью было создать изображение, на которое нейрон отреагировал бы сильнее, чем на обычную картинку. Эти искусственные картинки были созданы моделями и не были похожи ни на какие реальные объекты.

В результате, на эти изображения нейроны отреагировали в среднем на 40% активнее. Это первый случай подобного управления активностью нейронов. Кроме того, ученым удалось создать изображение, которое повысило активность целевого нейрона, снизив при этом реакцию соседних.

Модели также использовали, чтобы предсказать реакцию нейронов мозга на искусственные изображения. Точность предсказаний составила около 54%. Сейчас ученые стремятся приблизить этот показатель к точности предсказаний моделей на реальных изображениях, которая доходит до 90%.

В будущем управление нейронами мозга может помочь в лечении расстройств настроения, например депрессии. Сейчас ученые расширяют свою модель до височной доли, в которой есть миндалина, участвующая в эмоциональных реакциях.

Ксения Михайлова
Может ли машина видеть так же, как человек?

Для компьютера найти и описать движение объекта на видео — значит многократно найти этот объект на отдельных неподвижных кадрах. Но чтобы не рассматривать огромное полотно пикселей каждого изображения, нужно как-то сократить количество данных, на которые обращает внимание наша машина. Человечество придумало для этого несколько интересных уловок:

Можно представить человеческое лицо как созвездие, и за счет этого отлеживать движение лицевых точек.

Можно опознавать лица при помощи регрессии — вручную отмечая лицевые точки на каждой фотографии и определяя выражение лица.

Можно при помощи локального бинарного шаблона закодировать более темные и более яркие пиксели, чтобы определять лицо через их изменение.

А можно вообще использовать алгоритм Виолы-Джонса, преобразуя изображения в интегральный формат и определяя в какой части изображения лица точно нет.

https://sysblok.ru/knowhow/mozhet-li-mashina-videt-tak-zhe-kak-chelovek/
Если у вас мурашки от музыки — у вас необычный мозг

Некоторые люди описывают удовольствие от прослушивания музыки как сложное взаимодействие психологических и физиологических состояний: взволнованность, легкое покалывание на коже головы и шеи, мурашки. Но подобные ощущения от музыки испытывают не все, а у феномена есть биологическое обоснование.

Связь между сенсорными ощущениями и эстетическим удовольствием до конца не изучена, однако известно, что подобные состояния проявляются в нейрональной активности зон обработки эмоций и вознаграждения (прилежащее ядро, передняя островковая доля, медиальная префронтальная кора) и изменениях в ритме сердцебиения, электрической активности кожи.

Чтобы понять, что именно позволяет получать широкий спектр психологических и физиологических ощущений от прослушивания музыки, Matthew Sachs провел исследование, в котором с помощью опросника Aesthetic Experience Scale in Music (AES-M) выделил две группы людей: с сильными и слабыми эмоциональными реакциями на музыку. В ходе эксперимента обе группы прослушивали несколько любимых музыкальных произведений, а исследователи записывали их физиологические показатели: кожно-гальваническую реакцию и ритм сердцебиения.

Для того чтобы выявить структурные различия в головном мозге двух групп, исследователи исользовали диффузионно-тензорную МРТ — методику, измеряющую диффузию молекул воды в биологических тканях. Диффузионно-тензорная МРТ позволяет получить информацию о строении и расположении пучков нервных волокон и о соединениях между различными зонами головного мозга.

Результаты исследования показали, что люди, которые испытывают сильное эмоциональное возбуждение при прослушивании любимой музыки, имеют иную структуру головного мозга. В их мозге больше тканей, которые соединяют слуховую кору с зонами обработки эмоций. Это означает, что данные зоны — верхняя височная извилина и передняя островковая доля вместе с медиальной префронтальной корой — сообщаются между собой лучше. Объем белого вещества коррелирует со склонностью людей испытывать сильные психологические и физиологические реакции в ответ на музыку: чем больше соединений между перечисленными зонами, тем чаще у человека возникают мурашки при прослушивании любимой музыки.

Карина Акопян
Нейронные сети в машинном переводе: статус-кво

За последние 30 лет системы машинного перевода прошли несколько этапов развития. До начала 90-х годов прошлого века почти все системы опирались на определенные наборы правил, которые, конечно, не могли полностью исключать неточности и ошибки.

Когда ученые из компании IBM предложили статистический метод, опирающийся на примеры уже переведенных людьми предложений, многие увидели в этом подходе будущее. А в начале двухтысячных системы машинного перевода были кардинально улучшены за счет перевода отдельных фраз.

Наконец, в 2014–2016 годах в машинном переводе произошла, можно сказать, революция. Системы, основанные на нейросетях, очень быстро захватили не только умы ученых, но и стали применяться в коммерческих приложениях.

Что сейчас происходит в нейронном машинном переводе и каково состояние дел в отрасли?
Публикуем рассказ ведущего разработчика систем машинного обучения

https://sysblok.ru/nlp/nejronnye-seti-v-mashinnom-perevode-status-kvo/
Дружелюбные города
Какие места располагают к связям с незнакомцами?

Сегодняшний мир — мир городов, и с каждым годом их роль в экономике, общественной жизни и культуре только возрастает. Одна из главных черт, присущих городской жизни − высокая плотность, в том числе социальных связей и взаимодействия: здесь происходят судьбоносные встречи, завязываются дружеские и деловые отношения.

Новые технологии обработки данных позволили исследователям из Senseable Сity Lab Массачусетского университета изучить пространственные закономерности, характеризующие взаимодействие и общение людей в Сингапуре. Как люди проводят рабочее и свободное время? Как в разное время суток используется городское пространство? Это ключевые вопросы не только для науки, но и для многих практик городского планирования.

В исследовании использовалась база данных крупнейшего мобильного оператора Сингапура, собранная в течение 50 дней в 2011 году. С помощью изучения «пространственного следа» 2,1 млн пользователей мобильных телефонов, была рассчитана вероятность нахождения каждого человека в определенном районе города в разное время.

Для проведения исследования были введены два показателя:

1. Bonding capability — рассчитывается как средняя вероятность того, что два друга будут находиться в одном месте в определенное время. Чем выше индекс, тем большей способностью «свести вместе» друзей обладает место в городе.
2. Bridging capability — средняя вероятность того, что в данном месте встретятся два незнакомца. Чем выше индекс, тем больше потенциал места для образования так называемых «слабых» связей: доказано, что именно из таких связей чаще всего рождаются деловые отношения.

В дневное время рабочие дни места с высокой bridging capability были в основном сконцентрированы в даунтауне Сингапура, где находится большинство госорганизаций и бизнескорпораций. Высокую bonding capability показали крупнейшие университеты города — Национальный университет Сингапура или Технологический университет.

В выходные различия сглаживаются — обе метрики распределены похоже. Большинство мест с высокой способностью «объединять» как друзей, так и «незнакомцев», были привязаны к торговым центрам и моллам.

Источник: Friendly Cities (здесь можно подробнее прочитать о методике сбора и обработки информации в этом исследовании)

Ирина Зябрева
Филолог-тютчевед, писатель Роман Лейбов рассказал Системному Блоку о прошлом рунета, будущем digital humanities и о том, почему ЖЖ - жив.

«Не всякому филологу нужны точные методы: литературной историей и критикой спокойно можно заниматься без этого <…> но я бы предпочел, чтобы точные методы были — хотя бы потому, что математика очень хорошо дисциплинирует»

https://sysblok.ru/interviews/pod-zontikom-dh/
О чем говорят крысы?

Крысы — весьма болтливые социальные животные, но грызуны отчасти общаются в ультразвуке, недоступном нашему слуху. Молодые ученые школы медицины Вашингтонского университета разработали специальное программное обеспечение под названием «DeepSqueak», которое помогает понять, что же говорят крысы.

Как это работает?

DeepSqueak — это сверточные нейронные сети архитектуры Faster R-CNN и интерфейс, понятный даже пользователю, не разбирающемуся в анализе ультразвуковой речи. Сначала программа преобразовывает оригинал записи ультразвуковых писков в привычном формате аудиофайлов, в спектрограммы. На вход нейронной сети подается датасет из спектрограмм.

В первую очередь происходит детекция для отделения шумов от ультразвуков. Затем последние кластеризуются для отслеживания, сравнения и анализа паттернов писков. С помощью интерфейса можно задать пользовательские настройки для кластеризации спектрограмм ультразвуков.

В итоге мы получаем инструмент, который позволяет понять, о чем говорят крысы, и описать их эмоциональное и физическое состояние в ходе экспериментов.
DeepSqueak позволяет не только измерить сердцебиение или уровень кортизола в крови крысы, но и узнать, как она себя чувствует. Таким образом мы получаем более полную картину взаимоотношений в стае, влияния лекарств и наркотиков на организм. И, конечно, чувствуем себя немного Золушкой, разговаривающей с маленькими зверюшками.

Источники:
‘Deep Squeak’ Helps Researchers Decode Rodent Chatter
Deep Learning for Rat Squeaks, Machine Learning for Intent Signals

Ксения Михайлова
​Что такое кросс-языковая морфология и зачем она нужна?

Основная идея кросс-языковой морфологии в том, что если языки — родственные (из одной семьи), то их структурные сходства прослеживаются на разных уровнях. Лингвистам, и особенно компьютерным, это свойство межъязыковой схожести очень интересно: оно позволяет моделировать и переносить процессы одного языка на другой.

Естественные человеческие языки различаются степенью изученности и доступным объемом данных. Например, английский и турецкий хорошо описаны и изучены. А вот каталанский, фарерский или крымскотатарский уступают им в ресурсах. Такие языки называются малоресурсными (МРЯ, low-resourced, under-resourced) и с ними сложнее работать: например, мы не можем построить хорошую векторную модель для работы с семантикой слов — она требует наличия большого корпуса текстов. Еще сложнее будет с машинным переводом, ведь там нужен уже двуязычный параллельный корпус. Что же делать, когда данных для классических алгоритмов и методов типа «обучить на корпусе Х » недостаточно?

Одним из решений является перенос на малоресурсный язык статистических моделей, построенных на данных большого родственного языка. Например, чтобы создать морфологический анализатор (инструмент, представляющий начальную форму или парадигму изменения слова) для крымскотатарского, можно создать модель и обучить ее на данных для турецкого, казахского и др. Такие методы применяются как при создании морфоанализатора как конечного продукта, так и на  подготовительных этапах, в любом NLP-инструменте.

Мы с моими коллегами из НИУ ВШЭ Владиславом Михайловым, Олегом Сериковым и Лоренцо Този использовали свойства кросс-языковой морфологии при создании универсального морфоанализатора для малоресурсных языков, где написание классического анализатора под каждый язык не представляется возможным из-за малого количества данных. И даже написали статью о результатах.

На данный момент алгоритм умеет лемматизировать (приводить начальную форму слова) и проводить морфологический анализ для слов малоресурсных языков. Пока он работает на языках агглютинатинативного типа (как турецкий и крымскотатарский) и романского (как испанский и сардинский), в дальнейшем можно будет добавить славянские языки!

Таким образом, кросс-языковая морфология позволяет решать многие прикладные задачи компьютерной лингвистики для языков, на которых нет большого объема данных для машинного обучения. Эта возможность сильно облегчает жизнь исследователям, ведь теперь у них есть инструменты автоматического анализа не только для крупных языков, но и для их младших братьев.

Анастасия Хорошева
Где в России учат на цифрового гуманитария?

Куда можно зайти с дипломом филолога (историка, культуролога, мемолога...) — и выйти с навыками программирования, анализа и визуализации данных, веб-разработки, с опытом работы в междисциплинарной исследовательской команде? «Системный Блокъ» рассказывает про российские магистерские программы в области Digital Humanities. Приемная кампания в самом разгаре!

1. «Цифровые методы в гуманитарных науках», НИУ ВШЭ, Москва. 

Программа от DH-центра Вышки. Здесь учат программировать, анализировать и визуализировать данные, применять методы из компьютерной лингвистики/NLP к сложным гуманитарным объектам. Студенты осваивают популярные в современных Digital Humanities подходы вроде сетевого анализа, GIS-ов или стилометрии.

У магистратуры есть лингво-филологический уклон, но не жесткий — историки и культурологи себя тоже найдут. Не потеряются и программисты: Вышка хорошо умеет объединять гуманитариев и технарей в совместные команды. Проектная работа в режиме научных стартапов — одна из «фишек» магистратуры в Вышке. 
Группа в Vk

2. Анализ культурных данных и визуализация/ Data, Culture and Visualization, ИТМО, Санкт-Петербург

Англоязычная программа от лаборатории DH Lab в ИТМО. Здесь тоже есть и программирование, и анализ данных, и сети с GIS-ами, и, конечно, визуализация. Внутри магистратуры три трека на выбор: 
— трек для гуманитариев — с введением в работу с данными и практикой постановки задач IT-специалистам
— трек для аналитиков культуры (в нём поровну гуманитарных и технических навыков)
— трек по машинному обучению — для технарей, желающих применить себя в гуманитарных областях и прикоснуться к прекрасному. 

У команды, которая делает эту магистратуру, есть крутой проект по созданию цифровой культурной карты Санкт-Петербурга — там можно будет узнать, куда ходил обедать Чайковский и где гулял Пушкин. Еще один плюс программы — компьютерные спецы из ИТМО под боком.

3. «Гуманитарная информатика» и «Цифровые технологии в социогуманитарных практиках», ТГУ, Томск. 

Две «сестринские» программы от Лаборатории гуманитарных проблем информатики ТГУ. «Гуманитарная информатика» —более гуманитарно-философская, здесь есть курсы по философии искусственного интеллекта, цифровой культуре и т.п. Прикладные навыки тоже дают — учат разработке пользовательских интерфейсов, анализу данных, азам 3D-графики. Вторая программа, «Цифровые технологии в социогуманитарных практиках», рассчитана на технарей. В учебном плане много технических дисциплин: программирования, баз данных, и компьютерной графики, основной фокус — разработка и дизайн интерфейсов.
Группа в Vk

4. Прикладная информатика в области искусств и гуманитарных наук, СФУ, Красноярск.

Программу делает Кафедра информационных технологий в креативных и культурных индустриях СФУ — известные специалисты по музейной оцифровке и сохранению культурного наследия в электронной форме. Здесь учат техникам оцифровки и визуализации музейных экспонатов (например, могут научить 3D-моделированию) и прочему digital preservation. Есть курсы по математическому моделированию и проектированию информационных систем. 

5. Историческая информатика, МГУ им. Ломоносова, Москва

В отличие от Digital History, историческая информатика не считает себя частью Digital Humanities и не стремится к междисциплинарности. Вот и в этой магистратуре от Кафедры исторической информатики МГУ занимаются серьезной академической наукой, не выходя за рамки истории. Если вам интересно математическое моделирование исторических процессов или, к примеру, применение статистических методов в экономической истории — вам сюда. Не-историков берут, мы знаем успешные примеры. 
8 главных прорывов в нейросетевом NLP

Как компьютерная лингвистика подсела на нейронные сети и диплернинг, какие подходы сегодня в тренде и почему они так хороши? 8 важнейших достижений, около 15 лет плодотворной работы ученых:

2001 — Нейронные языковые модели

Тренировочная площадка для применения RNN. Многие недавние достижения в области обработки естественного языка сводятся к одному из видов языкового моделирования.

2008 — Многозадачное обучение

Совместное использование одних и тех же векторных представлений слов позволяет моделям взаимодействовать и обмениваться некоторыми «базовыми» представлениями об элементах текстов.

2013 — Word embeddings (векторное представление слов)

Word2vec модели позволяют провести массовое обучение векторных представлений слов и определить отношения и смыслы, стоящие за этими словами. (и даже за пределами уровня слова)

2013 — Нейронные сети для обработки естественного языка

Рекуррентные, сверточные и рекурсивные нейронные сети как три разных продуктивных способа работы с текстом.

2014 — Модели sequence-to-sequence (seq2seq)

Преобразование одной последовательности в другую с использованием нейронной сети. Благодаря своей гибкости, в настоящее время эта структура является ключевой для решения задач генерации естественного языка.

2015 — Внимание

Внимание позволило моделям нейронного машинного перевода превзойти классические системы перевода, основанные на переводе фраз.

2015 — Нейронные сети с ассоциативной памятью

Модели с ассоциативной памятью применяются в решении задач, для которых полезно хранить информацию в течение длительного времени, например, в языковом моделировании или чтении с пониманием прочитанного.

2018 — Предварительно обученные языковые модели

Предварительно обученные языковые модели доказали возможность обучения на очень ограниченном количестве данных. Они особенно полезны при работе с малоресурсными языками.

https://sysblok.ru/nlp/8-glavnyh-proryvov-v-nejrosetevom-nlp/
Translate-баттл: могут ли онлайн-переводчики передавать стиль текста?

Когда мы получаем онлайн-перевод нужного нам текста, то сразу можем сказать, хороший он или плохой. Но экспертам и разработчикам онлайн-сервисов машинного перевода нужны более четкие критерии оценки, так они смогут увидеть, в каких аспектах тот или иной сервис «слабоват» и что можно сделать, чтобы его улучшить.

В современном переводоведении машинный перевод можно оценить ручным и автоматическим способами. Ручная шкала оценивания содержит от пяти до одного баллов:

1 балл - если грамматика и стиль предложения не требуют постредактирования.
5 баллов - если в тексте большое количество грамматических, лексических и стилистических ошибок, а смысл предложения с трудом понимается даже после внимательного изучения.

Метрики автоматической оценки сейчас тоже достаточно популярны, однако их существенный недостаток заключается в том, что при такой оценке не ставится задача понимания семантики и стилистики текста, а это может привести к весьма неточному конечному результату.

О результатах сравнительного анализа переводов Яндекс Переводчика, Google Translate и других онлайн-сервисов в нашей полной статье:

https://sysblok.ru/nlp/translate-battl-mogut-li-onlajn-perevodchiki-peredavat-stil-teksta/
​Художники дружат: почему знаменитости знамениты

В 2012 году в Музее Современного Искусства MoMA в Нью-Йорке прошла выставка, посвященная зарождению абстракции. Кураторы всячески подчеркивали, что художники, представленные в МоМА, оказывали друг на друга сильное влияние, а в первом зале находилась схема, изображающая отношения художников в зависимости от степени их взаимодействия.

На куратора выставки во многом повлиял курс лекций Пола Ингрэма, профессора Колумбийской школы бизнеса и старшего научного сотрудника института Chazen. Его курс был посвящен использованию кураторами своих профессиональных связей для достижения успеха.Сам же Ингрэм использовали результаты, полученные на выставке, для изучения роли, которую творчество и социальные связи сыграли для художников в зависимости от уровня их известности.

Ингрэм, вместе с коллегой Митали Банерджи, обратились к базе данных Google, записали количество упоминаний каждого художника между 1910 и 1925 годами, проанализировали их социальные круги и приняли во внимание информацию об их национальности, поле, возрасте и месте жительства, а также о средствах массовой информации, которые они использовали, и художественных школах, к которым принадлежали. А чтобы определить оригинальность работ художников, использовалось машинное обучение и учитывалось мнение четырех историков искусств.

В то время как прошлые исследования полагали, что существует связь между креативностью и популярностью, Ингрэм и Банерджи, напротив, обнаружили, что такая корреляция отсутствует. Обнаружилось, что художники с большей и более разнообразной сетью знакомых вероятнее будут известны, независимо от оригинальности их работ. В частности, самым большим залогом славы для художника оказывается сеть его контактов из других стран.

Что же касается показателей креативности, они обнаружили, что ни оценки, полученные с помощью машинного обучения, ни экспертные мнения искусствоведов не были достаточными показателями популярности художника. А о том, как анализ данных предсказывает успех художника мы рассказывали тут.

Михаил Совин
​Cибирские пожары из космоса

Лесные пожары в Сибири - одна из самых обсуждаемых проблем последнего времени грозящая серьезными экологическими последствиями. Cреди способов мониторинга пожаров есть и космическая съемка. В 1999 году NASA по программе MODIS запустила спутник Terra, предназначенный для мелкомасштабного (то есть покрывающего большие площади в низком разрешении) мониторинга земной поверхности, и уже в течении 20 лет съемка с этого спутника используется, в том числе, и для мониторинга пожаров.

Это возможно при помощи данных с датчика VIIRS, позволяющего снимать Землю в инфракрасном диапазоне, особенно чувствительном к температурным аномалиям. Вспомните тепловизоры, которые так же улавливают инфракрасное излучение объектов и позволяют наблюдать разницу в их температуре — датчик VIIRS и является таким тепловизором для всей планеты.

На основе данных со спутника было создано несколько сервисов, позволяющих отслеживать аномалии температуры в почти реальном времени — например, сервис «Карта пожаров» компании СКАНЭКС и «Пожары FIRMS» - дополнительный набор данных со спутников NASA

https://sysblok.ru/urban/cibirskie-pozhary-iz-kosmosa/
Данные нас связали: где и как применяют статью 20.2 КоАП РФ

«Системный Блокъ» открывает серию материалов по анализу применения статьи 20.2 КоАП — той самой, которую сегодня массово используют против задержанных на митингах и шествиях. В первом посте рассказываем о том, какие данные по 20.2 собрал правозащитный проект ОВД-Инфо и как мы нашли в этих данных два нестандартных случая применения статьи.

27 июля, 3 августа и 10 августа в Москве прошли массовые акции против ограничения допуска кандидатов на выборы в Мосгордуму. По данным ОВД-Инфо, суммарно на трех акциях полиция задержала более 2600 человек (некоторых — повторно). Это далеко не первые митинги в России, которые завершились массовыми задержаниями участников. Также в автозаках оказалось немало случайных прохожих, неудачно вышедших из метро или на пробежку.

За задержаниями следуют административные дела по статье 20.2 КоАП — с недавних пор это одно из главных средств борьбы с уличной активностью граждан. Оправдаться по таким делам достаточно сложно: за 2018 год по стране было обжаловано всего 301 дело — меньше 7 % от общего числа.

Откуда данные?

Недавно ОВД-Инфо опубликовало датасет по применению статьи 20.2 за 15 лет (с начала 2004 по конец 2018 года). Датасет сопровождается тепловой картой, которая позволяет увидеть динамику и географию митингующего населения. Статистика по статье 20.2 с разбиением на регионы была получена ОВД-Инфо по запросу в Судебном департаменте при Верховном суде РФ.

Когда регионы обгоняют Москву

По ряду абсолютных показателей за 2018 год (сколько всего поступило дел, сколько из них рассмотрено, общее число осужденных и др.) Москва и Санкт-Петербург лидируют с большим отрывом. Но если посмотреть относительные цифры — количество дел на 100 тысяч жителей региона, то картина меняется на глазах.

На фоне других ярко-красной точкой выделяется Кабардино-Балкария. Тут в 2018 году на 100 тысяч населения было составлено больше 17 дел, это максимальный показатель по стране. Что же там случилось?

Конный поход под суд

Для многих публичные волнения на Кавказе в 2018 году ассоциируются с переделом границ «где-то в районе Чечни». И действительно, конфликт вокруг уточнения чечено-ингушской границы сопровождался задержаниями. Но именно в Кабардино-Балкарии произошел совершенно уникальный прецедент: значительная часть митингующих по сути не митинговала! Это становится понятным, если изучить сводки региональных СМИ и открытые данные ГАС «Правосудие».

Поводом к задержанию стал конный поход в честь 310-летия Канжальской битвы. Формально суды наказывали участников за блокировку дорог. Суть же проблемы в том, что факт Канжальской битвы и ее значимость по-разному оценивается кабардинцами и балкарцами. Это и стало предметом конфликта. И здесь уже подключились административные рычаги воздействия на национальные интересы и толкование истории народов.

Баптисты на Камчатке тоже «митингуют»

Другой пример — Камчатский край. Тут в 2018 году было чуть больше 9 дел на 100 тысяч населения, что, кстати, тоже опережает Москву. На Камчатке статья 20.2 стала средством борьбы с баптистами. Они конечно не выдвигали политических требований, а якобы вели публичную проповедь, раздавая листовки прохожим. Получается, что с точки зрения закона не все листовки «одинаково полезны». Например, вряд ли кому-то придет в голову задерживать двух студентов, раздающих флаеры на концерт, а потом судить их по 20.2 как «нарушителей порядка проведения массового мероприятия».

За цифрами всегда стоят люди

Данные хорошо, а их анализ — еще лучше. Здорово видеть аналитику и данные, представленные ОВД-Инфо, но нам хочется большего — видеть за цифрами людей и настоящие причины их задержаний. План максимум – понять, каким инструментом становится сегодня состав 20.2 КоАП и не превращается ли он в универсальный «швейцарский ножик», которым хоть колбасу нарезай, хоть вино открывай (т.е. хоть баптистов прижимай, хоть межнациональные конфликты модерируй, хоть гражданских активистов запугивай).
Машины, корабли, посевы: что можно посчитать на снимках с орбиты?

Данные дистанционного зондирования Земли (ДЗЗ) или космические снимки — именно так называется то, что мы видим каждый раз, когда переключаемся в режим «Спутник» в Яндекс.Картах или Google Maps. Дешифрирование космических снимков и данных ДЗЗ начало развиваться с того самого момента, когда из космоса была сделана первая фотография Земли, но именно с появлением машинного обучения и нейросетей, распознавание объектов во многом удалось автоматизировать.

Теперь стало чрезвычайно легко посчитать, например, машины на парковках торговых центров, чтобы оценить оборот и загруженность моллов в определенные часы. Также алгоритмы распознавания неплохо работают для кораблей — можно осуществлять мониторинг объемов и путей морских перевозок, незаконного вылова рыбы, работы верфей. Такие технологии чрезвычайно важны и для гуманитарных организаций — для более точных оценок численности населения в тех или иных районах, транспортной доступности, последствий стихийных бедствий или катастроф.

https://sysblok.ru/urban/sputnik-v-nebe-nejroset-na-zemle/
​​Подборка статей Блока по цифровой филологии

Уже больше года «Системный Блокъ» рассказывает о технологической революции в гуманитарных науках. Из этих статей вы узнаете, как во вселенную слов и смыслов приходит IT, какое отношение имеют стихи Пушкина к Терминатору, кто громче всех кричит в «Идиоте» Достоевского, а также из чего сделаны песни «ГрОба» и других проектов Егора Летова.

📕 Что такое кросс-языковая морфология и зачем она нужна
В статье рассказывается, как технологии помогают изучать редкие языки и детально разобраться в сходствах и различиях экзотических диалектов.

🚀 Пушкин, терминатор и звездолет
Если по ночам вы не можете заснуть, потому что никак не вспоминается одна пушкинская цитата, советуем обратить внимание на статью о поисковике, работающему по принципу семантических векторов.

📔 Персональный склерозник: от альбома XVII века до цифровых тетрадей
Разбираемся в игре Google с текстом и как интернет стал нашей главной записной книжкой.

🎶 Жутко громко, запредельно тихо: звуки в романах
Каким образом создается звуковое пространство текста, и можно ли проанализировать музыку художественного произведения.

📝 Новый, мертвый, хороший: визуализация текстов «Гражданской Обороны»
Из каких слов и метафор состоят песни Егора Летова — кажется, все идет по плану.

💻 Зачем нужны гуманитарии в эпоху машинного обучения?
Из статьи вы узнаете, почему тандем физиков и лириков не только сохранился на фотографиях из Политехнического музея, но и стал жизненной необходимостью.
Нейросеть расшифровала древний язык

Ручная расшифровка древних надписей — процесс долгий и трудоёмкий. Например, знаменитое линейное письмо Б, при помощи которого писали на острове Крит в XV-XIII вв. до н.э., известно западным исследователям с конца XIX века. Однако на расшифровку и прочтение текстов ушло 67 лет — и это несмотря на то, что язык критских книжников был одной из архаичных форм древнегреческого языка, хорошо известного ученым.

В эпоху Big Data можно попытаться ускорить процесс расшифровки, поручив его искусственному интеллекту. Именно этому посвятила своё исследование команда из Массачусетского технологического института и исследовательского подразделения Google — Google Brain.

В 2010 году одна из соавторок исследования, Регина Барзилай, работала над программой для расшифровки древних надписей. Материалом исследования тогда послужил угаритский — мёртвый язык семитской группы, распространённый в Сирии примерно в то же время, что и линейное письмо Б на Крите. Угаритский известен среди специалистов по древним языкам тем, как быстро он был расшифрован: первые надписи открыли в 1929 году, а в 1931 ученые уже объявили о полной расшифровке.

Программа, созданная Региной Барзилай была основана на порождающей Байесовской модели и повторяла процессы, характерные для ручной расшифровки: сначала сопоставлялись родственные буквы в иврите и угаритском, затем — морфемы, в конце — когнаты, т.е. похожие друг на друга слова общего происхождения. Программа показала неплохие результаты: она верно сопоставляла 29 из 30 букв и 60% когнатов.

В новой программе Барзилай и ее коллеги попытались решить более сложную задачу и сопоставить разные виды письма: линейное письмо Б было силлабическим, а греческое письмо — консонантно-вокалическое. При этом ученые намеревались повысить точность работы алгоритма.

В основе программы — нейросеть типа sequence-to-sequence, т.е. и на входе, и на выходе есть некоторая последовательность элементов. Архитектура стандартная: сначала нейросеть-энкодер обрабатывает входные данные, преобразуя их в числа, а затем нейросеть-декодер генерирует ответ. Алгоритм, который исследователи назвали NeuroCipher, сопоставляет когнаты по знакам, причем его работа обусловлена набором закономерностей: к примеру, родственные знаки в когнатах должны идти в одинаковом порядке и иметь одинаковые контексты.

Алгоритм протестировали на трёх наборах когнатов: для угаритского и иврита, для линейного письма Б и греческого алфавита и контрольном наборе для поиска когнатов в родственных романских языках. Результаты получились значительно лучше по сравнению с исследованием 2010 года: NeuroCipher правильно сопоставил 65.9% угаритских слов их когнатами в иврите, 67.3% слов на линейном Б с когнатами, записанными греческим письмом, и 91.6% когнатов в романских языках.

Сейчас авторы исследования продолжают улучшать показатели NeuroCipher и учат алгоритм сопоставлять не только когнаты. А несколько научных изданий уже задумались, не станет ли эта нейросеть ключом к расшифровке языков, на которых пока не удалось прочитать ни одной надписи, главным образом, линейного письма А. Вряд ли расшифровать линейное письмо А удастся в ближайшее время, но исследование MIT и Google Brain — впечатляющий шаг в эту сторону.

Дарья Оверникова
Очень большой... датасет: как порноиндустрия подсела на анализ данных

Просмотр порно — это довольно интимный процесс, в детали которого мы обычно не посвящаем всех вокруг. Однако сегодня порносайты отслеживают каждое наше действие: они знают, что мы любим смотреть, на каких моментах ставим видео на паузу, а на какие моменты перематываем. За простой и легальный доступ к всевозможному контенту для взрослых приходится платить данными.

Например, MindGeek — холдинг, которому принадлежит множество порносайтов и порностудий, в том числе Pornhub. В холдинге работают более 1000 технических специалистов, многие из которых заняты сбором и интерпретацией пользовательских данных. А результаты анализа MindGeek использует для настройки таргетированной рекламы.

Таким образом, порнотьюбы зарабатывают деньги как и социальные сети типа ВКонтакте или Facebook. Более того, они не только продают рекламу, но и, опираясь на данные, создают контент с высоким ER (Engagement Rate — оценка вовлечения пользователей), чтобы пользователи проводили еще больше времени на сайте, а значит — генерировали еще больше данных.

Мы знаем, о чем ты мечтаешь

Недавнее исследование Нью-Йоркского университета показывает как скрупулезно MindGeek подходит к удовлетворению пользовательских вкусов: в сценарии для порновидео указана одежда актеров, её цвет и стиль, а жирным шрифтом выделены важные детали, например, «Девушка 1 и девушка 2 остаются в одежде во время секса, парень 3 раздет».

Видео на сайтах типа Pornhub часто длятся меньше 20 минут. Среднестатистический пользователь проводит на сайте около 10 минут и за это время он обычно переключается между несколькими видео. Это позволяет собрать огромное количество данных с каждого пользователя. При этом производство порнороликов обходится дешевле, чем, например, производство сериалов или фильмов на Netflix, поэтому MindGeek может быстро подстроиться к новым трендам. И тренды в порно меняются с той же скоростью, что и тренды в новостях.

Данные об этих трендах выкладываются на сайте Pornhub Insights. Его главный хит — Year in Review — определяет новостную секс-повестку как минимум на месяц после публикации отчета. Социальные сети и СМИ активно обсуждают странные фантазии и фетиши пользователей, сексуальные предпочтения миллениалов и приносят огромное количество трафика обратно на Pornhub.

Sex Tech

Порнокомпании постоянно берут на вооружение новые технологии, чтобы быть готовыми к будущим пользовательским запросам. Например, YouPorn использовал нейросети для предсказания самых популярных поисковых запросов в 2018 году — первое место пророчилось Т’чалле и Шури, брату и сестре из фильма «Черная пантера» (к слову о табуированных темах). Также сайт ввел поиск по Emoji, т.к. все больше пользователей смотрят порно на мобильных устройствах.

Порно всегда было областью, в которой быстро приживались новые технологии. Оно также способствовало их массовому распространению. Вот несколько ярких примеров: VHS, мгновенные сообщения, интернет-магазины, стриминг. Хотя порноиндустрия не создала эти инновации, она их популяризировала и помогла им развиться. Так, VR активнее всего используется игровой и порноиндустрией. Ведь новые технологии позволяют собрать еще больше данных.

Технологии, в свою очередь, помогают порноиндустрии выглядеть, как это ни парадоксально, более человечно. Современные IT-гиганты сегодня не могут запросто игнорировать социальные проблемы, начиная от гендерного равенства и заканчивая безопасностью данных. Если порнокомпания хочет стоять с ними в одном ряду, ей необходимо учитывать эти правила и уметь реагировать на общественные вопросы, которые и сейчас довольно часто возникают к индустрии порно.

Мария Федотова
Word2Vec: покажи мне свой контекст, и я скажу, кто ты

Технология Word2Vec работает с большим текстовым корпусом и присваивает каждому слову уникальный набор чисел — семантический вектор. Вся идея векторов основана на дистрибутивной гипотезе, по которой смысл слова заключается не в наборе его собственных звуков и букв, а в том, среди каких слов оно чаще всего встречается. То есть между элементами его возможных контекстов, отсюда и название — дистрибутивная гипотеза.

Но в любом большом корпусе количество уникальных слов часто переваливает за сотни тысяч, и рассчитывать семантические вектора для каждого из них совсем не просто. Решение для этой проблемы предложил ученый из Чехии Томаш Миколов. Он придумал две нейросетевые архитектуры: CBOW и Skip-Gram.

Skip-Gram тренирует и обучает нейросеть чтобы запомнить веса нейронов (которые в нашем случае как раз и станут семантическими векторами). Skip-Gram много раз заставляет нейросеть предсказать, какие слова вероятнее всего встретить рядом с «абажуром». Она много раз ошибется и смотрит на то, какие вектора должны были получиться. В конце концов методом проб и ошибок алгоритм понемногу корректирует изначальные случайные значения и подбирает те самые веса, на которые нужно умножать вектор абажура, чтобы получить вектора правильных слов. А потом приходит человек, забирает веса и говорит, что это — семантический вектор абажура.

https://sysblok.ru/knowhow/word2vec-pokazhi-mne-svoj-kontekst-i-ja-skazhu-kto-ty/
Йоханн-Маттис Лист — исторический лингвист и программист-самоучка, применяющий в своих исследованиях цифровые методы. В интервью Системному Блоку учёный рассказал:

— как количественные методы популяризировали генеалогические деревья в лингвистике и раскрывают секреты праязыков.
— как начать применять компьютерные методы в исследованиях, не имея технического образования.
— что продвинутые технологии не заберут работу у гуманитариев. Точно не в ближайшем будущем.
— что филолог и инженер могут работать вместе, но им нужно понять друг друга.
— что лингвистика и биология близки, но не сильно.
— что ученые многого не знают, и это нормально.
— как лингвистический программный пакет LingPy автоматически распознает родственные слова на разных языках.
— как ученый справляется с неудачами в работе с помощью... жонглирования.

https://sysblok.ru/interviews/obedinit-klassicheskih-filologov-i-specialistov-po-cifre/