Системный Блокъ
10.7K subscribers
241 photos
2 videos
1 file
854 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
Download Telegram
​​Как работают нейросети: подборка постов с пошаговыми разборами
#survey

Разбираем сложные технологии глубокого обучения, чтобы они становились понятны каждому.

Как работает нейросеть

Рассказываем, как нейросеть учится на своих ошибках и как она в случае неудачи платит по счетам. Если ранее вы пытались изучить вопрос самостоятельно, скорее всего, натыкались на сложные статьи с кучей терминов и оборотов. Мы объясняем базовые принципы работы нейросети простым языком.

https://sysblok.ru/knowhow/kak-rabotaet-neuroset/

Как работает градиентный спуск

Самое главное в обучении нейросетей — процесс уменьшения ошибки. Он в современных нейросетях основан на градиентном спуске. Градиентный спуск — это способ поиска точек минимума или максимума в сложных функциях. В конечном счете все упирается в производные — но посложнее, чем в школе.

https://sysblok.ru/knowhow/razbiraem-nejroseti-po-chastjam-kak-rabotaet-gradientnyj-spusk/

Как работает свертка в нейросетях

Мы привыкли, что в ВК, в Фейсбуке или Инстаграме можно за пару секунд наложить фильтр на изображение: размыть его, подправить цвет, яркость, контрастность, добавить какие-то пятна. В основе этих фильтров лежат те же принципы, что и в основе сверточных нейросетей — главного алгоритма для задач распознавания картинок, символов и прочего «компьютерного зрения». Рассказываем, как работает свертка.

https://sysblok.ru/knowhow/kak-rabotajut-filtry-v-instagrame/

Как посмотреть на мир глазами нейросетей

Еще один материал про компьютерное зрение. Здесь мы рассказываем, как свертки из картинок проходят через нейросеть — и алгоритм находит в них уши котиков, контуры машин и очертания лиц.

https://sysblok.ru/knowhow/kak-posmotret-na-mir-glazami-nejrosetej/

Как устроены рекуррентные нейросети с долгой краткосрочной памятью

Этот текст — про то, что такое языковая модель и зачем она нужна. Еще рассказываем, почему рекуррентная нейросеть (RNN), хорошо подходит под машинную обработку языка и как работает LSTM — усложненная модель RNN, которая умеет запоминать не все подряд, а только важное.

https://sysblok.ru/knowhow/mama-myla-lstm-kak-ustroeny-rekurrentnye-nejroseti-s-dolgoj-kratkosrochnoj-pamjatju/

Как работает «внимание» в нейросетях

Рассказываем о механизме «внимания» (attention), на котором работают в 2020 году все действительно крутые нейросети. Почему внимание стало killer-фичей диплернинга, что под капотом у attention mechanism, как нейросеть понимает, какие признаки текста или картинки важнее других.

https://sysblok.ru/knowhow/vnimanie-vse-chto-vam-nuzhno-kak-rabotaet-attention-v-nejrosetjah/

Как работают нейросети-трансформеры

Все лучшие современные нейросети — это сочетание механизма внимания и трансформерной архитектуры. Трансформеры — это нашумевшие GPT-2, GPT-3, а также BERT — главная рабочая лошадка компьютерной лингвистики. И еще тысячи менее известных нейростевых архитектур. Осенью 2020 года Яндекс вкрутил свой трансформер YATI в. поиск. Рассказываем, как устроены трансформеры и чем они лучше предыдущих архитектур.

https://sysblok.ru/knowhow/kak-rabotajut-transformery-krutejshie-nejroseti-nashih-dnej/
​​Как построить карту возрастов зданий на открытых данных: проект How old is this house?
#urban

Проект how-old-is-this.house занимается визуализацией возраста зданий на карте. В отличие от других интерактивных карт, проект показывает всю картину, а не только жилые дома.

Создание карты

• Ядро проекта — геометрия зданий из Росреестра 2016 года. Там большинству домов присвоен год постройки.
• Актуализация — датасет OpenStreetMap, благодаря которому на месте старых заводских цехов на карте появились новые ЖК, лофты и концертные залы.
• Смысловое наполнение — данные Министерства культуры, Викимапии и Wikidata. Сюда входит информация о названиях, стилях, архитекторах, фотографиях и т.д.

В итоге получилось 259 тысяч построек, из которых возраст известен у 129 тысяч. Пик пришелся на 1917 год, так как после революции к нему отнесли все дома с неизвестным годом строительства. А с началом советского периода все становится логично: провал Великой Отечественной, массовое строительство хрущевок в 1960-х и спад до 1990-х.

Визуализация

Ассоциативный контекст связывает дома либо с советскими лидерами, либо — в наши дни — с градоначальниками. Авторы проекта не нашли способ разграничить исторические эпохи и периоды строительства.

Легенда карты выделяет девять периодов:
• Допетровская Россия;
• Российская Империя;
• Ленин;
• Сталин;
• Хрущев;
• Брежнев;
• Андропов,
• Черненко,
• Горбачев;
• Лужков;
• Собянин.

У каждого периода свой цвет: дореволюционные дома окрашены в красно-кирпичный цвет, сталинские высотки — в ярко-желтый, семидесятые тускловато-зелёные, а современные здания — холодного синего цвета.

Результаты и дальнейшие планы

К сожалению, результат нельзя назвать безупречным. Каждый этап геопроцессинга несет не только новые данные, но и возможные ошибки: велик шанс, что на дом в базовом слое наложилась точка, обозначающая здание или событие по соседству. Но карту можно редактировать: пользователи могут зайти в карточку объекта и внести или изменить информацию о доме, где была замечена ошибка.

Сейчас команда проекта работает над новыми городами: скоро на сайте появятся карты Екатеринбурга и Воронежа, на очереди Пенза и Нижний Новгород.

https://sysblok.ru/urban/kak-postroit-kartu-vozrastov-zdanij-na-otkrytyh-dannyh-proekt-how-old-is-this-house/

Милана Глебова
​​Что такое Legal Tech: можно ли автоматизировать юриста
#society

Legal Tech — отраслевой способ цифровой трансформации для упрощения профессиональной деятельности юристов. В юриспруденции сложно полностью заменить человека роботами, так как в судопроизводстве есть нюансы, связанные со сложными этическими вопросами, трактовкой законов или глубоким анализом документов.

Legal Tech в США

Наиболее развит рынок Legal Tech в США. Одна из самых быстрорастущих компаний — Rocket Lawyer, услугами которой уже воспользовались 20 млн клиентов. Компания проводит онлайн-консультации с юристами, а также имеет «дежурных» адвокатов, которые мгновенно отвечают на вопросы клиентов. Еще есть сервис для составления различных договоров: человек добавляет на сайте необходимую информацию и получает готовые документы. Часовая консультация обычного адвоката составляет 500–1000 долларов, а в Rocket Lawyer — 120 долларов.

Legal Tech в Китае

В Китае Legal Tech завязан на государство и его правоохранительные функции. В августе 2017 года Верховный народный суд Китая учредил первый интернет-суд в Ханчжо, а в 2018 году интернет-суды были учреждены в Пекине и Гуанчжоу. Функции интернет-суда — онлайн-регистрация дел, запрос информации по делам, регистрация электронных доказательств и др.

Legal Tech в Евросоюзе

В Европе в области Legal Tech выступает компания Mynotary, специализирующаяся на риэлторских услугах. Это первая платформа, которая цифровизировала сам процесс создания договора: документ можно изменять и дополнять онлайн, а не отправлять друг другу внесенные изменения на согласование по нескольку раз. Договор можно подписать электронной подписью из любой точки мира. Как только договор купли-продажи подписан продавцом, он отправляется покупателю в один клик.

Legal Tech в России

В России к Legal Tech можно отнести сервисы «Консультант плюс» и «Гарант». Это справочные правовые системы, которые содержат в себе обширную судебную практику и формы документов, а также версии кодексов, законов и иных нормативных правовых актов с комментариями экспертов в актуальной редакции. Еще существуют автоматические конструкторы юридических документов, платформы управления интеллектуальной собственностью и инструменты для интеграции LegalTech-решений в сторонние IT-системы — например, у Гаранта для этого разработан специальный API.

Что станет с юристами в будущем

В ближайшие 20 лет в юридической области вряд ли произойдут кардинальные изменений в трудоустройстве. Почти все юридические технологии-либо вспомогательные, либо слишком сырые: они решают простые небольшие задачи, но не заменяют юриста целиком.

https://sysblok.ru/permhse/chto-takoe-legal-tech-i-mozhno-li-avtomatizirovat-jurista/

Ксения Филиппенко
​​Алгоритм против копирайта: как запатентовать все мелодии мира
#news #arts

Ноа Рубин и Дэмиен Риль заявили права собственности на каждую когда-либо написанную мелодию песни. Для этого они создали алгоритм, который сгенерировал все возможные 8-тактовые мелодии из 12 звуков одной октавы — то есть все комбинации нот в заданном диапазоне.

Таким способом авторы проекта All the Music LLC хотят покончить с судебными разбирательствами в музыкальной индустрии. Они считают, что если все мелодии могут быть выражены в виде комбинаций, которые существовали с начала времен, то копирайт на них действовать не должен. Иными словами, они ставят знак равенства между сочинением музыки и выбором из конечного числа уже сгенерированных мелодий.

Архив со всеми мелодиями выложили в открытый доступ и сделали их общественным достоянием. А код алгоритма опубликовали на GitHub под лицензией Creative Commons Zero, что также предполагает отказ от авторских прав.

https://sysblok.ru/news/algoritm-protiv-kopirajta-kak-zapatentovat-vse-melodii-mira/

Михаил Совин
​​Создали корпус русских переводов общественно-политических сочинений XVIII века
#history

Русский политический язык начал формироваться в XVIII веке. Это время во многом стало переломным для русского общества. Оно стало больше ориентироваться на Запад, и идеи Просвещения затронули все сферы жизни. Тогда же стали активно переводиться различные издания о политике: от памфлетов до словарей и учебных пособий.

Осенью 2020 года Высшая школа экономики в сотрудничестве с Германским историческим институтом в Москве представили корпус переводов общественно-политических текстов XVIII века. Он помогает проследить формирование русского политического языка. В корпусе есть философские трактаты, художественные произведения политического характера, учебники и словари.

Как работать с корпусом

На сайте доступны два вида поиска — простой и расширенный. Результат запроса содержит количество совпадений, которые классифицируются на переводы, образцы, оригиналы и т. п. Также показывается место хранения перевода и год публикации.

Каждый перевод представлен в виде ссылки на отсканированное печатное издание. Его описание содержит краткие сведения о сочинении, его переводчике, основной теме текста, его издании и месте хранения оригинала.

Еще на сайте созданы страницы переводчиков, где собраны все переводы, выполненные одним человеком. Это дает представление о личности переводчика, его общественно-политических интересах и стиле переводов. Также есть справочный материал — словарь основных понятий.

https://sysblok.ru/history/carskie-svitki-i-biografija-konfucija-chto-est-v-korpuse-russkih-perevodov-obshhestvenno-politicheskih-sochinenij-xviii-veka/

Виолетта Арстанова
​​Старое новое: почти 300 лет истории дистанта
#history

Несмотря на то, что дистанционный формат кажется относительно новым явлением, он появился гораздо раньше: в 2028 г. ему исполнится 300 лет.

XVIII век

Дистанционный формат появился в XVIII веке. Профессор Калеб Филипс организовал дистанционные курсы стенографического письма: желающие могли откликнуться на объявление, размещенное в Boston Gazette. Курс не предусматривал обратной связи.

XIX век

Появляются дистанционные курсы с обратной связью. Этот формат назывался корреспондентским обучением: студентам по почте отправляли учебные материалы и задания, после они отправляли их на проверку.

• В 1840 г. британский учёный Айзек Питман организовал курс стенографии.
• В 1856 г. француз Шарль Туссан и немец Густав Лангеншайдт организовали разговорные курсы по иностранным языкам.
• В 1873 г. писательница Анна Эллиот Тикнор организовала «Общество поощрения обучения на дому». Это была настоящая заочная школа, где женщины получали полноценное высшее образование. В школе Тикнор учились не только состоятельные дамы, но и представительницы рабочего класса.

XX век

В 1969 г. в Лондоне появился первый радио- и телевизионный университет — Открытый университет. Он располагался в бывших студиях телеканала BBC. Оттуда транслировались 30-минутные лекции, которые студенты смотрели и слушали в прямом эфире. Преподаватели также общались со студентами по почте и во время летних очных школ.

Университет практиковал принцип open broadcasting: лекции доступны всем желающим, но вот зачесть их могут только поступившие студенты.

Вскоре похожие университеты появились и в других странах:
• 1972 г. — Национальный университет Дистанционного Образования (Испания) и Корейский Национальный Открытый Университет.
• 1985 г. — Национальный Открытый Университет имени Индиры Ганди (Индия).
• 1986 г. — Центральный Радио- и Телевизионный Университет (Китай). Ему подчинялось 28 районных дистанционных университетов и 300 школ.

XXI век

С появлением компьютеров дистанционное образование становится более мобильным. В 1989 г. коммерческий Университет Феникса запустил первые онлайн–программы для студентов. Уже в 2005 г. почти половина студентов Университета Феникса занималась дистанционно.

А первым в истории аккредитованным онлайн–университетом стал Международный Университет Джонса в штате Колорадо.

В 2020 г. дистанционное обучение начали применять повсеместно из-за пандемии коронавируса.

https://sysblok.ru/history/staroe-novoe-pochti-300-let-istorii-distanta/

Мария Черных
​​Ткани онлайн: как оцифровать полотно в 6 метров
#arts #history

Многие ткани — важные музейные экспонаты. Иногда это небольшие фартуки, но чаще — массивные платья с многочисленными узорами.

Что происходит с тканями, которым уже более ста лет? Ответ прост: их оцифровывают, как и другие артефакты.

Техники нанесения узора на ткань

Ценность экспоната заключается не только в узорах, но и способах создания:

Ручная набивка — появилась в 10 веке. По деревянной форме ударяли специальным молотком — киянкой. Тиснение отпечатывалось на заранее окрашенной ткани.
Механическая печать — на поверхности металлического вала гравировался рисунок, который мастер переносил на носитель. После инструмент окунали в краситель, благодаря чему выгравированный на ролике узор переносился на материал.
Прямая печать — самая поздняя техника. Для легкой ткани используется обычный алгоритм работы струйного принтера, для плотной необходимо предварительное нанесение специальной грунтовки.

Оцифровка ткани

Чтобы превратить полотна в цифровые файлы, сканируют каждый узор. С помощью сканера формата А3 определяют уникальный фрагмент на ткани, повторяющийся рисунок. Затем происходит склеивание: деталь соединяют, регулируя радиус каждого кусочка. В конце работы формируется готовый файл, который хранится в облаке.

Мультимедийные экспозиции

Лондонский музей Виктории и Альберта создал виртуальную выставку, на которой можно увидеть антикварные и новые ткани из собраний модного дома Александра Маккуина.

А в России в Ивановском краеведческом музее создали онлайн–выставку, посвященную тканям прошлых столетий. В экспозиции представлены 300 тканей русских костюмов XIX–XX веков.

https://sysblok.ru/arts/tkani-onlajn-kak-ocifrovat-polotno-v-6-metrov/

Лиза Снежко
​​Создание робота-клона и дружба с нейросетью
#society

Компании все чаще представляют новые модели роботов-андроидов. У робототехников большие планы на будущее: андроиды возьмут на себя рутинную и опасную работу. Но есть и другая сторона: роботы-клоны.

Для создания стопроцентной идентичности человека и машины потребуются годы. Даже самого продвинутого на сегодняшний день андроида Софию пока не спутаешь с человеком. Но уже возник вопрос: является ли производство двойников и клонов технологическим будущим или это практика, не вписывающаяся в этические нормы.

Заказы в робототехнике

Нестандартные пожелания — вовсе не редкость в рабочей рутине производителей роботов. В компании Promobot столкнулись со следующим кейсом: после развода с женой бразилец заказал точную копию сына, поскольку жена запретила видеться с ребенком. Компания отказалась брать заказ из-за морально-этических принципов.

Большинство предприятий отказывается от двух направлений: клонирования умерших людей и создания секс-роботов. Тем не менее, в Promobot можно заказать робота-двойника: модель Robo-С создается на основе нескольких фотографий.

Дружба с ИИ

Наши представления об ИИ и роботах сформированы массовой культурой. Тимофей Нестик, заведующий лабораторией социальной и экономической психологии Института психологии РАН, отмечает следующие особенности «дружбы» с роботами:

• чем чаще люди пользуются цифровыми услугами, тем они меньше склонны связывать с ними ИИ;
• доверие к роботам и системам ИИ выше среди тех, кто больше доверяет людям;
пользователь представляет опасность для ИИ, когда обучает негативному взгляду на мир;
• робот-клон не заменит умершего человека: скорее станет источником дополнительной травматизации.

Право и роботы

Важный вопрос — ответственность за действия системы. Пока наиболее вероятно привлечение к ответственности разработчиков вместе с владельцами систем, но в отношении андроидов даже это сейчас не рассматривается.

Также, в завещании уже можно заявить о желании или нежелании своего продолжения в виде клона или другого цифрового обличия.

https://sysblok.ru/society/chto-ne-tak-s-zhelaniem-sozdat-robota-klona/

Юлия Захарова
​​Разделяй и определяй, или Кто автор «Сна в красном тереме»
#philology

«Сон в красном тереме» — один из «четырех великих романов Китая». В нем повествуется о двух ветвях аристократической семьи Цзя и её постепенном упадке.

Оригинальная версия Цао Сюэциня содержит 80 частей, однако в 1791 году было опубликовано новое издание Гао Э из 120 частей. До сих пор ведутся дискуссии о том, сколько авторов у «Сна в красном тереме».

Поиски истинного автора

Метод Дельты Бёрроуза применяется для установления или уточнения авторства произведений.

Дельта представляет каждый текст в виде списка частотностей скольки-то (N) самых частотных слов — обычно берут от 100 и более слов. Таким образом текст становится вектором в N-мерном пространстве. Затем между этими векторами текстов измеряются расстояния — с помощью обычных геометрических мер близости. На основе этих расстояний и устанавливается наиболее вероятное авторство. Универсальность метода была многократно подтверждена на материале разных жанров, языков и эпох. В том числе на китайских текстах.

Если разложить главы согласно алгоритму кластеризации, видно что первые 80 глав наименее схожи с позднее опубликованными. Но есть исключение: главы 10 и 11, а так же 6 и 67 (из первой части) объединяются на первом шаге друг с другом, а уже на втором — с главами второй части. Возможные причины: неточный результат Дельты, большое количество имен собственных, редактура второго автора. Последнее проверяется с помощью тематического моделирования.

Тематическое моделирование

Для проверки результатов Дельты использовали версию романа, наиболее близкую к ранним изданиям.
• Предварительная обработка — токенизация и разделение. Это важно для разделения текста на слова, так как границы не обозначены пробелами.
• Формирование списка из стоп-слов — слова, которые нельзя интерпретировать.
• Определение тем — всего 50. Выходные данные свели в соответствии с главами.
• Визуализация — согласно соотношению тем с главами. Ось X – темы, ось Y – главы; красная линия разделяет первые 80 частей и последние 40.
• Распределение слов внутри темы — слова не связаны определенным мотивом.

Метод Дельты Бёллроуза не ошибся: действительно, главы 11 и 67 отличаются от первоначального текста романа. Отличаются не только именами персонажей или сюжетом, присутствуют и стилистические различия. С большей вероятностью, главы 11 и 67 отредактировал Гао Э.

https://sysblok.ru/philology/razdeljaj-i-opredeljaj-ili-kto-avtor-sna-v-krasnom-tereme/

Вероника Ганеева
​​Какой вы цифровой гуманитарий?
#test

В 2020 году стало еще сложнее ориентироваться в мире (и так вечно нестабильном). Мы придумали тест, который может помочь задать точки координат.

Пройдите тест, который покажет, кто вы в мире цифровых гуманитарных исследований. А заодно — познакомьтесь с известными цифровыми гуманитариями.

Дисклеймер: это шутка и только шутка.

https://sysblok.ru/test/kakoj-vy-cifrovoj-gumanitarij/
​​Исследователи лавин смоделировали гибель группы Дятлова
#news

Некоторые эксперты считают, что смерть девяти туристов из группы Игоря Дятлова в 1959 году — результат схода лавины. Ученые из Швейцарии создали компьютерную модель, которая демонстрирует, как могли развиваться события.

Выяснили, что между размещением группы в лагере и возможным сходом снега прошло 9 часов. Компьютерная программа показала, что длина лавины на склоне горы Холатчахль была около 5 метров. Скользкая поверхность, крутой наклон в 30 градусов, сильные потоковые ветры и большое количество снега перед лагерем, — все это стало причиной гибели туристов.

Создатели проекта разработали модель движения снега, получив данные о силе и давлении на человеческое тело из тестов General Motors. По словам директора Лаборатории снега и лавин, симуляция демонстрирует ночь гибели группы с новой точностью. Однако команда подчеркивает, что представила только вероятную версию событий.

https://sysblok.ru/news/gibel-gruppy-djatlova-smodelirovali-v-laboratorii-lavin/

Варвара Гузий
​​Пообедать у Канта: калининградские ученые воссоздают дом философа в 3D
#digitalheritage

Иммануил Кант — основоположник немецкой классической философии, автор знаменитых «Критик» — проживал в Кенигсберге с 1783 по 1804 год. Кант также известен легендарными застольными вечеринками — обедами, на которые он приглашал своих друзей. Однако дом, в котором он жил, не сохранился: его снесли и построили на его месте новое здание.

К 300-летию философа команда Центра социально-гуманитарной информатики Балтийского федерального университета создает «Виртуальный дом Канта». Проект 3D-реконструкции предполагает визуализацию внешнего вида и помещений особняка, объединённых в интерактивную панораму.

На что опирались при реконструкции

Основной источник — работа Вальтера Курке, служащего муниципального строительного управления Кенигсберга. В 1917 году он воссоздал внешний и внутренний облик дома на основе земельных книг и воспоминаний владельца дома профессора Доббелина.

Также использовали гравюры, открытки, картины этого периода, работы зарубежных и отечественных кантоведов и фотографии вещей Канта из музея в Кенигсберге — треуголки, трости, секретера и пуговицы. При воссоздании столовой опирались на картину Эмиля Дерстлинга «Кант и его сотрапезники».

Как ведется реконструкция

Работа началась с составления чертежей и планировок дома. Дом был двухэтажный, с пристройкой и сводчатым подвалом. На нижнем этаже находились лекционный зал и комната повара, на верхнем — столовая, библиотека, спальня, гостиная и кабинет; на маленьком чердаке жил слуга. Для моделирования выбрали программу 3ds MAX.

В процессе работы выявили и исправили неточности в реконструкции внешнего облика дома: изменили количество люкарн, сделали скатные крыши к каждой их них, создали крышу ангарного типа.

Следующий шаг — поэтапная реконструкция столовой и лекционной комнаты, в которых отразили все предметы быта, декор и даже еду. Сначала создали экстерьер, затем наполнили модель предметами интерьера.

Сейчас команда восстанавливает библиотеку Канта — ведет розыск и оцифровку книг. Это наиболее сложная часть проекта, так как на момент смерти владельца библиотека состояла из пятисот книг и брошюр. В планах — реализовать интерактивный функционал, который позволит «брать» книги с полок и листать их в 3D-формате, а также переходить в режим электронного чтения.

https://sysblok.ru/digital-heritage/poobedat-u-kanta-kaliningradskie-uchenye-vossozdajut-dom-filosofa-v-3d/

Е. В. Баранова, В. А. Верещагин, В. Н. Маслов, М. М. Лопатин
​​Как нейросеть заменяет нецензурную лексику на эвфемизмы
#knowhow #nlp

Машинное обучение разрешает менять стилистику текста без изменения содержания. Например, нейросеть сгенерировала песни в стиле Егора Летова, а также ведет аккаунт Neural Meduza в Twitter`е. Однако методы генерации и стилизации текстов приносят и практическую пользу.

ВКонтакте фильтрует комментарии

ВКонтакте тестирует новые функции: сервис учится фильтровать оскорбительные комментарии в сообществах, а также предупреждать пользователей о неприемлемом тоне высказываний. Так как диаметральная смена окраски комментариев — это нарушение свободы слова, нашли полумеру: нецензурная лексика будет заменяться эвфемизмами, а остальные высказывания — «сглаживаться».

Перенос стиля: как это работает

Перенос стиля основан на изменении векторных представлений текстов. Мы уже рассказывали, как создаются такие вектора.

Чтобы научиться переносить стиль текста, потребуется:
1. два корпуса текстов с противоположными стилями: положительный и отрицательный, токсичный и обычный и т.д.
2. автокодировщик, который нужно обучить тому, как представлять тексты в виде векторов

Алгоритм следующий:
1. обучаем кодировщик на обоих корпусах
2. получаем векторные представления текстов стиля 1
3. изменяем полученные вектора в соответствии с векторами текста стиля 2
4. подаем измененные вектора на вход декодировщику
5. получаем тексты стиля 2

Основная задача — изменить векторы так, чтобы на выходе получился текст нужного стиля. Для этого берем векторные представления текстов для обоих корпусов и обучаем на них новую нейронную сеть определять стиль текста. После обучения пытаемся её обмануть: берём вектор текста стиля 1 и добавляем шум. Шум подбираем таким образом, чтобы нейросеть перепутала стиль и на выходе мы получили текст стиля 2.

Альтернативное решение

Есть более сложный и продвинутый метод, который позволяет менять стиль и содержание текста независимо друг от друга. В этом случае вся информация о стиле содержится в одной части вектора, а информация о содержании — в другой.

https://sysblok.ru/knowhow/v-prostranstve-tekstov-detoksikacija-kommentariev-poddelka-otzyvov-i-nejrocenzura/

Михаил Ким
​​Подборка интерактивных карт по истории
#history

Интерактивный палеоглобус — проект, похожий на Google Earth, но показывающий не только современность, но и прошлое. Иллюстрирует, как меняется распределение суши и моря за последние 750 млн лет. Автор — Ian Webster, в основу легли работы геолога Christopher R. Scotese.

Интерактивный атлас поможет разобраться где, когда и какие государства существовали. В легенде карты можно выбрать год — с 3000 лет до н.э. до нашего времени — и увидеть политическую карту того времени. Автор — Luis Muzquiz.

Pangea Politica — карта материка Пангеи, на которой Massimo Pietrobon отметил границы современных государств. Пангея существовала 300 млн лет назад и с течение времени распалась на современные материки.

World Population History — карта, которая показывает, как росло население с 1 г. н.э. до нашего времени, а также прогнозирует дальнейший рост до 2050 года. Один кружок на карте — миллион человек, проживающих в этом регионе. В легенде карты отмечены переломные для развития цивилизации события.

Платформа Orbis рассчитает, сколько времени и денег потребовалось бы вам, чтобы добраться из одного города в другой — во времена, когда не было ни машин, ни поездов, ни самолетов. Можно выставить в приоритет скорость, цену или расстояние, а также указать время года и вид транспорта. Проект создан при Кембриджском университете.

Географический справочник Pleiades — крупнейшая база данных античных мест: это и поселения, и конкретные сооружения, и географические объекты. Каждое памятное место четко привязано к координатам. Всего в базе 37 500 записей. Пользователи могут исправлять неточности и предлагать новые места.

https://sysblok.ru/history/podborka-interaktivnyh-kart-po-istorii/

Светлана Филатова
​​Виден ли конец «нейронного блицкрига»: компьютерные лингвисты между вычислением и теорией

Восьмой выпуск подкаста Неопознанный искусственный интеллект — с Денисом Кирьяновым
#podcasts

Денис работает в SberDevices, он — один из создателей семейства голосовых помощников «Салют».

В этом выпуске:

01:33 — как делали голосовых помощников «Салют»
03:25 — чем машина все еще хуже человека: проблема целеполагания
06:53 — «писули» от «волшебной машины»: почему GPT-3 генерирует фейковые факты и выдуманные названия рок-групп
10:50 — как сделать персональных помощников более человекоподобными: проактивные ИИ-зануды
14:22 — как машине научиться делать то, чего она никогда не видела
16:55 — конец нейронного блицкрига: «забрасывать железом» компьютерно-лингвистические задачи больше не модно
17:59 — применение лингвистики в разработке голосовых помощников
19:07 — вычислительная лингвистика versus лингвистическая теория
24:30 — лингвисты между двумя стульями: преодолим ли разрыв между теоретиками и компьютерщиками
28:24 — что могут дать компьютерные модели теоретическим лингвистам
31:22 — когда нейросети начнут создавать новые теории
39:31 — ИИ будущего и межкультурные различия
40:54 — как должно быть устроено образование в области автоматической обработки языка
43:42 — Data Science в курятнике и кибер-village

Хайлайты выпуска

1. О «волшебстве» GPT-3

GPT-3 позиционируется как машина, которая может решать много разных задач. Если написать начало стихотворения — модель может продолжить в стихах. Если подать пары фраз на русском и английском — GPT-3 продолжит переводить. А если показать, как превращать длинный текст в короткий, модель научится делать и это.

Поэтому GPT-3 часто называют «универсальным решателем задач». Однако, качество работы GPT-3 пока отстает от человеческого на десятки процентов. Она может иногда сгенерировать хороший и правдивый текст, но в любой момент может породить и фейк. Поэтому GPT-3 сложно считать по-настоящему умной моделью.

2. Об обучении языковых моделей

Исследователи пришли к выводу, что для дальнейшего развития нейросетевых моделей недостаточно только количественных изменений — увеличения мощности серверов или размера корпуса, на котором обучается модель.

Нужно привносить что-то новое в архитектуру — искать способы передать машине больше знаний о реальном мире в каком-либо формальном представлении. Например, с помощью «графов знаний» (knowledge graphs).

3. О взаимосвязи между теоретической и компьютерной лингвистикой

Вопрос о том, как лингвистика поможет NLP, стоит давно, и им занимается много людей. А вот обратный вопрос — как NLP поможет понять что-то фундаментально новое о языке — пока менее популярен.

Сейчас ученые пытаются расшифровать «черные ящики» внтури языковых моделей: появляются статьи о том, что на одном из слоев BERTа находится нечто, похожее на синтаксис, на другом — нечто, похожее на морфологию, и т. д. Вероятно, векторные представления значений, с таким успехом применяемые в NLP, также могли бы обогатить такую область лингвистики, как семантика.

Где нас слушать или читать

Слушайте выпуск на Яндекс. Музыке, Apple Podcasts, Google Podcasts или в подкастах ВК.

Расшифровка и дополнительные материалы — на странице подкаста на сайте «Системного Блока».
​​История в лицах: как могли бы выглядеть римские императоры
#history #news

Дизайнер виртуальной реальности Даниэль Воршат опубликовал изображения 54 римских императоров. Цель проекта — создать у зрителя ощущение, что перед ним не вселяющий ужас Калигула, а всего лишь человек.

Фотографии создали с помощью нейросети Artbreeder. В начале художник загрузил в ИИ 800 фотографий бюстов римских императоров, снятых под разным углом. Затем все загруженные данные синтезировались в единый портрет.

Если бюстов не было, Воршат опирался на изображения с древних монет или на письменные источники. Сгенерированные картины дизайнер раскрасил вручную: на каждую ушло по 15—16 часов. В процессе он использовал информацию из исторических документов, содержащих описание внешности императоров.

Невозможно узнать, насколько точны изображения Воршата. Однако интерпретации художника пользуются успехом: плакаты с римскими императорами можно купить в интернет-магазине Etsy.

https://sysblok.ru/history/vr-dizajner-ozhivil-54-rimskih-imperatora/

Мария Черных
Данные победы: подборка материалов «Системного Блока», посвященных исследованию Великой Отечественной войны
#best #research #visualisation

Каждый год перед 9 мая возрастает посещаемость сайтов ОБД «Мемориал», «Память народа» и «Подвиг народа». Это оцифрованные военные архивы с десятками миллионов записей об участниках Великой Отечественной — выживших или погибших на фронтах войны. В прошлом году «Системный Блокъ» поговорил с техническим руководителем этих проектов — Виктором Тумаркиным: https://sysblok.ru/interviews/my-vytaskivaem-ljudej-iz-nebytija/

У нас есть собственное исследование данных Великой Отечественной войны. В прошлом году мы обработали 26 млн карточек военно-пересыльных пунктов, с которых солдат отправляли на фронт, и таким образом посмотрели на историю ВОВ через историю призыва: https://sysblok.ru/history/neizvestnyj-soldat/

Теперь мы выпустили видеоверсию этого data-исследования: https://youtu.be/xJcPJ-QfE9A

Динамика призыва в годы войны в РСФСР

Также мы подготовили инфографику по нашему исследованию, прикрепляем ее ниже.

Самый большой подъем призыва ожидаемо совпадает с началом Великой Отечественной войны, он значительно превышает плановые призывы. Призыв начинается за несколько месяцев до июня, хотя плановый призыв должен был проходить ближе к осени. В РСФСР призывная кампания продолжалась до самого конца войны и ослабла только с июня 1945.

Четыре крупных пика связаны призывами на фронт новобранцев, родившихся в 1924, 1925, 1926 и 1927 году. Эти пики выделяются возрастным составом — они почти полностью состоят из молодежи.
​​Программирование для филологов и нейропоэзия: интервью с Борисом Ореховым
#interview

Борис Валерьевич Орехов — цифровой филолог, кандидат филологических наук, доцент школы лингвистики факультета гуманитарных наук НИУ ВШЭ. С помощью компьютерных методов Борис Орехов решает разнообразные филологические задачи. Например, исследует устройство башкирского стиха или сопоставляет русские переводы «Илиады».

О чем мы поговорили с Борисом

• Для чего филологу учиться программировать;
• Как стилометрия помогла оценить стилизацию перевода «Илиады»;
• Как затягивание исследований портит имидж Digital Humanities;
• Можно ли посчитать сюжет и смысл произведения;
• Какие схемы формализации сюжета придумала наука;
• Зачем нужны корпуса разных языков;
• Как получилось, что первые поэтические корпуса возникли для русского, башкирского, чешского и персидского;
• Зачем учить нейросети писать стихи;
• Чему мировые Digital Humanities могут научиться у российских.

https://sysblok.ru/interviews/intervju-s-borisom-orehovym/

Дарья Балуева, Варвара Гузий, Даниил Скоринкин
​​Карты качества воздуха: где опасно дышать
#urban

Из-за пандемии коронавируса мы не выходим из дома без маски: как минимум прячем ее в карман, вдруг пригодится. Однако на планете есть города, где и до 2020-го года людям приходилось носить маски на улицах. Все дело в смоге, который образуется из-за выхлопов автомобилей, отходов промышленности, сажи и пыли.

Состав смога и его влияние на человеческий организм

Антропогенные выбросы бывают двух видов: газы и мелкие частицы. Последние тоже делятся на две категории, по размеру: частицы менее 10 мкм обозначают PM10, а менее 2.5 мкм — PM2.5 Для сравнения: диаметр человеческого волоса равен 70 мкм.

За счет малого размера частицы PM2.5 проникают внутрь нашего организма: в легкие и в кровеносную систему. Это уменьшает продолжительность жизни: если в организм попадают частицы PM2.5 в количестве более чем 10 мкг на кубический метр, ожидаемая продолжительность жизни сокращается на полгода—год.

Эксперимент в Нью-Дели

Журналисты The New York Times провели эксперимент: вооружились датчиками-измерителями уровня частиц PM2.5 и провели один день с двумя детьми из разных социальных групп Нью-Дели. Цель исследования — оценить, как благосостояние семьи влияет на качество воздуха, которым дышит ребенок.

Первый ребенок, Мону, жил в трущобах возле реки Джамна. Вторая девочка, Аамьи, жила в доме с установленной системой фильтрации воздуха. Эксперимент показал, что содержание частиц PM2.5 в 14 раз превышает допустимую норму ВОЗ. По примерным оценкам семья Аамьи потеряет год жизни, а Мону — пять лет.

Карты качества воздуха

На сайте проекта aqicn данные обновляются в режиме реального времени. Основной показатель на карте — индекс качества воздуха, AQI. В легенде карты есть шкала, которая охватывает значения индекса: от «безопасного» до «угрожающего жизни». Данные для проекта предоставляют организации, контролирующие качество воздуха.

Еще одну красочную визуализацию о содержании частиц PM2.5 и PM10 создала команда IQAir. Виртуальный глобус AirVisual собирает показания датчиков компании, добавляя к ним сведения различных бюро.

https://sysblok.ru/urban/dlja-chego-eshhe-nuzhny-maski-karta-zagrjaznenija-vozduha/

Нелли Бурцева