Зачем нужна карта метафор?
Когда нас спрашивают о метафорах, мы напрягаем память, мысленно возвращаемся в школу на уроки литературы и вспоминаем что-то вроде «скрытое сравнение» и какие-то известные строки Пушкина. Но на самом деле метафорами пронизан весь наш язык (даже эта фраза), и их исследование может многое сказать о том, как мы говорим и мыслим.
Теория концептуальной метафоры была изложена в книге Лакоффа и Джонсона «Метафоры, которыми мы живем» («Metaphors We Live By», 1980) и оказалась чрезвычайно влиятельной в мировой науке. Однако этой области исследования долго не хватало всеобъемлющей картины метафор в рамках определенного языка.
Этот недостаток восполнила так называемая Карта метафор (Metaphor Map).
Используя данные Исторического тезауруса Оксфордского словаря английского языка, разработчики проекта картировали области значений, которые включают в себя различные лексические единицы, и использовали их, чтобы изучить метафорические связи английского языка.
На главной странице Карты вы увидите круговую диаграмму, которая представляет все области значений в английском языке. Категории, указанные вне круга, представляют собой группы связанных понятий. Цветовые обозначения показывают, к какому разряду групп они принадлежат: Внешний мир/природа (зеленый цвет), Внутренний мир (синий), Социальный мир (красный). В рамках обозначенных групп концепты делятся далее на более мелкие категории. Всего на Карте их 415.
Используя Карту метафор, мы можем получить ответы на вопросы как возникают метафоры? Какие области жизненного опыта выделяются в метафорических высказываниях? И как менялись метафоры в течение веков под влиянием социальных сдвигов? Если мы признаем, что метафорические связи могут показывать, как люди мысленно структурируют мир в рамках своего общества, результаты исследований подобных карт могут оказаться очень интересными.
https://sysblok.ru/nlp/zachem-nuzhna-karta-metafor/
Когда нас спрашивают о метафорах, мы напрягаем память, мысленно возвращаемся в школу на уроки литературы и вспоминаем что-то вроде «скрытое сравнение» и какие-то известные строки Пушкина. Но на самом деле метафорами пронизан весь наш язык (даже эта фраза), и их исследование может многое сказать о том, как мы говорим и мыслим.
Теория концептуальной метафоры была изложена в книге Лакоффа и Джонсона «Метафоры, которыми мы живем» («Metaphors We Live By», 1980) и оказалась чрезвычайно влиятельной в мировой науке. Однако этой области исследования долго не хватало всеобъемлющей картины метафор в рамках определенного языка.
Этот недостаток восполнила так называемая Карта метафор (Metaphor Map).
Используя данные Исторического тезауруса Оксфордского словаря английского языка, разработчики проекта картировали области значений, которые включают в себя различные лексические единицы, и использовали их, чтобы изучить метафорические связи английского языка.
На главной странице Карты вы увидите круговую диаграмму, которая представляет все области значений в английском языке. Категории, указанные вне круга, представляют собой группы связанных понятий. Цветовые обозначения показывают, к какому разряду групп они принадлежат: Внешний мир/природа (зеленый цвет), Внутренний мир (синий), Социальный мир (красный). В рамках обозначенных групп концепты делятся далее на более мелкие категории. Всего на Карте их 415.
Используя Карту метафор, мы можем получить ответы на вопросы как возникают метафоры? Какие области жизненного опыта выделяются в метафорических высказываниях? И как менялись метафоры в течение веков под влиянием социальных сдвигов? Если мы признаем, что метафорические связи могут показывать, как люди мысленно структурируют мир в рамках своего общества, результаты исследований подобных карт могут оказаться очень интересными.
https://sysblok.ru/nlp/zachem-nuzhna-karta-metafor/
Системный Блокъ прошел в финал премии Просветитель.Digital
«Просветитель» — престижная литературная научно-популярная премия, основанная фондом Династия, с 2018 года поддерживает электронные просветительские проекты в отдельной номинации «Просветитель.Digital».
Мы благодарны за доверие, оказанное нашему изданию, и поздравляем коллег, прошедших с нами в финал в категории «Текст» — канал «Книжный лис», проекты «Это прямо здесь», «The Batrachospermum Magazine» и «Краткий курс по литэкономии».
Хотя нам чуть больше года, мы многое успели: мы написали почти 300 статей, запустили 20 рубрик. В Системном Блоке приняло участие больше 50 человек — филологи, лингвисты, программисты, журналисты, художники, дизайнеры, сценаристы. Мы запустили пять площадок: помимо телеграмма это вк, фейсбук, сайт и даже ютуб, открыли собственный исследовательский отдел, развиваем образовательное направление, делаем тьюториалы для новичков.
Материалы, которые мы подали в заявке на премию:
1. Большие данные Большого террора — рассказ о базах данных «Международного Мемориала».
2. Цифра на службе у филолога — интервью с лингвистом и популяризатором науки Александром Пиперски о количественных методах и о том, зачем они нужны филологу-исследователю.
3. Как компьютеры понимают значения слов — экспериментальный ролик-введение в дистрибутивную семантику.
4. Смейтесь и детей рожайте: из чего сделаны поздравления с 8 марта — изучаем корпус поздравлений с 8 марта, а также генерируем собственные с помощью марковской цепи.
5. Берестяные грамоты от раскопа до компьютера. Памяти А.А. Зализняка — откуда и благодаря кому мы знаем, как ругались русские люди в XII веке?
6. Корпус из твитов своими руками — краткая инструкция о том, как просто собрать данные из твиттера для своего исследования.
7. Зачем нужны гуманитарии в эпоху машинного обучения? — критическое эссе о злободневном.
8. Пушкин, терминатор и звездолет — тестируем семантический поисковик по стихам великого русского поэта.
Хотите вместе с нами вдохновлять людей на изучение технологий? Присоединяйтесь к нашей дружной команде.
«Просветитель» — престижная литературная научно-популярная премия, основанная фондом Династия, с 2018 года поддерживает электронные просветительские проекты в отдельной номинации «Просветитель.Digital».
Мы благодарны за доверие, оказанное нашему изданию, и поздравляем коллег, прошедших с нами в финал в категории «Текст» — канал «Книжный лис», проекты «Это прямо здесь», «The Batrachospermum Magazine» и «Краткий курс по литэкономии».
Хотя нам чуть больше года, мы многое успели: мы написали почти 300 статей, запустили 20 рубрик. В Системном Блоке приняло участие больше 50 человек — филологи, лингвисты, программисты, журналисты, художники, дизайнеры, сценаристы. Мы запустили пять площадок: помимо телеграмма это вк, фейсбук, сайт и даже ютуб, открыли собственный исследовательский отдел, развиваем образовательное направление, делаем тьюториалы для новичков.
Материалы, которые мы подали в заявке на премию:
1. Большие данные Большого террора — рассказ о базах данных «Международного Мемориала».
2. Цифра на службе у филолога — интервью с лингвистом и популяризатором науки Александром Пиперски о количественных методах и о том, зачем они нужны филологу-исследователю.
3. Как компьютеры понимают значения слов — экспериментальный ролик-введение в дистрибутивную семантику.
4. Смейтесь и детей рожайте: из чего сделаны поздравления с 8 марта — изучаем корпус поздравлений с 8 марта, а также генерируем собственные с помощью марковской цепи.
5. Берестяные грамоты от раскопа до компьютера. Памяти А.А. Зализняка — откуда и благодаря кому мы знаем, как ругались русские люди в XII веке?
6. Корпус из твитов своими руками — краткая инструкция о том, как просто собрать данные из твиттера для своего исследования.
7. Зачем нужны гуманитарии в эпоху машинного обучения? — критическое эссе о злободневном.
8. Пушкин, терминатор и звездолет — тестируем семантический поисковик по стихам великого русского поэта.
Хотите вместе с нами вдохновлять людей на изучение технологий? Присоединяйтесь к нашей дружной команде.
Цветокоррекции в стихах Сергея Есенина
Поэзия — цветной вид искусства. В отличие от фотографии и кино, она никогда не была черно-белой. Поэты в своем творчестве окрашивают не только физические объекты, но и запахи, звуки, тактильные ощущения… А можно ли исследовать цветовую картину мира отдельного поэта с помощью цифровых методов?
Анализируем частоту использование самых распространенных цветов в поэзии Сергея Есенина и узнаем, что синими бывают Русь, пожар и песок, а белыми — гвозди, кудри и яд.
https://sysblok.ru/philology/cvetokorrekcii-v-stihah-sergeja-esenina/
Поэзия — цветной вид искусства. В отличие от фотографии и кино, она никогда не была черно-белой. Поэты в своем творчестве окрашивают не только физические объекты, но и запахи, звуки, тактильные ощущения… А можно ли исследовать цветовую картину мира отдельного поэта с помощью цифровых методов?
Анализируем частоту использование самых распространенных цветов в поэзии Сергея Есенина и узнаем, что синими бывают Русь, пожар и песок, а белыми — гвозди, кудри и яд.
https://sysblok.ru/philology/cvetokorrekcii-v-stihah-sergeja-esenina/
Когнитивная стилистика и образование речи
В основе стилистических исследований лежит парадокс. Мы не знаем, как мы создаем и произносим высказывание просто потому, что мы привыкли это делать. Чем больше мы пишем текстов, тем меньше у нас времени на осознание процесса. Это как кататься на велосипеде, водить машину или просто шагать. Такие навыки, в том числе умение говорить и писать, не теряются даже при амнезии.
Двоичный код для мозга
Эксперименты в когнитивной психологии и нейробиологии подтвердили концепцию бестелесного внутреннего голоса, который «произносит» предложения. Мозг обрабатывает и воспроизводит все высказывания, письменные или устные, в форме звуковой последовательности.
То же самое происходит, когда мы обрабатываем чужую речь: мы получаем доступ к словам из нашего внутреннего словаря через их звуковую структуру. То есть мы можем понять услышанную речь, только смоделировав в сознании артикуляционные действия, необходимые для ее создания.
Стиль и память
Ученые выделяют три основных типа человеческой памяти:
1. кратковременная (рабочая) память; и долговременная ассоциативная память, которая делится на два вида:
2. имплицитная, или бессознательная и
3. эксплицитная, или осознаваемая.
В процессе создания предложения участвует имплицитная память: мозг вспоминает, как строить предложение только во время самого творческого процесса. Человек не в состоянии осознать, как он это делает. Вся сознательная умственная работа над языком осуществляется в рабочей памяти, а именно в артикуляционной петле.
Стиль сознания
Наш когнитивный стиль имеет следующие признаки:
1. Фонологичный — слова и фразы сохраняются, обрабатываются и извлекаются в форме последовательности звуков, а не символов.
2. Лексико-синтаксический — грамматика и лексика не могут быть разделены.
3. Комбинаторный — наш мозг запоминает сочетания слово-образ-понятие-звук, а не словарные статьи.
4. Семантически не определенный — ни один тезаурус, энциклопедия или словарь не могут отразить то, как мы понимаем то или иное слово.
Долговременная память человека формируется случайными ассоциациями, которые образуются в течение всей жизни. Это частично объясняет явление лексической неопределенности: большинство слов невозможно определить так, чтобы между людьми не возникало недопонимания.
Согласно когнитивной модели, стиль имеют не тексты, а сознание автора, который создает текст. Работу сознания можно проанализировать только косвенно, поэтому будущее стилистики как дисциплины — это исследования на стыке когнитивных наук и корпусной лингвистики.
Вусале Агасиева, Женя Заковоротная
В основе стилистических исследований лежит парадокс. Мы не знаем, как мы создаем и произносим высказывание просто потому, что мы привыкли это делать. Чем больше мы пишем текстов, тем меньше у нас времени на осознание процесса. Это как кататься на велосипеде, водить машину или просто шагать. Такие навыки, в том числе умение говорить и писать, не теряются даже при амнезии.
Двоичный код для мозга
Эксперименты в когнитивной психологии и нейробиологии подтвердили концепцию бестелесного внутреннего голоса, который «произносит» предложения. Мозг обрабатывает и воспроизводит все высказывания, письменные или устные, в форме звуковой последовательности.
То же самое происходит, когда мы обрабатываем чужую речь: мы получаем доступ к словам из нашего внутреннего словаря через их звуковую структуру. То есть мы можем понять услышанную речь, только смоделировав в сознании артикуляционные действия, необходимые для ее создания.
Стиль и память
Ученые выделяют три основных типа человеческой памяти:
1. кратковременная (рабочая) память; и долговременная ассоциативная память, которая делится на два вида:
2. имплицитная, или бессознательная и
3. эксплицитная, или осознаваемая.
В процессе создания предложения участвует имплицитная память: мозг вспоминает, как строить предложение только во время самого творческого процесса. Человек не в состоянии осознать, как он это делает. Вся сознательная умственная работа над языком осуществляется в рабочей памяти, а именно в артикуляционной петле.
Стиль сознания
Наш когнитивный стиль имеет следующие признаки:
1. Фонологичный — слова и фразы сохраняются, обрабатываются и извлекаются в форме последовательности звуков, а не символов.
2. Лексико-синтаксический — грамматика и лексика не могут быть разделены.
3. Комбинаторный — наш мозг запоминает сочетания слово-образ-понятие-звук, а не словарные статьи.
4. Семантически не определенный — ни один тезаурус, энциклопедия или словарь не могут отразить то, как мы понимаем то или иное слово.
Долговременная память человека формируется случайными ассоциациями, которые образуются в течение всей жизни. Это частично объясняет явление лексической неопределенности: большинство слов невозможно определить так, чтобы между людьми не возникало недопонимания.
Согласно когнитивной модели, стиль имеют не тексты, а сознание автора, который создает текст. Работу сознания можно проанализировать только косвенно, поэтому будущее стилистики как дисциплины — это исследования на стыке когнитивных наук и корпусной лингвистики.
Вусале Агасиева, Женя Заковоротная
Семантические сети: как представить значения слов в виде графа
Команда компьютерных лингвистов из школы лингвистики НИУ ВШЭ, университета Тренто и университета Осло под руководством Андрея Кутузова представила на конференции AIST библиотеку vec2graph для Python (github). Vec2graph умеет визуализировать семантическую близость слов в виде сети. Информацию о близости слов vec2graph получает из векторной семантической модели.
«Системный Блокъ» уже рассказывал о том, что в основе дистрибутивной семантики — простая идея: близкие по значению слова будут встречаться в похожих контекстах. Чтобы передать знание о контекстной близости слов компьютеру, ученые и инженеры обучают векторные семантические модели — например, с помощью word2vec.
Но как отображать семантические близости из векторной модели так, чтобы они снова стали понятны человеку? Самый простой вариант — выдавать для любого слова столбик ближайших к нему «семантических ассоциатов».
Можно попытаться сжать многомерное векторное пространство модели обратно в двумерное. Алгоритмов такого снижения размерности (PCA, MDS, t-SNE) множество.
Третья альтернатива — использовать сети (они же графы). Для каждого слова можно строить сеть из его семантических ассоциатов. При этом сам показатель близости отображать, например, через длину линии: чем короче связь — тем ближе слово в векторной модели. Именно такие визуализации делает vec2graph.
https://sysblok.ru/nlp/semanticheskie-seti-kak-predstavit-znachenija-slov-v-vide-grafa/
Команда компьютерных лингвистов из школы лингвистики НИУ ВШЭ, университета Тренто и университета Осло под руководством Андрея Кутузова представила на конференции AIST библиотеку vec2graph для Python (github). Vec2graph умеет визуализировать семантическую близость слов в виде сети. Информацию о близости слов vec2graph получает из векторной семантической модели.
«Системный Блокъ» уже рассказывал о том, что в основе дистрибутивной семантики — простая идея: близкие по значению слова будут встречаться в похожих контекстах. Чтобы передать знание о контекстной близости слов компьютеру, ученые и инженеры обучают векторные семантические модели — например, с помощью word2vec.
Но как отображать семантические близости из векторной модели так, чтобы они снова стали понятны человеку? Самый простой вариант — выдавать для любого слова столбик ближайших к нему «семантических ассоциатов».
Можно попытаться сжать многомерное векторное пространство модели обратно в двумерное. Алгоритмов такого снижения размерности (PCA, MDS, t-SNE) множество.
Третья альтернатива — использовать сети (они же графы). Для каждого слова можно строить сеть из его семантических ассоциатов. При этом сам показатель близости отображать, например, через длину линии: чем короче связь — тем ближе слово в векторной модели. Именно такие визуализации делает vec2graph.
https://sysblok.ru/nlp/semanticheskie-seti-kak-predstavit-znachenija-slov-v-vide-grafa/
Соцсети русской драмы. Ревизор vs. Городничий: кто же главный герой?
«Системный Блокъ» уже писал о сетевом анализе драматических произведений (про смерть и про жанровые различия). А за прошедшее время были выполнены ещё несколько исследований корпуса русских драматических произведений, который на момент подготовки материала насчитывал 198 произведений.
Целью этой статьи стало исследование возможности математически выявить главных персонажей пьес (протагонистов), а также попробовать численно разделить персонажей на группы в соответствии с их значимостью.
Для героев каждой пьесы были вычислены 5 сетевых метрик: степень, взвешенная степень, степень близости, степень посредничества и степень влиятельности.
Оказалось, что в «Ревизоре» Н.В. Гоголя, Хлестаков лидирует по количественным метрикам, а Городничий — по сетевым. Если вспомнить сюжет, то объяснение становится очевидным: Городничий как глава города прочно связан с жителями; в то же время Хлестаков постепенно знакомится с жителями и поэтому много говорит с теми, кого уже знает.
https://sysblok.ru/philology/socseti-russkoj-dramy-chast-ii-revizor-vs-gorodnichij-kto-zhe-glavnyj-geroj/
«Системный Блокъ» уже писал о сетевом анализе драматических произведений (про смерть и про жанровые различия). А за прошедшее время были выполнены ещё несколько исследований корпуса русских драматических произведений, который на момент подготовки материала насчитывал 198 произведений.
Целью этой статьи стало исследование возможности математически выявить главных персонажей пьес (протагонистов), а также попробовать численно разделить персонажей на группы в соответствии с их значимостью.
Для героев каждой пьесы были вычислены 5 сетевых метрик: степень, взвешенная степень, степень близости, степень посредничества и степень влиятельности.
Оказалось, что в «Ревизоре» Н.В. Гоголя, Хлестаков лидирует по количественным метрикам, а Городничий — по сетевым. Если вспомнить сюжет, то объяснение становится очевидным: Городничий как глава города прочно связан с жителями; в то же время Хлестаков постепенно знакомится с жителями и поэтому много говорит с теми, кого уже знает.
https://sysblok.ru/philology/socseti-russkoj-dramy-chast-ii-revizor-vs-gorodnichij-kto-zhe-glavnyj-geroj/
Большие данные о языках в справочнике Ethnologue
84 года назад SIL (Летняя школа лингвистики) была маленькой исследовательской группой, занимавшейся изучением местных языков для миссионерской деятельности. Теперь это Международная организация со штатом более 6000 сотрудников из разных стран, признанная ЮНЕСКО и научным сообществом.
Результаты многолетней полевой работы и систематизации данных SIL публикует на сайте Ethnologue.com. Сейчас это наиболее полный справочник о языках мира, где собраны не только статьи, но и карты и графики, визуализирующие информацию.
К сожалению, Этнолог является частично платным. В этом посте мы расскажем о его бесплатном функционале.
Ethnologue для любознательных: всё, что вы хотели узнать
На отдельной странице сайта (Guides) собраны самые популярные вопросы о языках. Каждый ответ сопровождается картой, графиком или диаграммой. Самый популярный вопрос — это, разумеется, вопрос о количестве языков в мире. По последним данным Этнолога, их насчитывается 7,111.
Эти гайды, возможно, утолят познавательную жажду обычного пытливого пользователя, но лингвисту точно захочется чего-то большего. Например, полной схемы родственных языков внутри языковой семьи. Имея такую схему родственных языков, лингвист, разрабатывающий морфологический анализатор для малоресурсных языков, сможет правильно перенести разметку и оптимизировать свою работу.
Всяк язык знай своё место
У каждого языка на сайте есть своя страница. Там указаны код языка, его самоназвание, количество говорящих, диалекты, статус, принадлежность к языковой семье, основные черты грамматического строя и фонетики.
Статус языка определяется в соответствии с разработанной SIL шкалой уровня развития (Expanded Graded Intergenerational Disruption Scale, или EGIDS), где 0 — это международный язык, а 10 — вымерший.
На специальном графике показано место языка среди всех существующих. Каждый язык представлен маленькой точкой на координатной плоскости, где по вертикали отмечено количество говорящих на языке, а по горизонтали — уровень его развития в соответствии с EGIDS.
Языковая ситуация в стране
Отдельная страница есть не только для каждого языка, но и для каждой страны. В профиле государства указываются: население, основной язык, уровень грамотности и т.д. Но самое интересное — это лингвистический портрет страны, отражённый на диаграмме. На ней показано, сколько языков с каким статусом распространено на территории государства. По горизонтали — уровень развития языка по шкале EGIDS (от 1 — национальный до 10 — вымерший). По вертикали — количество языков. Соответственно, чем выше столбец, тем больше языков.
Кому это нужно?
Угадывать страны по лингвистическим портретам — довольно увлекательная игра. Но ценность собранных на Этнологе данных не ограничивается развлекательным потенциалом. Круг людей, для которых эта информация может быть полезной, достаточно широк. Это и бизнесмены, планирующие продвижение своего продукта в новые страны, и социологи, и политологи, которые могут делать прогнозы о развитии политической ситуации по языковой ситуации в стране, и чиновники, разрабатывающие стратегию поддержки малых языков. Понимая это, создатели сайта сделали доступ к некоторым ресурсам (детальным картам, подробным статистикам) платным. Что подтверждает в очередной раз истину XXI века: владеешь большими данными — владеешь миром.
Мария Захарова
84 года назад SIL (Летняя школа лингвистики) была маленькой исследовательской группой, занимавшейся изучением местных языков для миссионерской деятельности. Теперь это Международная организация со штатом более 6000 сотрудников из разных стран, признанная ЮНЕСКО и научным сообществом.
Результаты многолетней полевой работы и систематизации данных SIL публикует на сайте Ethnologue.com. Сейчас это наиболее полный справочник о языках мира, где собраны не только статьи, но и карты и графики, визуализирующие информацию.
К сожалению, Этнолог является частично платным. В этом посте мы расскажем о его бесплатном функционале.
Ethnologue для любознательных: всё, что вы хотели узнать
На отдельной странице сайта (Guides) собраны самые популярные вопросы о языках. Каждый ответ сопровождается картой, графиком или диаграммой. Самый популярный вопрос — это, разумеется, вопрос о количестве языков в мире. По последним данным Этнолога, их насчитывается 7,111.
Эти гайды, возможно, утолят познавательную жажду обычного пытливого пользователя, но лингвисту точно захочется чего-то большего. Например, полной схемы родственных языков внутри языковой семьи. Имея такую схему родственных языков, лингвист, разрабатывающий морфологический анализатор для малоресурсных языков, сможет правильно перенести разметку и оптимизировать свою работу.
Всяк язык знай своё место
У каждого языка на сайте есть своя страница. Там указаны код языка, его самоназвание, количество говорящих, диалекты, статус, принадлежность к языковой семье, основные черты грамматического строя и фонетики.
Статус языка определяется в соответствии с разработанной SIL шкалой уровня развития (Expanded Graded Intergenerational Disruption Scale, или EGIDS), где 0 — это международный язык, а 10 — вымерший.
На специальном графике показано место языка среди всех существующих. Каждый язык представлен маленькой точкой на координатной плоскости, где по вертикали отмечено количество говорящих на языке, а по горизонтали — уровень его развития в соответствии с EGIDS.
Языковая ситуация в стране
Отдельная страница есть не только для каждого языка, но и для каждой страны. В профиле государства указываются: население, основной язык, уровень грамотности и т.д. Но самое интересное — это лингвистический портрет страны, отражённый на диаграмме. На ней показано, сколько языков с каким статусом распространено на территории государства. По горизонтали — уровень развития языка по шкале EGIDS (от 1 — национальный до 10 — вымерший). По вертикали — количество языков. Соответственно, чем выше столбец, тем больше языков.
Кому это нужно?
Угадывать страны по лингвистическим портретам — довольно увлекательная игра. Но ценность собранных на Этнологе данных не ограничивается развлекательным потенциалом. Круг людей, для которых эта информация может быть полезной, достаточно широк. Это и бизнесмены, планирующие продвижение своего продукта в новые страны, и социологи, и политологи, которые могут делать прогнозы о развитии политической ситуации по языковой ситуации в стране, и чиновники, разрабатывающие стратегию поддержки малых языков. Понимая это, создатели сайта сделали доступ к некоторым ресурсам (детальным картам, подробным статистикам) платным. Что подтверждает в очередной раз истину XXI века: владеешь большими данными — владеешь миром.
Мария Захарова
Разбираем по частям научно-популярные ресурсы
Научпоп стремительно обзаводится почитателями по всему миру. Какие ученые хотят рассказать о своей работе больше всего, что ресурсы и паблики для этого делают и какими характеристиками обладает типичный научно-популярный текст?
Для исследования мы использовали корпус текстов, собранный студентами магистратуры Школы лингвистики НИУ ВШЭ под руководством Б.В. Орехова.
Создатели корпуса написали краулер, который скачал некоторое количество статей с ресурсов: ПостНаука, N+1, GeekTimes, Polit. ru (разделы Лекции и Pro Science), Чердак, Индикатор.
На основе этого материала получилось посчитать, про что пишут чаще всего (спойлер: про технологии) и обнаружить, что научпоп отличается друг от друга не только темами, но и стилистикой повествования.
https://sysblok.ru/linguistics/razbiraem-po-chastjam-nauchno-populjarnye-resursy/
Научпоп стремительно обзаводится почитателями по всему миру. Какие ученые хотят рассказать о своей работе больше всего, что ресурсы и паблики для этого делают и какими характеристиками обладает типичный научно-популярный текст?
Для исследования мы использовали корпус текстов, собранный студентами магистратуры Школы лингвистики НИУ ВШЭ под руководством Б.В. Орехова.
Создатели корпуса написали краулер, который скачал некоторое количество статей с ресурсов: ПостНаука, N+1, GeekTimes, Polit. ru (разделы Лекции и Pro Science), Чердак, Индикатор.
На основе этого материала получилось посчитать, про что пишут чаще всего (спойлер: про технологии) и обнаружить, что научпоп отличается друг от друга не только темами, но и стилистикой повествования.
https://sysblok.ru/linguistics/razbiraem-po-chastjam-nauchno-populjarnye-resursy/
Системный Блокъ
Разбираем по частям научно-популярные ресурсы - Системный Блокъ
Научпоп стремительно обзаводится почитателями по всему миру. Какие ученые хотят рассказать о своей работе больше всего, что ресурсы и паблики для этого делают и какими характеристиками обладает типичный научно-популярный текст?
Как находить похожие слова с помощью расстояния Левенштейна?
Когда в начале XX века в газетной статье «Пребывание вдовствующей императрицы Марии Федоровны в Финляндии» опечатались в первом слове, заменив «р» на «о», вышел жуткий скандал. А как находить такие близкие по написанию слова автоматически? Разбираемся с помощью питона и расстояния Левенштейна.
Компьютер — штука очень глупая. Например, человеку очевидно, что “корова” и “Корова” - это одно и то же слово и даже если сделать в слове ошибку и написать “карова”, мы все равно догадаемся, что имелось ввиду. Не таковы компьютерные программы, поменяй одну букву — машина будет уверена, что перед ней новое слово. Это здорово осложняет дело, когда приходится работать с данными, собранными на просторах Интернета.
Однако есть способ научить компьютер сравнивать слова и вычислять степень их похожести по тому, сколько нужно вставить, удалить или заменить символов, чтобы получить из одного слова другое. Способ был придуман советским математиком Владимиром Левенштейном, статья которого с момента публикации в 1965 году была процитирована более 10 тысяч раз.
https://sysblok.ru/knowhow/kak-nahodit-pohozhie-slova-s-pomoshhju-rasstojanija-levenshtejna/
Когда в начале XX века в газетной статье «Пребывание вдовствующей императрицы Марии Федоровны в Финляндии» опечатались в первом слове, заменив «р» на «о», вышел жуткий скандал. А как находить такие близкие по написанию слова автоматически? Разбираемся с помощью питона и расстояния Левенштейна.
Компьютер — штука очень глупая. Например, человеку очевидно, что “корова” и “Корова” - это одно и то же слово и даже если сделать в слове ошибку и написать “карова”, мы все равно догадаемся, что имелось ввиду. Не таковы компьютерные программы, поменяй одну букву — машина будет уверена, что перед ней новое слово. Это здорово осложняет дело, когда приходится работать с данными, собранными на просторах Интернета.
Однако есть способ научить компьютер сравнивать слова и вычислять степень их похожести по тому, сколько нужно вставить, удалить или заменить символов, чтобы получить из одного слова другое. Способ был придуман советским математиком Владимиром Левенштейном, статья которого с момента публикации в 1965 году была процитирована более 10 тысяч раз.
https://sysblok.ru/knowhow/kak-nahodit-pohozhie-slova-s-pomoshhju-rasstojanija-levenshtejna/
YouTube на русском, зулусском и урду: как тестируют перевод интерфейсов
В мире есть около 200 «крупных» языков с числом носителей от 3 миллионов человек. Поэтому разработчикам программного обеспечения приходится переводить свои пользовательские интерфейсы на многие языки. Качество восприятия переведённых пользовательских интерфейсов (ПИ) может оказать существенное влияние на общее качество и удобство пользования продуктом. Но как разработчики ПО и менеджеры по продукту смогут узнать больше о качестве перевода, если они сами не говорят на этом языке?
Три подхода к оценке качества
1. автоматизированные методы оценки — их относительно легко и недорого разрабатывать, но на практике они не всегда приносят пользу.
2. заключения специалистов — служат ценным источником практических идей, однако не ориентированы на поиск проблем на уровне пользователя.
3. методы, ориентированные на пользователя, — их стоимость невысока, и они отражают точку зрения пользователя, при этом не предлагая практических идей по улучшению качества текста.
Таким образом, наибольшей эффективностью обладает мнение специалистов в сочетании с методами, ориентированными на пользователя.
В 2012 году команда интернационализации YouTube получила данные о том, что вложения в разработку версий YouTube на разных языках могут принести существенную выгоду. Хотя в предыдущих проектах работа экспертов привела к значительному повышению качества текста, такие исследования оказались слишком дорогостоящими и трудоемкими. Потому было решено разработать опрос, который позволит получать отзывы пользователей о качестве языка пользовательского интерфейса и масштабировать сбор количественных данных о качестве языка.
О чем спрашивали пользователей?
1. Насколько дружественен текст интерфейса?
2. Насколько профессионально составлен текст интерфейса?
3. Насколько естественным кажется текст интерфейса?
4. Труден ли для понимания текст интерфейса ?
5. Насколько уместным Вы считаете текст интерфейса?
6. Как часто Вы сталкивались с грамматическими ошибками в тексте интерфейса ?
7. Как часто Вы сталкивались с опечатками/орфографическими ошибками в тексте интерфейса?
8. Как часто Вы сталкивались с бессмысленным текстом в интерфейсе ?
9. Как часто Вы встречали непереведенные слова (не на английском языке) в тексте интерфейса?
10. Устраивает ли Вас качество текста интерфейса при использовании английского языка?
Поскольку опросник был разработан, чтобы выявить проблемы в переводе интерфейса YouTube и улучшить его качество, он был доступен на более чем 60 языках.
Результат: по своему качеству почти треть переводов уступала оригинальной версии. А ведь YouTube переводят профессиональные лингвисты, а не машина.
По мнению Дель Гальдо и Нильсена (1996), существует три уровня, на которых следует решать проблему создания международных пользовательских интерфейсов. Первый уровень — технический; это символы, обозначения и форматы данных, привычные для пользователей в контексте родного языка. Второй уровень — создание пользовательского интерфейса и пользовательской информации, которые понятны. Основа третьего уровня — способность создавать системы, учитывающие культурные особенности пользователей. Это означает, что проекты должны учитывать конкретные культурные модели, такие как способ общения людей или способ ведения бизнеса в разных странах.
Источник
Материал подготовлен совместно с группой переводческих компаний AKM Translations
В мире есть около 200 «крупных» языков с числом носителей от 3 миллионов человек. Поэтому разработчикам программного обеспечения приходится переводить свои пользовательские интерфейсы на многие языки. Качество восприятия переведённых пользовательских интерфейсов (ПИ) может оказать существенное влияние на общее качество и удобство пользования продуктом. Но как разработчики ПО и менеджеры по продукту смогут узнать больше о качестве перевода, если они сами не говорят на этом языке?
Три подхода к оценке качества
1. автоматизированные методы оценки — их относительно легко и недорого разрабатывать, но на практике они не всегда приносят пользу.
2. заключения специалистов — служат ценным источником практических идей, однако не ориентированы на поиск проблем на уровне пользователя.
3. методы, ориентированные на пользователя, — их стоимость невысока, и они отражают точку зрения пользователя, при этом не предлагая практических идей по улучшению качества текста.
Таким образом, наибольшей эффективностью обладает мнение специалистов в сочетании с методами, ориентированными на пользователя.
В 2012 году команда интернационализации YouTube получила данные о том, что вложения в разработку версий YouTube на разных языках могут принести существенную выгоду. Хотя в предыдущих проектах работа экспертов привела к значительному повышению качества текста, такие исследования оказались слишком дорогостоящими и трудоемкими. Потому было решено разработать опрос, который позволит получать отзывы пользователей о качестве языка пользовательского интерфейса и масштабировать сбор количественных данных о качестве языка.
О чем спрашивали пользователей?
1. Насколько дружественен текст интерфейса?
2. Насколько профессионально составлен текст интерфейса?
3. Насколько естественным кажется текст интерфейса?
4. Труден ли для понимания текст интерфейса ?
5. Насколько уместным Вы считаете текст интерфейса?
6. Как часто Вы сталкивались с грамматическими ошибками в тексте интерфейса ?
7. Как часто Вы сталкивались с опечатками/орфографическими ошибками в тексте интерфейса?
8. Как часто Вы сталкивались с бессмысленным текстом в интерфейсе ?
9. Как часто Вы встречали непереведенные слова (не на английском языке) в тексте интерфейса?
10. Устраивает ли Вас качество текста интерфейса при использовании английского языка?
Поскольку опросник был разработан, чтобы выявить проблемы в переводе интерфейса YouTube и улучшить его качество, он был доступен на более чем 60 языках.
Результат: по своему качеству почти треть переводов уступала оригинальной версии. А ведь YouTube переводят профессиональные лингвисты, а не машина.
По мнению Дель Гальдо и Нильсена (1996), существует три уровня, на которых следует решать проблему создания международных пользовательских интерфейсов. Первый уровень — технический; это символы, обозначения и форматы данных, привычные для пользователей в контексте родного языка. Второй уровень — создание пользовательского интерфейса и пользовательской информации, которые понятны. Основа третьего уровня — способность создавать системы, учитывающие культурные особенности пользователей. Это означает, что проекты должны учитывать конкретные культурные модели, такие как способ общения людей или способ ведения бизнеса в разных странах.
Источник
Материал подготовлен совместно с группой переводческих компаний AKM Translations
Порноренеcсанс: как секс-индустрия изменила нашу жизнь
Пройдя долгий путь от эротических гравюр 16-го века, провокационных романов Маркиза Де Сада, журналов, VHS кассет и DVD дисков, доступных только на радиорынках и в магазинах для взрослых, порно попало в интернет. Каждую минуту сайты фиксируют около 63 992 новых пользователей и 207 405 просмотров по 57 750 разным запросам.
Порно сегодня оказывает огромное влияние на вкусовые предпочтения пользователей, на их представления о сексе и личные отношения. Сексуальные фантазии распространяются в сети, как эпидемия, и сразу становятся образцовыми моделями поведения.
Эксперимент на крысах и принятие неэтичных сюжетов
Ученый Джим Фауст задался вопросом, можно ли изменить инстинкт. Он поместил девственных самцов крыс в клетку с самками, которых предварительно опрыскал запахом мертвого, разлагающегося тела. Влечение было настолько сильным, что животные смогли преодолеть инстинкт самосохранения и стали спариваться. Когда после эксперимента самцов поместили в клетку с разными предметами для игр, они решительно выбирали те, которые «пахли смертью».
Пользователи порносайтов замечают, что их стал привлекать контент, который раньше они считали недопустимым или неэтичным. Просматривая все более экстремальные и откровенные сюжеты, люди постепенно начинают думать, что такие акты широко распространены, а значит, приемлемы. Испытывая наслаждение, мозг вырабатывает дофамин и формирует новые нейронные пути, которые связывают удовольствие с действием и позволяют прибегать к этому алгоритму снова и снова.
Правило 34
В интернете давно существует правило 34: «Если вы можете себе это вообразить, то уже есть порно про это. Без исключений». В наши дни скорость распространения информации растет беспрецедентными темпами.
Пользователям не обязательно повторять увиденный сексуальный акт, они могут просто поделиться своими впечатлениями в социальных сетях, и алгоритм ранжирования поднимет публикацию в топ. Порно, которое раньше распространялось в узких кругах, давало человеку возможность избавиться от предрассудков и дать волю эмоциям, сегодня трансформируется в мемы и обсуждения в сети.
Ежегодно Pornhub собирает большие данные и ведет анонимную статистику, классифицируя ее по гендерному признаку, региону, стране или даже по праздничным дням. Так два года назад в Америке в канун Рождества трафик сайта снизился на 45%, но запрос порно в категории «эльф» вырос на 464%.
Противоестественная маскулинность и сексуальная грамотность
Свободный доступ к сайтам и широкое распространение секс-индустрии отразилось не только на вкусовых предпочтениях, но и сформировало ошибочное представление о том, что хочет женщина. Доминантная и грубая маскулинность, типичная для порносюжетов, воспринимается подростками буквально: принуждение, оскорбления и анальный секс становятся пределом фантазий.
Рынок порно сегодня не только превратился в гигантскую индустрию, но и успел обрести противников. Активисты создают сайты по борьбе с новым наркотиком и ресурсы, рассказывающие «всю правду» о порно. Но противостояние через запрет неэффективно. Остается ждать, что скажут ученые: действительно ли проблема так велика, как рассуждают порно-алармисты — и что с ней можно сделать без полиции нравов.
Дара Марич
Пройдя долгий путь от эротических гравюр 16-го века, провокационных романов Маркиза Де Сада, журналов, VHS кассет и DVD дисков, доступных только на радиорынках и в магазинах для взрослых, порно попало в интернет. Каждую минуту сайты фиксируют около 63 992 новых пользователей и 207 405 просмотров по 57 750 разным запросам.
Порно сегодня оказывает огромное влияние на вкусовые предпочтения пользователей, на их представления о сексе и личные отношения. Сексуальные фантазии распространяются в сети, как эпидемия, и сразу становятся образцовыми моделями поведения.
Эксперимент на крысах и принятие неэтичных сюжетов
Ученый Джим Фауст задался вопросом, можно ли изменить инстинкт. Он поместил девственных самцов крыс в клетку с самками, которых предварительно опрыскал запахом мертвого, разлагающегося тела. Влечение было настолько сильным, что животные смогли преодолеть инстинкт самосохранения и стали спариваться. Когда после эксперимента самцов поместили в клетку с разными предметами для игр, они решительно выбирали те, которые «пахли смертью».
Пользователи порносайтов замечают, что их стал привлекать контент, который раньше они считали недопустимым или неэтичным. Просматривая все более экстремальные и откровенные сюжеты, люди постепенно начинают думать, что такие акты широко распространены, а значит, приемлемы. Испытывая наслаждение, мозг вырабатывает дофамин и формирует новые нейронные пути, которые связывают удовольствие с действием и позволяют прибегать к этому алгоритму снова и снова.
Правило 34
В интернете давно существует правило 34: «Если вы можете себе это вообразить, то уже есть порно про это. Без исключений». В наши дни скорость распространения информации растет беспрецедентными темпами.
Пользователям не обязательно повторять увиденный сексуальный акт, они могут просто поделиться своими впечатлениями в социальных сетях, и алгоритм ранжирования поднимет публикацию в топ. Порно, которое раньше распространялось в узких кругах, давало человеку возможность избавиться от предрассудков и дать волю эмоциям, сегодня трансформируется в мемы и обсуждения в сети.
Ежегодно Pornhub собирает большие данные и ведет анонимную статистику, классифицируя ее по гендерному признаку, региону, стране или даже по праздничным дням. Так два года назад в Америке в канун Рождества трафик сайта снизился на 45%, но запрос порно в категории «эльф» вырос на 464%.
Противоестественная маскулинность и сексуальная грамотность
Свободный доступ к сайтам и широкое распространение секс-индустрии отразилось не только на вкусовых предпочтениях, но и сформировало ошибочное представление о том, что хочет женщина. Доминантная и грубая маскулинность, типичная для порносюжетов, воспринимается подростками буквально: принуждение, оскорбления и анальный секс становятся пределом фантазий.
Рынок порно сегодня не только превратился в гигантскую индустрию, но и успел обрести противников. Активисты создают сайты по борьбе с новым наркотиком и ресурсы, рассказывающие «всю правду» о порно. Но противостояние через запрет неэффективно. Остается ждать, что скажут ученые: действительно ли проблема так велика, как рассуждают порно-алармисты — и что с ней можно сделать без полиции нравов.
Дара Марич
Судить журнал по обложке: 65 лет советской фотографии
Журнал «Советское фото» издавался в Москве с 1926 по 1991 год. Это был единственный специализированный фотожурнал в Советском Союзе, рассчитанный на широкую аудиторию и профессиональных фотожурналистов, и фотографов-любителей.
«Советское фото» выходило ежемесячно за некоторыми исключениями. Например, издание журнала было приостановлено между 1942 и 1956 годами из-за Великой Отечественной войны и долгого послевоенного восстановления. Но, несмотря на это, жизнь «Советского фото» охватывает все основные этапы культурной и политической истории страны, а обложки журналов отражают историческую специфику каждого из этих моментов.
В 2017 году команда лаборатории культурной аналитики: директор лаборатории Лев Манович, Августин Индако (Agustín Indaco) и Элис Тифентале (Alise Tifentale) начали работу над анализом базы обложек «Советского фото».
Изначально был подготовлен корпус из 455 обложек журналов, однако из-за большого количества неточностей первичной оцифровки (дубликаты, половинчатые сканы) в корпус вошло всего 401 хорошее изображение.
Посмотрев на коллаж, мы видим, что с самого начала существования журнала на обложку всегда помещали «фото номера» и слова «Советское фото», а вот расположение названия и его шрифт проходит через несколько преобразований: от жирного дублирования названия на верхней и нижней части обложки в 1926 году до гораздо более изящного и мелкого шрифта для названия в верхней части обложки в 1991.
«Близкий взгляд» на отдельные обложки
Не каждая обложка представляет собой культурную и художественную ценность, но если внимательнее рассмотреть отдельные кадры, можно выявить глубокие различия и даже общие тенденции в дизайне и макете журнала. Например, в середине двадцатых годов в «Советском фото» вполне могли быть опубликованы фотографии Александра Родченко, а начиная с 1930-х, вместо творческих и экспериментальных фотографий на обложках все чаще появляются изображения Ленина и Сталина. Эпоха перестройки и духа гласности лучше всего воплощена на обложке августовского-сентябрьского номера за 1991 год, на которой изображена полуобнаженная модель среди книг, цветов и ярких этикеток (остродефицитного по тем временами лондонского сухого джина Gordon’s).
Таким образом, первый анализ учёных подтверждает, что оцифровка и оцифрованные номера журналов могут служить полезным инструментом для более детального исследования событий в советской фотографии и контекстуализации их как части новой, более глобальной истории фотографии.
Михаил Мингазов
Журнал «Советское фото» издавался в Москве с 1926 по 1991 год. Это был единственный специализированный фотожурнал в Советском Союзе, рассчитанный на широкую аудиторию и профессиональных фотожурналистов, и фотографов-любителей.
«Советское фото» выходило ежемесячно за некоторыми исключениями. Например, издание журнала было приостановлено между 1942 и 1956 годами из-за Великой Отечественной войны и долгого послевоенного восстановления. Но, несмотря на это, жизнь «Советского фото» охватывает все основные этапы культурной и политической истории страны, а обложки журналов отражают историческую специфику каждого из этих моментов.
В 2017 году команда лаборатории культурной аналитики: директор лаборатории Лев Манович, Августин Индако (Agustín Indaco) и Элис Тифентале (Alise Tifentale) начали работу над анализом базы обложек «Советского фото».
Изначально был подготовлен корпус из 455 обложек журналов, однако из-за большого количества неточностей первичной оцифровки (дубликаты, половинчатые сканы) в корпус вошло всего 401 хорошее изображение.
Посмотрев на коллаж, мы видим, что с самого начала существования журнала на обложку всегда помещали «фото номера» и слова «Советское фото», а вот расположение названия и его шрифт проходит через несколько преобразований: от жирного дублирования названия на верхней и нижней части обложки в 1926 году до гораздо более изящного и мелкого шрифта для названия в верхней части обложки в 1991.
«Близкий взгляд» на отдельные обложки
Не каждая обложка представляет собой культурную и художественную ценность, но если внимательнее рассмотреть отдельные кадры, можно выявить глубокие различия и даже общие тенденции в дизайне и макете журнала. Например, в середине двадцатых годов в «Советском фото» вполне могли быть опубликованы фотографии Александра Родченко, а начиная с 1930-х, вместо творческих и экспериментальных фотографий на обложках все чаще появляются изображения Ленина и Сталина. Эпоха перестройки и духа гласности лучше всего воплощена на обложке августовского-сентябрьского номера за 1991 год, на которой изображена полуобнаженная модель среди книг, цветов и ярких этикеток (остродефицитного по тем временами лондонского сухого джина Gordon’s).
Таким образом, первый анализ учёных подтверждает, что оцифровка и оцифрованные номера журналов могут служить полезным инструментом для более детального исследования событий в советской фотографии и контекстуализации их как части новой, более глобальной истории фотографии.
Михаил Мингазов
👍1
Разбираем нейросети по частям: как работает градиентный спуск
Нейросети сейчас везде, и даже цифровому гуманитарию от них не скрыться. Word2vec при помощи нейросети кодирует смысл слов (вот тут мы объясняли, как), а новые модели ELMO и BERT даже научились учитывать, что слова появляются в разных контекстах и от этого из смысл тоже может меняться. Этот текст — про то, что значит «обучить» нейросеть и кто «подбирает веса» отдельных нейронов.
Градиентный спуск ищет ближайшую к случайно выбранной точке впадину на графике функции. А поскольку в нейросетях функции очень сложные и локальных впадин-минимумов на них много, такой подход должен быть неэффективен в вопросах обучения нейросети и всегда натыкаться на локальные минимумы.
Тем не менее градиентный спуск как метод обучения почему-то работает хорошо. В 2015 группа ученых из Курантовского института математических наук в Нью-Йорке нашла этому объяснение, показав, что большая часть локальных минимумов функций потерь, используемых в нейросетях, располагается близко к глобальному минимуму. Эта близость и позволяет натренированным при помощи градиентного спуска нейросетям справляться с задачами достаточно эффективно.
https://sysblok.ru/knowhow/razbiraem-nejroseti-po-chastjam-kak-rabotaet-gradientnyj-spusk/
Нейросети сейчас везде, и даже цифровому гуманитарию от них не скрыться. Word2vec при помощи нейросети кодирует смысл слов (вот тут мы объясняли, как), а новые модели ELMO и BERT даже научились учитывать, что слова появляются в разных контекстах и от этого из смысл тоже может меняться. Этот текст — про то, что значит «обучить» нейросеть и кто «подбирает веса» отдельных нейронов.
Градиентный спуск ищет ближайшую к случайно выбранной точке впадину на графике функции. А поскольку в нейросетях функции очень сложные и локальных впадин-минимумов на них много, такой подход должен быть неэффективен в вопросах обучения нейросети и всегда натыкаться на локальные минимумы.
Тем не менее градиентный спуск как метод обучения почему-то работает хорошо. В 2015 группа ученых из Курантовского института математических наук в Нью-Йорке нашла этому объяснение, показав, что большая часть локальных минимумов функций потерь, используемых в нейросетях, располагается близко к глобальному минимуму. Эта близость и позволяет натренированным при помощи градиентного спуска нейросетям справляться с задачами достаточно эффективно.
https://sysblok.ru/knowhow/razbiraem-nejroseti-po-chastjam-kak-rabotaet-gradientnyj-spusk/
Роботы вступают в гонку вооружений: военные применения ИИ
Искусственный интеллект (ИИ) в последние годы развивался очень быстро, что привело к его широкому спектру как гражданских, так и военных применений. Очевидно, что военным необходимо постоянно разрабатывать более совершенные технологии и оружие, и попытки применить ИИ становятся логичным шагом в гонке вооружений.
Диалог солдата и машины
Когда речь заходит о применении ИИ в военной сфере, человеко-машинные отношения становятся одной из основных обсуждаемых тем. В настоящее время можно говорить о трех типах отношений.
Первый, когда машина контролирует окружающую среду, но именно человек принимает окончательное решение — называется полуавтономной системой.
Контролируемая автономная система — второй тип, когда машина может действовать самостоятельно, но человек имеет возможность наблюдать за ее поведением и вмешиваться в случае необходимости.
Третий тип — полностью автономная система, человек не имеет никакого контроля над машиной. Пока в военной сфере используются только системы первого или второго типа отношений, т. е. дроны и высокоточные ракеты.
Другие способы использовать ИИ в военной сфере — анализ данных. Хороший пример — американский проект Maven, где машина обрабатывает и интерпретирует видео с беспилотников. С использованием ИИ беспилотникам, самолетам, кораблям, танкам и т. д. перестанет быть нужен человек. Так, почти полностью автономным является израильский беспилотник Harpy.
Война и политика
Однако ИИ не может оставаться в руках лишь нескольких государств, как, например, в случае с ядерным оружием. Достаточно скоро значительное число государств и даже негосударственных организаций смогут использовать со своей стороны военный потенциал ИИ. Уже на этом этапе качество используемых машин станет куда более важным.
ИИ поможет справиться с военными «большими данными» (Big Data). Обращение к данным позволит системам ИИ учитывать те факторы, о которых люди могут не думать, когда находятся в бою. Тогда это будет служить преимуществом над врагом.
Наконец, по мере того, как будет появляться все больше ПО для военного ИИ, неизбежны и новые споры об оптимальном соотношении количества и качества. Здесь возможно такое же разделение, как и в остальном оружейном рынке: простые, дешевые в изготовлении массовые устройства с одной стороны — и сверхдорогие разработки для элитных войск с другой.
Женя Заковоротная
Искусственный интеллект (ИИ) в последние годы развивался очень быстро, что привело к его широкому спектру как гражданских, так и военных применений. Очевидно, что военным необходимо постоянно разрабатывать более совершенные технологии и оружие, и попытки применить ИИ становятся логичным шагом в гонке вооружений.
Диалог солдата и машины
Когда речь заходит о применении ИИ в военной сфере, человеко-машинные отношения становятся одной из основных обсуждаемых тем. В настоящее время можно говорить о трех типах отношений.
Первый, когда машина контролирует окружающую среду, но именно человек принимает окончательное решение — называется полуавтономной системой.
Контролируемая автономная система — второй тип, когда машина может действовать самостоятельно, но человек имеет возможность наблюдать за ее поведением и вмешиваться в случае необходимости.
Третий тип — полностью автономная система, человек не имеет никакого контроля над машиной. Пока в военной сфере используются только системы первого или второго типа отношений, т. е. дроны и высокоточные ракеты.
Другие способы использовать ИИ в военной сфере — анализ данных. Хороший пример — американский проект Maven, где машина обрабатывает и интерпретирует видео с беспилотников. С использованием ИИ беспилотникам, самолетам, кораблям, танкам и т. д. перестанет быть нужен человек. Так, почти полностью автономным является израильский беспилотник Harpy.
Война и политика
Однако ИИ не может оставаться в руках лишь нескольких государств, как, например, в случае с ядерным оружием. Достаточно скоро значительное число государств и даже негосударственных организаций смогут использовать со своей стороны военный потенциал ИИ. Уже на этом этапе качество используемых машин станет куда более важным.
ИИ поможет справиться с военными «большими данными» (Big Data). Обращение к данным позволит системам ИИ учитывать те факторы, о которых люди могут не думать, когда находятся в бою. Тогда это будет служить преимуществом над врагом.
Наконец, по мере того, как будет появляться все больше ПО для военного ИИ, неизбежны и новые споры об оптимальном соотношении количества и качества. Здесь возможно такое же разделение, как и в остальном оружейном рынке: простые, дешевые в изготовлении массовые устройства с одной стороны — и сверхдорогие разработки для элитных войск с другой.
Женя Заковоротная
Кто это сказал? Разбирается Google AI
В последние годы речевые и языковые технологии коренным образом меняют наше повседневное взаимодействие с девайсами: мы можем одним голосом включить любимую музыку на умных колонках, узнать погоду на завтра или просто поболтать с голосовым помощником, всегда готовым тебя выслушать. Но несмотря на заметный прогресс в этой сфере, компьютеры до сих пор плохо справляются с задачей понимания естественной речи в случаях разговоров нескольких человек: интервью, конференции, телефонные звонки или записи медицинского приёма пациентов. Для понимания естественной речи необходимо не только распознавать слова, но и определять говорящего их человека.
Недавняя разработка инженеров Google AI использует для решения этой проблемы рекуррентную нейронную сеть, что позволяет обойти ограничения традиционно используемой системы диаризации (Speech Diarization, SD).
Разрабтка Google AI состоит их трех сетей:
1) сеть транскрипции, которая устанавливает соответствие между последовательностями звуков и фонемами;
2) сеть прогнозирования, которая предсказывает следующий тег говорящего с учетом уже определенных ранее тегов;
3) объединенная сеть, которая соединяет выводы двух предыдущих сетей и задает распределение вероятностей в наборе тегов на каждом отрезке времени. Также в архитектуре модели предусмотрен цикл обратной связи, где слова, распознанные ранее, снова отправляются на ввод, что позволяет модели учитывать такие данные как, например, конец вопроса.
https://sysblok.ru/linguistics/kto-jeto-skazal-razbiraetsja-google-ai/
В последние годы речевые и языковые технологии коренным образом меняют наше повседневное взаимодействие с девайсами: мы можем одним голосом включить любимую музыку на умных колонках, узнать погоду на завтра или просто поболтать с голосовым помощником, всегда готовым тебя выслушать. Но несмотря на заметный прогресс в этой сфере, компьютеры до сих пор плохо справляются с задачей понимания естественной речи в случаях разговоров нескольких человек: интервью, конференции, телефонные звонки или записи медицинского приёма пациентов. Для понимания естественной речи необходимо не только распознавать слова, но и определять говорящего их человека.
Недавняя разработка инженеров Google AI использует для решения этой проблемы рекуррентную нейронную сеть, что позволяет обойти ограничения традиционно используемой системы диаризации (Speech Diarization, SD).
Разрабтка Google AI состоит их трех сетей:
1) сеть транскрипции, которая устанавливает соответствие между последовательностями звуков и фонемами;
2) сеть прогнозирования, которая предсказывает следующий тег говорящего с учетом уже определенных ранее тегов;
3) объединенная сеть, которая соединяет выводы двух предыдущих сетей и задает распределение вероятностей в наборе тегов на каждом отрезке времени. Также в архитектуре модели предусмотрен цикл обратной связи, где слова, распознанные ранее, снова отправляются на ввод, что позволяет модели учитывать такие данные как, например, конец вопроса.
https://sysblok.ru/linguistics/kto-jeto-skazal-razbiraetsja-google-ai/
Черных — в тюрьму, женщин — в секретарши: этика в эпоху искусственного интеллекта
Любая технологическая «революция» входит в нашу жизнь незаметно. И то, что вчера казалось фантастикой о далёком будущем, сегодня стало тем, на что мы уже просто не обращаем внимания — бытом и повседневностью.
Ещё вчера бизнес с крайней осторожностью использовал ИИ только в системах поддержки принятия решений, предлагая человеку оценить предложенный системой вариант и всё-таки самому принять решение — ведь человек может объяснить почему, а ИИ — нет. Сегодня же крупные компании готовы, пусть пока и частично, доверить свой финансовый результат полностью автоматическим решениям — как, например, это уже делает Сбербанк, планируя перевести 100% решений о кредитах физическим лицам в зону ответственности ИИ уже до конца 2020 года
Люди не могут проанализировать весь свой опыт, полученный за длительный период времени, а машины делают это с лёгкостью. Люди исключают факторы, которые на их взгляд несущественны для решаемого вопроса, тогда так машины не отбросят ничего. Отсутствие избирательности предоставляет машинам возможность рассматривать факторы, которые человек посчитал бы неуместными для принятия решения.
ProPublica предоставила яркое свидетельство этого явления в 2016 году. В судах США использовалась компьютерная программа для выявления подсудимых, которые с большей вероятностью повторят преступление в будущем. Программа ошибочно отмечала чёрнокожих подсудимых, не совершавших рецидивных правонарушений в течение периода более двух лет, практически в два раза чаще по сравнению с белыми правонарушителями. Если бы то же самое сделал человек, его бы объявили расистом.
Действительно ли мы хотим передать процесс принятия решений машинам, обучающимся исключительно на прошлом и потому полностью зависящим от него, вместо того, чтобы самим формировать будущее?
В дивном новом мире сложные решения сводятся к повторяющимся выборам и ограничиваются обозримыми результатами. Сложность урезана до простоты, мораль сведена к выгоде. Сегодня этика обосновывает наши решения. Но не так много времени осталось до того момента, когда наши решения поставят под сомнение всю нашу мораль.
Александра Сахарова
Любая технологическая «революция» входит в нашу жизнь незаметно. И то, что вчера казалось фантастикой о далёком будущем, сегодня стало тем, на что мы уже просто не обращаем внимания — бытом и повседневностью.
Ещё вчера бизнес с крайней осторожностью использовал ИИ только в системах поддержки принятия решений, предлагая человеку оценить предложенный системой вариант и всё-таки самому принять решение — ведь человек может объяснить почему, а ИИ — нет. Сегодня же крупные компании готовы, пусть пока и частично, доверить свой финансовый результат полностью автоматическим решениям — как, например, это уже делает Сбербанк, планируя перевести 100% решений о кредитах физическим лицам в зону ответственности ИИ уже до конца 2020 года
Люди не могут проанализировать весь свой опыт, полученный за длительный период времени, а машины делают это с лёгкостью. Люди исключают факторы, которые на их взгляд несущественны для решаемого вопроса, тогда так машины не отбросят ничего. Отсутствие избирательности предоставляет машинам возможность рассматривать факторы, которые человек посчитал бы неуместными для принятия решения.
ProPublica предоставила яркое свидетельство этого явления в 2016 году. В судах США использовалась компьютерная программа для выявления подсудимых, которые с большей вероятностью повторят преступление в будущем. Программа ошибочно отмечала чёрнокожих подсудимых, не совершавших рецидивных правонарушений в течение периода более двух лет, практически в два раза чаще по сравнению с белыми правонарушителями. Если бы то же самое сделал человек, его бы объявили расистом.
Действительно ли мы хотим передать процесс принятия решений машинам, обучающимся исключительно на прошлом и потому полностью зависящим от него, вместо того, чтобы самим формировать будущее?
В дивном новом мире сложные решения сводятся к повторяющимся выборам и ограничиваются обозримыми результатами. Сложность урезана до простоты, мораль сведена к выгоде. Сегодня этика обосновывает наши решения. Но не так много времени осталось до того момента, когда наши решения поставят под сомнение всю нашу мораль.
Александра Сахарова
Как начать свой путь в NLP (не путать с НЛП)
NLP расшифровывается как Natural Language Processing и представляет собой целое направление, связанное с обработкой и распознаванием языковых данных. На сегодняшний день в числе достижений NLP можно отметить машинный перевод, чат-боты, голосовых помощников, автоматических переводчиков и умную контекстную рекламу.
Где используется?
Во множестве приложений и инструментов, от роботов в колл-центрах, электронных консультантов на сайтах, таргетированной рекламы и Google Translate, до проверки грамматики в Microsoft Word и Grammarly. Не забудем о голосовых помощниках вроде Siri, Алисы и Алексы.
Как работает?
Основная задача и идея NLP (и NLU, Natural Language Understanding) — превратить неструктурированные (сырые) языковые данные в форму, понятную компьютеру.
В чем сложности?
Сама природа человеческого естественного языка делает некоторые задачи NLP непростыми: не все закономерности можно эффективно формализовать, некоторые феномены являются очень абстрактными (например, до сих пор эффективно не решена задача автоматического обнаружения сарказма, иронии и импликатур в текстах. Некоторые более простые — например, описать использование окончаний множественного числа в существительных.Но как разобраться во всем этом?
Шаг 1. Выяснить, что такое NLP — только что вами пройден.
Шаг 2. Познакомиться с арсеналом методов: лемматизацией, токенизацией и морфологическим разбором.
Шаг 3. Осознать поле типичных NLP-задач (от автоматического распознавания речи до создания языковых моделей и генерации текста)
Шаг 4. Найти полезные Ресурсы: классическая книга Дэна Журафски и Криса Мэннинга, датасеты, видео и курсы по обработке естественного языка на coursera.
https://sysblok.ru/nlp/kak-nachat-svoj-put-v-nlp-ne-putat-s-nlp/
NLP расшифровывается как Natural Language Processing и представляет собой целое направление, связанное с обработкой и распознаванием языковых данных. На сегодняшний день в числе достижений NLP можно отметить машинный перевод, чат-боты, голосовых помощников, автоматических переводчиков и умную контекстную рекламу.
Где используется?
Во множестве приложений и инструментов, от роботов в колл-центрах, электронных консультантов на сайтах, таргетированной рекламы и Google Translate, до проверки грамматики в Microsoft Word и Grammarly. Не забудем о голосовых помощниках вроде Siri, Алисы и Алексы.
Как работает?
Основная задача и идея NLP (и NLU, Natural Language Understanding) — превратить неструктурированные (сырые) языковые данные в форму, понятную компьютеру.
В чем сложности?
Сама природа человеческого естественного языка делает некоторые задачи NLP непростыми: не все закономерности можно эффективно формализовать, некоторые феномены являются очень абстрактными (например, до сих пор эффективно не решена задача автоматического обнаружения сарказма, иронии и импликатур в текстах. Некоторые более простые — например, описать использование окончаний множественного числа в существительных.Но как разобраться во всем этом?
Шаг 1. Выяснить, что такое NLP — только что вами пройден.
Шаг 2. Познакомиться с арсеналом методов: лемматизацией, токенизацией и морфологическим разбором.
Шаг 3. Осознать поле типичных NLP-задач (от автоматического распознавания речи до создания языковых моделей и генерации текста)
Шаг 4. Найти полезные Ресурсы: классическая книга Дэна Журафски и Криса Мэннинга, датасеты, видео и курсы по обработке естественного языка на coursera.
https://sysblok.ru/nlp/kak-nachat-svoj-put-v-nlp-ne-putat-s-nlp/
Системный Блокъ
Как начать свой путь в NLP (не путать с НЛП) - Системный Блокъ
Хотите разобраться в автоматической обработке языка и стать NLP-инженером? Вам сюда
Скажи мне, какой у тебя индекс Хирша, и я скажу, кто ты
Наукометрия — область науковедения, исследующая науку количественными методами. Наукометрические подходы используются для принятия решений о финансировании научных групп и отдельных исследователей, а также для оценки значимости учёных в их научной области. Основную часть таких подходов составляют библиометрические показатели — параметры, которые оценивают опубликованные результаты исследований.
Основными библиометрическими показателями в науке являются количество статей и их цитируемость (использование предложенных в статье идей другими учёными). Считается, что по количеству статей можно сделать вывод о том, насколько продуктивен учёный, а по количеству цитирований — насколько его работа значима в научном сообществе.
Индекс Хирша
В 2005 году физик Хорхе Хирш предложил использовать для расчета вклада учёного индекс, который учитывает и продуктивность исследователя, и значимость его работы. Этот индекс, получивший название «индекс Хирша» (h-index), рассчитывается так: индекс Хирша учёного равен h, если h из его N статей цитируются как минимум h раз каждая, а остальные (N-h) статей цитируются не более чем h раз каждая.
Что не так с индексом Хирша?
Индекс Хирша, безусловно, обладает достоинствами. Этих достоинств, впрочем, оказывается недостаточно для того, чтобы научное сообщество приняло h-index таким, какой он есть. И у учёных есть на то причины.
Во-первых, h-index непригоден для сравнения исследователей из разных научных областей. Количество публикаций и цитирований отличается в зависимости от количества исследователей в данной области, темы исследования, языка публикаций, возраста области науки и других параметров.
Во-вторых, h-index одного и того же учёного в разных базах данных будет разным. Индекс Хирша рассчитывается автоматически на основании информации, имеющейся в базе данных. Поэтому, чем больше там публикаций, тем более высоким будет индекс Хирша.
В-третьих, индекс Хирша не учитывает количество соавторов и индивидуальный вклад каждого из них.
«О, радость взаимного цитирования!»
Основные способы накрутки количества цитирований — самоцитирование и взаимное цитирование. Летом 2019 года был опубликован список 100 тыс. самых цитируемых исследователей, где нобелевские лауреаты и выдающиеся учёные стоят плечом к плечу с менее известными деятелями, такими как Сундарапандьян Вайдьянатан из Индии. 94% цитирований его работ — это ссылки из статей Сундарапандьяна и его соавторов. И этот случай не единичный. Как минимум у 250 исследователей из опубликованного списка процент самоцитирования и цитирования от соавторов превышает 50%.
Кардашьян от науки
Кроме библиометрических показателей есть показатели альтметрические. Это альтернативные метрики, которыми могут оцениваться публикации: количество просмотров, количество скачиваний, количество упоминаний и репостов публикации в социальных сетях, СМИ, блогах и т.д.
Есть и экстравагантные метрики — в 2014 был предложен индекс Кардашьян. (K-index) — это мера несоответствия профиля учёного в социальных медиа и его публикационной активности, основанная на сравнении количества цитирований его работ и количества подписчиков в Твиттере. Так, высокий K-index указывает на безосновательную популярность учёного, а низкий предполагает, что учёного недооценивают.
С другой стороны, участие в популяризации науки — это ли не вклад в неё?
Наукометрия — область науковедения, исследующая науку количественными методами. Наукометрические подходы используются для принятия решений о финансировании научных групп и отдельных исследователей, а также для оценки значимости учёных в их научной области. Основную часть таких подходов составляют библиометрические показатели — параметры, которые оценивают опубликованные результаты исследований.
Основными библиометрическими показателями в науке являются количество статей и их цитируемость (использование предложенных в статье идей другими учёными). Считается, что по количеству статей можно сделать вывод о том, насколько продуктивен учёный, а по количеству цитирований — насколько его работа значима в научном сообществе.
Индекс Хирша
В 2005 году физик Хорхе Хирш предложил использовать для расчета вклада учёного индекс, который учитывает и продуктивность исследователя, и значимость его работы. Этот индекс, получивший название «индекс Хирша» (h-index), рассчитывается так: индекс Хирша учёного равен h, если h из его N статей цитируются как минимум h раз каждая, а остальные (N-h) статей цитируются не более чем h раз каждая.
Что не так с индексом Хирша?
Индекс Хирша, безусловно, обладает достоинствами. Этих достоинств, впрочем, оказывается недостаточно для того, чтобы научное сообщество приняло h-index таким, какой он есть. И у учёных есть на то причины.
Во-первых, h-index непригоден для сравнения исследователей из разных научных областей. Количество публикаций и цитирований отличается в зависимости от количества исследователей в данной области, темы исследования, языка публикаций, возраста области науки и других параметров.
Во-вторых, h-index одного и того же учёного в разных базах данных будет разным. Индекс Хирша рассчитывается автоматически на основании информации, имеющейся в базе данных. Поэтому, чем больше там публикаций, тем более высоким будет индекс Хирша.
В-третьих, индекс Хирша не учитывает количество соавторов и индивидуальный вклад каждого из них.
«О, радость взаимного цитирования!»
Основные способы накрутки количества цитирований — самоцитирование и взаимное цитирование. Летом 2019 года был опубликован список 100 тыс. самых цитируемых исследователей, где нобелевские лауреаты и выдающиеся учёные стоят плечом к плечу с менее известными деятелями, такими как Сундарапандьян Вайдьянатан из Индии. 94% цитирований его работ — это ссылки из статей Сундарапандьяна и его соавторов. И этот случай не единичный. Как минимум у 250 исследователей из опубликованного списка процент самоцитирования и цитирования от соавторов превышает 50%.
Кардашьян от науки
Кроме библиометрических показателей есть показатели альтметрические. Это альтернативные метрики, которыми могут оцениваться публикации: количество просмотров, количество скачиваний, количество упоминаний и репостов публикации в социальных сетях, СМИ, блогах и т.д.
Есть и экстравагантные метрики — в 2014 был предложен индекс Кардашьян. (K-index) — это мера несоответствия профиля учёного в социальных медиа и его публикационной активности, основанная на сравнении количества цитирований его работ и количества подписчиков в Твиттере. Так, высокий K-index указывает на безосновательную популярность учёного, а низкий предполагает, что учёного недооценивают.
С другой стороны, участие в популяризации науки — это ли не вклад в неё?
VK Видео
Индекс Хирша и радость взаимного цитирования
О, радость! О, радость Взаимного цитирования!!!! Я пошёл писать статью ;-)
Помедленнее, я записываю!
Научить машину распознаванию речи можно либо с помощью сравнения с эталоном, либо методом контекстно-зависимой классификации («узнавания» отдельных мелких элементов, которые складываются в полноценные слова).
В первом случае в память устройства закладывается некоторый объем исходных примеров. Во втором на помощь приходят методы дискриминантного анализа и марковские модели (оба метода основаны на статистике), а также нейронные сети.
Вариант 1: действуем по шаблону
Вопрос системы: «На какой месяц вы планируете поездку?»
Ответ человека: «Август».
В этом случае анализируется ответ, соотносящийся с ключевым словом («месяц»). База соответствий этому слову включает двенадцать наименований; система ожидает, что человек выберет нужное и произнесет его в именительном падеже. Если вместо «Август» пользователь ответит «В августе», могут возникнуть затруднения.
Вопрос системы: «В какое время вы хотите записаться к терапевту?»
Ответ человека: «14:25».
В систему, работающую со встроенными грамматиками, уже заложено большинство необходимых значений, поэтому она работает с семантикой и темой ответа. Обратите внимание, что в этом примере пользователь не называет «ровное» время — и, следовательно, ожидает, что устройство не запишет его на два или половину третьего.
Вариант 2: ищем ключевые слова и взаимосвязи
Вопрос системы: «Что вас интересует?»
Ответ человека: «Как подать документы на химический факультет МГУ?»
В подобном запросе будут важны «как» (а не «когда»), «подать» (а не «забрать»), «химический» (а не «физический») и «МГУ» (а не «МГИМО»). Система должна будет оценить все слова запроса или команды и учесть их взаимосвязь.
Находка для шпиона
Для распознавания устной речи необязательно говорить что-то вслух: одна из новых разработок — интерфейсы безмолвного доступа (SSI, silent speech interfaces), системы, распознающие речевые сигналы на самой ранней стадии артикулирования. Движения лицевых мышц несут информацию о том, что именно мы произносим.
Весной 2018 года модель под названием AlterEgo представили в Массачусетском технологическом институте (MIT). В серии экспериментов с десятью добровольцами удалось добиться 92% распознаваемости. Ученые обещают, что скоро этот показатель вырастет еще на несколько пунктов.
Говорить о том, что машина сможет заменить человека в создании и понимании действительно сложных текстов, еще очень рано — но она уже совершенно точно готова выслушать тех, кто в этом нуждается.
Наталия Крякина
Научить машину распознаванию речи можно либо с помощью сравнения с эталоном, либо методом контекстно-зависимой классификации («узнавания» отдельных мелких элементов, которые складываются в полноценные слова).
В первом случае в память устройства закладывается некоторый объем исходных примеров. Во втором на помощь приходят методы дискриминантного анализа и марковские модели (оба метода основаны на статистике), а также нейронные сети.
Вариант 1: действуем по шаблону
Вопрос системы: «На какой месяц вы планируете поездку?»
Ответ человека: «Август».
В этом случае анализируется ответ, соотносящийся с ключевым словом («месяц»). База соответствий этому слову включает двенадцать наименований; система ожидает, что человек выберет нужное и произнесет его в именительном падеже. Если вместо «Август» пользователь ответит «В августе», могут возникнуть затруднения.
Вопрос системы: «В какое время вы хотите записаться к терапевту?»
Ответ человека: «14:25».
В систему, работающую со встроенными грамматиками, уже заложено большинство необходимых значений, поэтому она работает с семантикой и темой ответа. Обратите внимание, что в этом примере пользователь не называет «ровное» время — и, следовательно, ожидает, что устройство не запишет его на два или половину третьего.
Вариант 2: ищем ключевые слова и взаимосвязи
Вопрос системы: «Что вас интересует?»
Ответ человека: «Как подать документы на химический факультет МГУ?»
В подобном запросе будут важны «как» (а не «когда»), «подать» (а не «забрать»), «химический» (а не «физический») и «МГУ» (а не «МГИМО»). Система должна будет оценить все слова запроса или команды и учесть их взаимосвязь.
Находка для шпиона
Для распознавания устной речи необязательно говорить что-то вслух: одна из новых разработок — интерфейсы безмолвного доступа (SSI, silent speech interfaces), системы, распознающие речевые сигналы на самой ранней стадии артикулирования. Движения лицевых мышц несут информацию о том, что именно мы произносим.
Весной 2018 года модель под названием AlterEgo представили в Массачусетском технологическом институте (MIT). В серии экспериментов с десятью добровольцами удалось добиться 92% распознаваемости. Ученые обещают, что скоро этот показатель вырастет еще на несколько пунктов.
Говорить о том, что машина сможет заменить человека в создании и понимании действительно сложных текстов, еще очень рано — но она уже совершенно точно готова выслушать тех, кто в этом нуждается.
Наталия Крякина