Памяти А. А. Зализняка
#nlp #linguistics
Андрей Анатольевич Зализняк (1935–2017) был выдающимся советским и российским лингвистом и академиком РАН. Он занимался широким кругом проблем, начиная от словоизменения в русском языке и заканчивая древненовгородским диалектом.
И хотя А. А. Зализняк никогда не был и не считался «компьютерным лингвистом», его работы по русскому словоизменению легли в основу всех морфологических анализаторов для русского языка. А от морфологического анализа зависит работа поисковиков, машинных переводчиков и даже чатботов вроде «Алисы».
«Системный Блокъ» создал цикл из четырех статей, посвященных трудам и открытиям А. А. Зализняка.
Берестяные грамоты от раскопа до компьютера
А. А. Зализняк нашел существенное отличие северо-западных говоров от остальных, что привело к пересмотру уже сложившейся схемы диалектов Древней Руси. Источником сведений об этих говорах стали берестяные грамоты, первую из которых нашли в 1951 г.
Оказалось, что в X—XI вв. на территории восточного славянства членение было не таким, как можно представить на основании сегодняшнего разделения языков (великорусский, украинский, белорусский), а иным: северо-запад отличался от всех остальных говоров. Иными словами, существовала группа древненовгородских и древнепсковских диалектов и классическая форма древнерусского языка, объединявшая Киев, Суздаль, Ростов, будущую Москву и территорию Белоруссии. Это и были две главные составные части будущего русского языка.
https://sysblok.ru/nlp/berestjanye-gramoty-ot-raskopa-do-kompjutera-pamjati-a-a-zaliznjaka-chast-i/
«Слово о полку Игореве» как улика
Существует мнение, что «Слово о полку Игореве» написано не в XII веке, а несколькими веками позднее, то есть является стилизацией под древность, а не истинным памятником древнерусской словесности. А. А. Зализняк рассматривает проблему подлинности «Слова» с лингвистической точки зрения и последовательно доказывает невозможность никакой другой датировки, кроме XII века.
https://sysblok.ru/nlp/slovo-o-polku-igoreve-kak-ulika-pamjati-a-a-zaliznjaka-chast-ii/
Акцентуаторы
Русское ударение свободно и подвижно. А. А. Зализняк мечтал о программе, которая сможет расставлять ударения в тексте автоматически.
Магистры из НИУ ВШЭ воплотили его идею в жизнь и создали акцентуатор для русского языка sStress. Это автоматическая система, принимающая на вход текст на русском языке и расставляющая в нем ударения. В основе этого акцентуатора лежит рекуррентная нейронная сеть LSTM, обученная на акцентологическом подкорпусе Национального корпуса русского языка.
В качестве базы данных молодые ученые используют «Грамматический словарь русского языка» (1985) А. А. Зализняка, который насчитывает более 100 000 слов с указанным ударением (и ударной парадигмой). Второй источник — Транскрипции Русского национального корпуса (РНЦ) (Гришина, 2003). Разговорный корпус был собран из записей речи люди и стенограмм русских фильмов с расставленными ударениями.
https://sysblok.ru/nlp/akcentuatory-pamjati-a-a-zaliznjaka-chast-iii/
Морфология
Поисковики, умеющие обрабатывать русскоязычные запросы, а также навигаторы, голосовые команды и онлайн-переводчики, работающие с русским языком, появились бы на несколько лет позже, если бы не «Грамматический словарь русского языка» А. А. Зализняка — первое полное описание грамматических форм русского языка, по которому для каждого слова можно построить все его словоформы.
Словарь Зализняка лег в основу автоматического порождения всех словоизменительных форм в русском интернете. Его концепция используется для описания большинства русских слов в Викисловаре. Яндекс может не только корректно склонять и спрягать русские слова, но и строить гипотезы о том, как будет изменяться любое незнакомое системе слово.
https://sysblok.ru/nlp/morfologija-pamjati-a-a-zaliznjaka-chast-iv/
#nlp #linguistics
Андрей Анатольевич Зализняк (1935–2017) был выдающимся советским и российским лингвистом и академиком РАН. Он занимался широким кругом проблем, начиная от словоизменения в русском языке и заканчивая древненовгородским диалектом.
И хотя А. А. Зализняк никогда не был и не считался «компьютерным лингвистом», его работы по русскому словоизменению легли в основу всех морфологических анализаторов для русского языка. А от морфологического анализа зависит работа поисковиков, машинных переводчиков и даже чатботов вроде «Алисы».
«Системный Блокъ» создал цикл из четырех статей, посвященных трудам и открытиям А. А. Зализняка.
Берестяные грамоты от раскопа до компьютера
А. А. Зализняк нашел существенное отличие северо-западных говоров от остальных, что привело к пересмотру уже сложившейся схемы диалектов Древней Руси. Источником сведений об этих говорах стали берестяные грамоты, первую из которых нашли в 1951 г.
Оказалось, что в X—XI вв. на территории восточного славянства членение было не таким, как можно представить на основании сегодняшнего разделения языков (великорусский, украинский, белорусский), а иным: северо-запад отличался от всех остальных говоров. Иными словами, существовала группа древненовгородских и древнепсковских диалектов и классическая форма древнерусского языка, объединявшая Киев, Суздаль, Ростов, будущую Москву и территорию Белоруссии. Это и были две главные составные части будущего русского языка.
https://sysblok.ru/nlp/berestjanye-gramoty-ot-raskopa-do-kompjutera-pamjati-a-a-zaliznjaka-chast-i/
«Слово о полку Игореве» как улика
Существует мнение, что «Слово о полку Игореве» написано не в XII веке, а несколькими веками позднее, то есть является стилизацией под древность, а не истинным памятником древнерусской словесности. А. А. Зализняк рассматривает проблему подлинности «Слова» с лингвистической точки зрения и последовательно доказывает невозможность никакой другой датировки, кроме XII века.
https://sysblok.ru/nlp/slovo-o-polku-igoreve-kak-ulika-pamjati-a-a-zaliznjaka-chast-ii/
Акцентуаторы
Русское ударение свободно и подвижно. А. А. Зализняк мечтал о программе, которая сможет расставлять ударения в тексте автоматически.
Магистры из НИУ ВШЭ воплотили его идею в жизнь и создали акцентуатор для русского языка sStress. Это автоматическая система, принимающая на вход текст на русском языке и расставляющая в нем ударения. В основе этого акцентуатора лежит рекуррентная нейронная сеть LSTM, обученная на акцентологическом подкорпусе Национального корпуса русского языка.
В качестве базы данных молодые ученые используют «Грамматический словарь русского языка» (1985) А. А. Зализняка, который насчитывает более 100 000 слов с указанным ударением (и ударной парадигмой). Второй источник — Транскрипции Русского национального корпуса (РНЦ) (Гришина, 2003). Разговорный корпус был собран из записей речи люди и стенограмм русских фильмов с расставленными ударениями.
https://sysblok.ru/nlp/akcentuatory-pamjati-a-a-zaliznjaka-chast-iii/
Морфология
Поисковики, умеющие обрабатывать русскоязычные запросы, а также навигаторы, голосовые команды и онлайн-переводчики, работающие с русским языком, появились бы на несколько лет позже, если бы не «Грамматический словарь русского языка» А. А. Зализняка — первое полное описание грамматических форм русского языка, по которому для каждого слова можно построить все его словоформы.
Словарь Зализняка лег в основу автоматического порождения всех словоизменительных форм в русском интернете. Его концепция используется для описания большинства русских слов в Викисловаре. Яндекс может не только корректно склонять и спрягать русские слова, но и строить гипотезы о том, как будет изменяться любое незнакомое системе слово.
https://sysblok.ru/nlp/morfologija-pamjati-a-a-zaliznjaka-chast-iv/
ЕГЭ для нейросетей: какую языковую модель можно назвать «умной»?
#nlp #linguistics
С развитием автоматической обработки языка (NLP) языковые модели решают все более сложные задачи. Нейросеть должна научиться понимать запрос пользователя и выдавать на него правильный и адекватный ответ. Компания OpenAi предложила решение: формулировать любую задачу ИИ как продолжение текста, введенного пользователем. Так можно делать и машинные переводчики, и вопросно-ответные системы, и вообще почти что угодно в NLP.
В языковых моделях слова представлены в виде векторов-эмбеддингов. И если на начальном этапе развития NLP эмбеддинги хранили информацию только о частотных контекстах употребления слов, то сейчас модели создают векторные представления слов с синтаксической и морфологической информацией. Ученые пытаются понять природу эмбеддингов, чтобы разобраться, почему одни модели успешны, а другие нет.
Как устроен тест
SentEval — универсальный набор тестов для оценки качества моделей, разработанный в 2018 году в Facebook. Чтобы пройти «экзамен», нужно ответить на 10 вопросов из 3 концептуальных групп: внешняя, синтаксическая и семантическая информация.
— Задания из первой группы содержат простые вопросы, например, посчитать количество слов в предложении.
— Синтаксические вопросы уже сложнее: языковой модели нужно рассчитать глубину синтаксического древа или перечислить верхнеуровневые составляющие.
— Третья часть использует синтаксические свойства предложения. Модель должна определить время глагола, число подлежащего или ответить, в каких предложениях было заменено слово.
Будущее «экзамена»
Тестирование моделей и изучение их неявных свойств постепенно становится отдельной областью науки. При изучении языковой модели BERT ученые выяснили, что внутри модели можно найти разные уровни «освоения» языка. Нижние слои специализируются на внешней информации, средние уровни лучше справляются с вопросами синтаксической группы, а верхние слои сохраняют информацию для специального задания, на которое обучается модель.
Однако пока эти выводы разделяют не все исследователи — внутреннее устройство нейросетей во многом остается «черным ящиком».
https://sysblok.ru/linguistics/egje-dlja-nejrosetej-kak-testirujut-usvoenie-jazyka-mashinami/
Анна Аксёнова
#nlp #linguistics
С развитием автоматической обработки языка (NLP) языковые модели решают все более сложные задачи. Нейросеть должна научиться понимать запрос пользователя и выдавать на него правильный и адекватный ответ. Компания OpenAi предложила решение: формулировать любую задачу ИИ как продолжение текста, введенного пользователем. Так можно делать и машинные переводчики, и вопросно-ответные системы, и вообще почти что угодно в NLP.
В языковых моделях слова представлены в виде векторов-эмбеддингов. И если на начальном этапе развития NLP эмбеддинги хранили информацию только о частотных контекстах употребления слов, то сейчас модели создают векторные представления слов с синтаксической и морфологической информацией. Ученые пытаются понять природу эмбеддингов, чтобы разобраться, почему одни модели успешны, а другие нет.
Как устроен тест
SentEval — универсальный набор тестов для оценки качества моделей, разработанный в 2018 году в Facebook. Чтобы пройти «экзамен», нужно ответить на 10 вопросов из 3 концептуальных групп: внешняя, синтаксическая и семантическая информация.
— Задания из первой группы содержат простые вопросы, например, посчитать количество слов в предложении.
— Синтаксические вопросы уже сложнее: языковой модели нужно рассчитать глубину синтаксического древа или перечислить верхнеуровневые составляющие.
— Третья часть использует синтаксические свойства предложения. Модель должна определить время глагола, число подлежащего или ответить, в каких предложениях было заменено слово.
Будущее «экзамена»
Тестирование моделей и изучение их неявных свойств постепенно становится отдельной областью науки. При изучении языковой модели BERT ученые выяснили, что внутри модели можно найти разные уровни «освоения» языка. Нижние слои специализируются на внешней информации, средние уровни лучше справляются с вопросами синтаксической группы, а верхние слои сохраняют информацию для специального задания, на которое обучается модель.
Однако пока эти выводы разделяют не все исследователи — внутреннее устройство нейросетей во многом остается «черным ящиком».
https://sysblok.ru/linguistics/egje-dlja-nejrosetej-kak-testirujut-usvoenie-jazyka-mashinami/
Анна Аксёнова
Как речи президентов на 9 мая влияют на коллективную память
#linguistics #research #digitalmemory
Важный атрибут Дня Победы — речь президента Российской Федерации перед началом парада. Мы собрали все речи президентов, которые произносились в честь 9 мая с 2000 года, и раскрыли три сюжета, к которым власть прибегает в своих выступлениях: война, сакральное и современное.
Наш основной инструмент — бесплатная платформа Voyant Tools, которая может помочь узнать много нового про текст. Но сначала с помощью библиотек на Python мы лемматизировали наш корпус, то есть привели все слова к начальной форме.
Коллективная память — это память, которая конструируется какой-то группой. Эта память может накладываться на индивидуальные воспоминания, а может и трансформировать их, укладывая в свои рамки. Коллективную память формируют государственные и общественные институты, медиа, нарративы в речах, учебники истории, фильмы, школьные концерты и прочее.
Возвращаемся к данным: что показал анализ речей президентов
После загрузки текстов в Voyant Tools на платформе появились результаты обработки разных аспектов корпуса. Из всех результатов мы выбрали три сюжета.
Война и мир. Среди наиболее часто используемых слов «война» занимает второе место, тогда как «мир» только девятое. В речи 2019 года слово «мир» не употребляется вообще. Интересно, что в 2002, 2004 и в 2011 годах «мир» звучал чаще, чем война, но после такого уже не было.
Сейчас и сегодня. Слово «сегодня» находится на двенадцатом месте по встречаемости. И оно встречается не только в контексте «сегодня мы поздравляем». Почти в каждой речи есть блок, посвященный актуальным угрозам. Чаще всего это терроризм, с которым нужно бороться. Содержание этого блока меняется. Например, в 2008 году речь шла про недопустимость пересмотра границ и пренебрежения нормами международного права.
Память и сакрализация. Тему памяти о войне можно связать с «попытками переписать историю» и словами про знание настоящей правды. Разговор о священном — это способ вывести какие-то взгляды в сферу табуированного, оберегая свои ценности. Можно вспомнить разные законодательные инициативы и принятые законы против осквернения, переписывания истории, оскорбления и других действий, которые с точки зрения дискурса власти можно назвать кощунственными.
На гитхабе лежат оригинальные и уже лемматизированные речи, которые вы можете загрузить в Voyant Tools и самостоятельно исследовать другие сюжеты.
https://sysblok.ru/linguistics/nravstvennoe-pravo-i-nemerknushhaja-pravda-kak-rechi-prezidentov-na-9-maja-vlijajut-na-kollektivnuju-pamjat/
Мария Кнышева
#linguistics #research #digitalmemory
Важный атрибут Дня Победы — речь президента Российской Федерации перед началом парада. Мы собрали все речи президентов, которые произносились в честь 9 мая с 2000 года, и раскрыли три сюжета, к которым власть прибегает в своих выступлениях: война, сакральное и современное.
Наш основной инструмент — бесплатная платформа Voyant Tools, которая может помочь узнать много нового про текст. Но сначала с помощью библиотек на Python мы лемматизировали наш корпус, то есть привели все слова к начальной форме.
Коллективная память — это память, которая конструируется какой-то группой. Эта память может накладываться на индивидуальные воспоминания, а может и трансформировать их, укладывая в свои рамки. Коллективную память формируют государственные и общественные институты, медиа, нарративы в речах, учебники истории, фильмы, школьные концерты и прочее.
Возвращаемся к данным: что показал анализ речей президентов
После загрузки текстов в Voyant Tools на платформе появились результаты обработки разных аспектов корпуса. Из всех результатов мы выбрали три сюжета.
Война и мир. Среди наиболее часто используемых слов «война» занимает второе место, тогда как «мир» только девятое. В речи 2019 года слово «мир» не употребляется вообще. Интересно, что в 2002, 2004 и в 2011 годах «мир» звучал чаще, чем война, но после такого уже не было.
Сейчас и сегодня. Слово «сегодня» находится на двенадцатом месте по встречаемости. И оно встречается не только в контексте «сегодня мы поздравляем». Почти в каждой речи есть блок, посвященный актуальным угрозам. Чаще всего это терроризм, с которым нужно бороться. Содержание этого блока меняется. Например, в 2008 году речь шла про недопустимость пересмотра границ и пренебрежения нормами международного права.
Память и сакрализация. Тему памяти о войне можно связать с «попытками переписать историю» и словами про знание настоящей правды. Разговор о священном — это способ вывести какие-то взгляды в сферу табуированного, оберегая свои ценности. Можно вспомнить разные законодательные инициативы и принятые законы против осквернения, переписывания истории, оскорбления и других действий, которые с точки зрения дискурса власти можно назвать кощунственными.
На гитхабе лежат оригинальные и уже лемматизированные речи, которые вы можете загрузить в Voyant Tools и самостоятельно исследовать другие сюжеты.
https://sysblok.ru/linguistics/nravstvennoe-pravo-i-nemerknushhaja-pravda-kak-rechi-prezidentov-na-9-maja-vlijajut-na-kollektivnuju-pamjat/
Мария Кнышева