Как дообучить языковую модель писать в стиле Достоевского
Как обучить нейросеть на своих данных? Какие бывают параметры обучения/генерации, и на что они влияют? Как оптимизировать процесс обучения, если нет видеокарты? Отвечаем на все эти вопросы в нашем туториале по файн-тюнингу ruGPT3 на текстах Достоевского.
Кратко: о чем статья?
Fine-Tuning — это способ улучшить предварительно обученную модель, которая уже имеет некоторые знания, путем небольших корректировок. Благодаря нему языковую модель можно обучить генерировать тексты в самых разных стилях: от комментариев из Одноклассников до прозы Лермонтова. Для fine-tuning достаточно нескольких мегабайтов текстов, что примерно эквивалентно 10-15 произведениям.
При этом дообучение любых нейросетей требует вычислительные мощности, то есть GPU (видеокарты). Работать с видеокартой бесплатно можно с помощью сервиса Google Colab, в который как раз можно вместить самую маленькую версию русскоязычной модели ruGPT3. А в качестве данных можно взять готовый корпус, состоящий из 34 произведений Достоевского.
Если четко следовать инструкции, модель, подстраиваясь под стиль Достоевского, сгенерирует, например такую фразу: «Кофею, а? Нет-с. Не надо; да и не нужно…». На этом примере видно, что она уловила такие архаичные формы, как «кофею», словоерс «нет-с» и некоторые другие особенности поэтики писателя.
Полный подробный текст инструкции для дообучения модели на корпусе Достоевского, построчно прокомментированный скрипт для обучения языковых моделей и примеры других результатов найдёте в полном тексте статьи. Если будете обучать модель на текстах других писателей (или — тоже Достоевского) — обязательно делитесь в комментариях результатами.
Время чтения: 19 минут.
Как обучить нейросеть на своих данных? Какие бывают параметры обучения/генерации, и на что они влияют? Как оптимизировать процесс обучения, если нет видеокарты? Отвечаем на все эти вопросы в нашем туториале по файн-тюнингу ruGPT3 на текстах Достоевского.
Кратко: о чем статья?
Fine-Tuning — это способ улучшить предварительно обученную модель, которая уже имеет некоторые знания, путем небольших корректировок. Благодаря нему языковую модель можно обучить генерировать тексты в самых разных стилях: от комментариев из Одноклассников до прозы Лермонтова. Для fine-tuning достаточно нескольких мегабайтов текстов, что примерно эквивалентно 10-15 произведениям.
При этом дообучение любых нейросетей требует вычислительные мощности, то есть GPU (видеокарты). Работать с видеокартой бесплатно можно с помощью сервиса Google Colab, в который как раз можно вместить самую маленькую версию русскоязычной модели ruGPT3. А в качестве данных можно взять готовый корпус, состоящий из 34 произведений Достоевского.
Если четко следовать инструкции, модель, подстраиваясь под стиль Достоевского, сгенерирует, например такую фразу: «Кофею, а? Нет-с. Не надо; да и не нужно…». На этом примере видно, что она уловила такие архаичные формы, как «кофею», словоерс «нет-с» и некоторые другие особенности поэтики писателя.
Полный подробный текст инструкции для дообучения модели на корпусе Достоевского, построчно прокомментированный скрипт для обучения языковых моделей и примеры других результатов найдёте в полном тексте статьи. Если будете обучать модель на текстах других писателей (или — тоже Достоевского) — обязательно делитесь в комментариях результатами.
Время чтения: 19 минут.
Системный Блокъ
Как дообучить языковую модель писать в стиле Достоевского - Системный Блокъ
Как обучить нейросеть на своих данных? Какие бывают параметры обучения/генерации, и на что они влияют? Как оптимизировать процесс обучения, если нет видеокарты? Отвечаем на все эти вопросы в нашем туториале по файн-тюнингу ruGPT3 на текстах Достоевского.
Русско-китайский параллельный корпус
Параллельный корпус — это корпус, состоящий из оригинального текста и его переводов на другие языки. Параллельные корпуса позволяют узнать, какие приемы и стратегии использовал переводчик для передачи слов, у которых нет эквивалентов в другом языке. «Системный Блокъ» рассказывает про Русско-китайский параллельный корпус.
Кратко: о чем статья?
Русско-китайский параллельный корпус — часть НКРЯ (Национального корпуса русского языка), масштабный проект, существующий с 2016 года, созданный учеными и студентами из российских и китайских университетов.
На данный момент корпус состоит из чуть менее 4,5 миллионов слов и более тысячи текстов самых разных жанров и стилей. Можно искать работы определенного автора, жанра, периода или конкретные произведения. Кроме того, важная особенность Русско-китайского параллельного корпуса — возможность выбрать вариант китайского языка.
Преимущество корпуса — коллекция переводов, через которые можно прослеживать межъязыковые отношения между исходной и переводной культурами. Например, можно искать варианты перевода безэквивалентной лексики или сравнивать употребление слов, обозначающих какие-либо концепты, которые в двух культурах не совпадают по смыслу. Так, воспользовавшись корпусом, можно узнать, что слово «ботвинья», обозначающее холодный суп на квасе, на китайский переводят как «гаспачо».
О поддерживаемых форматах ввода, создании параллельных корпусов и перспективах Русско-китайского параллельного корпуса, узнаете из полного текста статьи.
Время чтения: 12 минут.
Параллельный корпус — это корпус, состоящий из оригинального текста и его переводов на другие языки. Параллельные корпуса позволяют узнать, какие приемы и стратегии использовал переводчик для передачи слов, у которых нет эквивалентов в другом языке. «Системный Блокъ» рассказывает про Русско-китайский параллельный корпус.
Кратко: о чем статья?
Русско-китайский параллельный корпус — часть НКРЯ (Национального корпуса русского языка), масштабный проект, существующий с 2016 года, созданный учеными и студентами из российских и китайских университетов.
На данный момент корпус состоит из чуть менее 4,5 миллионов слов и более тысячи текстов самых разных жанров и стилей. Можно искать работы определенного автора, жанра, периода или конкретные произведения. Кроме того, важная особенность Русско-китайского параллельного корпуса — возможность выбрать вариант китайского языка.
Преимущество корпуса — коллекция переводов, через которые можно прослеживать межъязыковые отношения между исходной и переводной культурами. Например, можно искать варианты перевода безэквивалентной лексики или сравнивать употребление слов, обозначающих какие-либо концепты, которые в двух культурах не совпадают по смыслу. Так, воспользовавшись корпусом, можно узнать, что слово «ботвинья», обозначающее холодный суп на квасе, на китайский переводят как «гаспачо».
О поддерживаемых форматах ввода, создании параллельных корпусов и перспективах Русско-китайского параллельного корпуса, узнаете из полного текста статьи.
Время чтения: 12 минут.
Системный Блокъ
Русско-китайский корпус НКРЯ, или как превратить ботвинью в гаспачо - Системный Блокъ
Параллельный корпус — это коллекция текстов, где для каждого текста хранятся его переводы на другой язык (или языки). Параллельные корпуса позволяют узнать, какие приемы и стратегии использовал переводчик для передачи слов, у которых нет эквивалентов в другом…
Уникальные книжные памятники онлайн: от старинных карт Сибири до мохнатого «лесного чюда»
«Книжные памятники» — один из самых амбициозных проектов по перенесению книжного культурного наследия на цифровые носители. «Системный Блокъ» рассказывает, как и зачем происходит оцифровка книг и других материалов, и советует, на какие из них стоит взглянуть в первую очередь.
Кратко: о чем статья?
Одна из основных целей оцифровки — сохранить оригинальные издания в лучшем состоянии, так как появляется возможность обращаться к электронным версиям. Кроме того, такой проект решает ещё одну важную задачу — популяризировать и демократизировать профессиональное знание, поэтому ресурс интересен не только специалистам, но и не связанным с областью людям.
Проект оцифровывает материалы, обладающие признаками памятника (учитывается, например, хронология и материальная ценность). У всех сканов документов есть библиографическое описание, которое позволяет сортировать памятники на сайте проекта по году появления, языку, месту издания, автору и другим параметрам.
Найти оцифрованные материалы можно на сайте проекта. Здесь собраны не только книги, но и старинная реклама, разговорники или русский лубок. А из поваренной книги XVIII века можно узнать «710 правил, по которым всяк может лучшим вкусом желаемыя кушанья приготовлять».
О том, для чего еще оцифровывают документы, зачем проводят экспертизу памятников, а также на какие еще материалы стоит обратить внимание, узнаете из полного текста статьи.
Время чтения: 8 минут.
«Книжные памятники» — один из самых амбициозных проектов по перенесению книжного культурного наследия на цифровые носители. «Системный Блокъ» рассказывает, как и зачем происходит оцифровка книг и других материалов, и советует, на какие из них стоит взглянуть в первую очередь.
Кратко: о чем статья?
Одна из основных целей оцифровки — сохранить оригинальные издания в лучшем состоянии, так как появляется возможность обращаться к электронным версиям. Кроме того, такой проект решает ещё одну важную задачу — популяризировать и демократизировать профессиональное знание, поэтому ресурс интересен не только специалистам, но и не связанным с областью людям.
Проект оцифровывает материалы, обладающие признаками памятника (учитывается, например, хронология и материальная ценность). У всех сканов документов есть библиографическое описание, которое позволяет сортировать памятники на сайте проекта по году появления, языку, месту издания, автору и другим параметрам.
Найти оцифрованные материалы можно на сайте проекта. Здесь собраны не только книги, но и старинная реклама, разговорники или русский лубок. А из поваренной книги XVIII века можно узнать «710 правил, по которым всяк может лучшим вкусом желаемыя кушанья приготовлять».
О том, для чего еще оцифровывают документы, зачем проводят экспертизу памятников, а также на какие еще материалы стоит обратить внимание, узнаете из полного текста статьи.
Время чтения: 8 минут.
Системный Блокъ
Уникальные книжные памятники теперь доступны онлайн
Благодаря проекту «Книжные памятники» в сети впервые появились уникальные книжные материалы.
«Открытые данные против мракобесия и пренебрежения реальностью»: интервью с Кириллом Маслинским
Кирилл Маслинский — цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора в Пушкинском доме, создатель Детского корпуса и Репозитория открытых данных по русской литературе и фольклору. «Системный Блокъ» узнал у Кирилла, что можно найти в тысячах оцифрованных детских книг, когда в детской литературе было допустимо употреблять слово «какашка», зачем филологам репозиторий открытых данных и может ли этот репозиторий как-то помочь в борьбе с мракобесием и войнами.
Кратко: о чем интервью?
Одна из миссий Лаборатории цифровых исследований литературы и фольклора — воплощать литературные корпуса, которые работают по тому же принципу, что и Национальный корпус русского языка. Например, ДетКорпус из 3000 детских книг и корпус нарративной прозы из 500 романов XIX века.
Ещё одна важная задача — работа над репозиторием открытых данных, литературы и фольклора. Сегодня профессиональный долг исследователя — опубликовать после исследования данные по современным стандартам. Лаборатория помогает это сделать: данные необходимо не только переработать и донести до публики, но и сделать доступными для количественных исследований. Например, в случае с датасетом о бытовании литературных текстов в ГУЛАГе было около восьми раундов правок с авторами, потому что таблица создавалась филологами как «человекочитаемые» данные, а не как машиночитаемые.
На базе этих корпусов и данных проводятся исследования. Одно из них — про репрезентацию телесности и гендерные аспекты в детских текстах. Выяснилось, например, что у мальчиков писатели очень сильно актуализируют затылки, а у девочек — щеки. Это как бы такие отдельно «женские» и «мужские» части тела в текстах детского корпуса. Другое исследование, которое проводил Кирилл, было посвящено контекстному употреблению слова «счастье» в ДетКорпусе.
О том, каким «счастье» в детских книгах было в сталинском СССР и как изменилось к концу хрущевского периода, что такое digital commons, с какими сложностями столкнулись создатели датасета с данными ГУЛАГа и почему сегодня он актуален как никогда — в полном тексте интервью.
Время чтения: 28 минут.
Кирилл Маслинский — цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора в Пушкинском доме, создатель Детского корпуса и Репозитория открытых данных по русской литературе и фольклору. «Системный Блокъ» узнал у Кирилла, что можно найти в тысячах оцифрованных детских книг, когда в детской литературе было допустимо употреблять слово «какашка», зачем филологам репозиторий открытых данных и может ли этот репозиторий как-то помочь в борьбе с мракобесием и войнами.
Кратко: о чем интервью?
Одна из миссий Лаборатории цифровых исследований литературы и фольклора — воплощать литературные корпуса, которые работают по тому же принципу, что и Национальный корпус русского языка. Например, ДетКорпус из 3000 детских книг и корпус нарративной прозы из 500 романов XIX века.
Ещё одна важная задача — работа над репозиторием открытых данных, литературы и фольклора. Сегодня профессиональный долг исследователя — опубликовать после исследования данные по современным стандартам. Лаборатория помогает это сделать: данные необходимо не только переработать и донести до публики, но и сделать доступными для количественных исследований. Например, в случае с датасетом о бытовании литературных текстов в ГУЛАГе было около восьми раундов правок с авторами, потому что таблица создавалась филологами как «человекочитаемые» данные, а не как машиночитаемые.
На базе этих корпусов и данных проводятся исследования. Одно из них — про репрезентацию телесности и гендерные аспекты в детских текстах. Выяснилось, например, что у мальчиков писатели очень сильно актуализируют затылки, а у девочек — щеки. Это как бы такие отдельно «женские» и «мужские» части тела в текстах детского корпуса. Другое исследование, которое проводил Кирилл, было посвящено контекстному употреблению слова «счастье» в ДетКорпусе.
О том, каким «счастье» в детских книгах было в сталинском СССР и как изменилось к концу хрущевского периода, что такое digital commons, с какими сложностями столкнулись создатели датасета с данными ГУЛАГа и почему сегодня он актуален как никогда — в полном тексте интервью.
Время чтения: 28 минут.
Системный Блокъ
«Открытые данные против мракобесия и пренебрежения реальностью»: интервью с Кириллом Маслинским - Системный Блокъ
Кирилл Маслинский — цифровой филолог, руководитель Лаборатории цифровых исследований литературы и фольклора в Пушкинском Доме, создатель Детского корпуса и Репозитория открытых данных по русской литературе и фольклору. «Системный Блокъ» узнал у Кирилла, что…
Как дети учатся читать и что нам говорит об этом наука?
Большинство детей начинает говорить и понимать устную речь в течение первых лет жизни, не прикладывая к этому никаких видимых усилий. Умение читать – другое дело. Чтение не «приходит само», ему нужно научить. Анастасия Лопухина рассказывает в новом материале своего блога, как дети учатся читать и что знают об этом современные когнитивные науки.
💼 Что и откуда мы знаем?
Многие исследования, на которых строятся выводы о процессах чтения, были проведены на материале английского языка, что неудивительно, но важно для работы с их данными. Научение чтению, особенно на ранних этапах, связано с тем, как устроена орфография языка. Орфография английского не похожа на орфографию многих других языков, поскольку она непрозрачна. Например, сочетание —ough имеет разные прочтения в английских словах tough – though – through. Первоклассники, которые учатся читать на языках с прозрачной орфографией могут обогнать сверстников, знакомящихся с чтением на английском, на первом этапе обучения.
👞 Шаг первый: «взлом» орфографического кода
Первый этап научения связан с формированием навыка устанавливать соответствия между буквами и звуками. Это позволяет узнать знакомое из устной речи слово в письменном виде. Когда орфографическая система хорошо освоена, дети способны читать как знакомые, так и незнакомые слова. На практике получается, что в самом начале необходимо систематическое обучение звуковому методу (phonics).
👟 Шаг второй: эффективное чтение отдельных слов
Чтобы читающий не тратил много усилий на восприятие отдельных слов и сохранил ресурсы для понимания текста, ему нужно многократного прочитать слово в разных контекстах. Ещё больше опыта появляется с чтением слов из нескольких морфем (например, бодр-ость или dark-ness). Это позволяет создавать орфографические представления не только для каждого слова отдельно, но и для морфем, совпадающих у разных слов. На практике на этом этапе рекомендуется сфокусироваться на двух задачах: во-первых, помочь детям разобраться, из каких морфем состоит слово; во-вторых, сформировать мотивацию к самостоятельному чтению.
⛸️ Шаг третий: понимание текста
У детей навык понимания текста в большой степени базируется на уже имеющемся навыке понимания устной речи, но для развития понимания текста при чтении особенно важны три компонента:
Чтобы развивать этот навык, исследователи рекомендуют проводить оценку понимания текста, чтобы вовремя выявлять трудности, обсуждать тексты с одноклассниками и учителем, помогать детям увеличивать их словарный запас и обучать детей делать логические выводы из прочитанного.
О том, что такое ‘sight words’, как развить у ребенка внутреннюю мотивацию к чтению и какую роль в понимании текста играет знание грамматических конструкций и союзов — узнаете из полного текста статьи.
Большинство детей начинает говорить и понимать устную речь в течение первых лет жизни, не прикладывая к этому никаких видимых усилий. Умение читать – другое дело. Чтение не «приходит само», ему нужно научить. Анастасия Лопухина рассказывает в новом материале своего блога, как дети учатся читать и что знают об этом современные когнитивные науки.
💼 Что и откуда мы знаем?
Многие исследования, на которых строятся выводы о процессах чтения, были проведены на материале английского языка, что неудивительно, но важно для работы с их данными. Научение чтению, особенно на ранних этапах, связано с тем, как устроена орфография языка. Орфография английского не похожа на орфографию многих других языков, поскольку она непрозрачна. Например, сочетание —ough имеет разные прочтения в английских словах tough – though – through. Первоклассники, которые учатся читать на языках с прозрачной орфографией могут обогнать сверстников, знакомящихся с чтением на английском, на первом этапе обучения.
👞 Шаг первый: «взлом» орфографического кода
Первый этап научения связан с формированием навыка устанавливать соответствия между буквами и звуками. Это позволяет узнать знакомое из устной речи слово в письменном виде. Когда орфографическая система хорошо освоена, дети способны читать как знакомые, так и незнакомые слова. На практике получается, что в самом начале необходимо систематическое обучение звуковому методу (phonics).
👟 Шаг второй: эффективное чтение отдельных слов
Чтобы читающий не тратил много усилий на восприятие отдельных слов и сохранил ресурсы для понимания текста, ему нужно многократного прочитать слово в разных контекстах. Ещё больше опыта появляется с чтением слов из нескольких морфем (например, бодр-ость или dark-ness). Это позволяет создавать орфографические представления не только для каждого слова отдельно, но и для морфем, совпадающих у разных слов. На практике на этом этапе рекомендуется сфокусироваться на двух задачах: во-первых, помочь детям разобраться, из каких морфем состоит слово; во-вторых, сформировать мотивацию к самостоятельному чтению.
⛸️ Шаг третий: понимание текста
У детей навык понимания текста в большой степени базируется на уже имеющемся навыке понимания устной речи, но для развития понимания текста при чтении особенно важны три компонента:
•
знание (орфографической системы, слов, жизненный опыт),•
обработка информации, или использование знаний в процессе чтения,•
общие когнитивные ресурсы, в частности, рабочая память. Чтобы развивать этот навык, исследователи рекомендуют проводить оценку понимания текста, чтобы вовремя выявлять трудности, обсуждать тексты с одноклассниками и учителем, помогать детям увеличивать их словарный запас и обучать детей делать логические выводы из прочитанного.
О том, что такое ‘sight words’, как развить у ребенка внутреннюю мотивацию к чтению и какую роль в понимании текста играет знание грамматических конструкций и союзов — узнаете из полного текста статьи.
Системный Блокъ
Как дети учатся читать и что нам говорит об этом наука? - Системный Блокъ
Наука о чтении выделяет три ключевых шага от начинающего читателя к опытному: взлом орфографического кода, чтение слов и понимание текста.
Цифровая реконструкция: как воссоздали портрет Черчилля для сериала «Корона»
Сегодня с помощью технологии цифровой реставрации можно восстановить утраченные картины, сохранившиеся, например, лишь на фотографиях плохого качества. «Системный Блокъ» рассказывает о деятельности мастерской из Мадрида и истории воссоздания портрета Черчилля.
Кратко: о чем статья?
Благодаря бесконтактной технологии 3D-оцифровки стало возможным создать цифровые копии музейных коллекций и исторических памятников. 3D-сканеры используют, например, для снятия с поверхности картин информации о нюансах — трещинах и тонких отметинах — что позволяет создавать более точные реплики.
Команда реставрации из Мадрида, работавшая над портретом Уинстона Черчилля, состоит из 50 человек: архитекторов, инженеров-электриков, механиков, программистов, дизайнеров, сварщиков и т. д. Для восстановления уничтоженного портрета эксперты обратились к наброскам полотна и некоторым фотографиям. Портретисты изучили материалы, которые мог использовать художник, а чтобы добиться точности реплики, реставраторы исследовали даже образцы материала брюк Черчилля и выяснили, в каком кармане он носил наручные часы.
Созданный файл распечатали на холсте с использованием гипса, чтобы передать ощущение текстуры сырого материала. Репродукция смогла отразить всю психологическую глубину и энергию впечатляющего портрета Черчилля.
О других проектах реставрации с помощью цифрового исследования, а также более подробно о воссоздании портрета Уинстона Черчилля, узнаете из полной версии статьи.
Время чтения: 7 минут.
Сегодня с помощью технологии цифровой реставрации можно восстановить утраченные картины, сохранившиеся, например, лишь на фотографиях плохого качества. «Системный Блокъ» рассказывает о деятельности мастерской из Мадрида и истории воссоздания портрета Черчилля.
Кратко: о чем статья?
Благодаря бесконтактной технологии 3D-оцифровки стало возможным создать цифровые копии музейных коллекций и исторических памятников. 3D-сканеры используют, например, для снятия с поверхности картин информации о нюансах — трещинах и тонких отметинах — что позволяет создавать более точные реплики.
Команда реставрации из Мадрида, работавшая над портретом Уинстона Черчилля, состоит из 50 человек: архитекторов, инженеров-электриков, механиков, программистов, дизайнеров, сварщиков и т. д. Для восстановления уничтоженного портрета эксперты обратились к наброскам полотна и некоторым фотографиям. Портретисты изучили материалы, которые мог использовать художник, а чтобы добиться точности реплики, реставраторы исследовали даже образцы материала брюк Черчилля и выяснили, в каком кармане он носил наручные часы.
Созданный файл распечатали на холсте с использованием гипса, чтобы передать ощущение текстуры сырого материала. Репродукция смогла отразить всю психологическую глубину и энергию впечатляющего портрета Черчилля.
О других проектах реставрации с помощью цифрового исследования, а также более подробно о воссоздании портрета Уинстона Черчилля, узнаете из полной версии статьи.
Время чтения: 7 минут.
Системный Блокъ
Цифровая реконструкция: как воссоздали портрет Черчилля для сериала «Корона» - Системный Блокъ
Эксперты по реставрации картин из Мадрида восстановили портрет Черчилля Сазерленда.
Как провести стилометрический эксперимент с помощью stylo? Исследуем сценарии «Черного зеркала»
Хотите научиться устанавливать авторство текстов и следить за изменениями в стилистике сценариев к любимым сериалам? Читайте гайд, как самому провести стилометрический эксперимент — с помощью stylo, библиотеки языка R и самого популярного инструмента для стилометрии.
Кратко: о чем статья?
Стилометрия — это количественное исследование стилистики, обычно включающее частотный анализ письменного текста. «Системный Блокъ» рассказывал о ней здесь и делал подборку материалов о стилометрических исследованиях. На практике её можно применять во многих областях: от судебной лингвистики и до установки авторства пьес Мольера.
Самый распространенный инструмент для стилометрических исследований — stylo, библиотека языка программирования R (но не пугайтесь заранее: программировать особо не придётся — у stylo вполне понятный интерфейс). Для работы с ним потребуется установить интерпретатор (программу, которая «переводит» код на языке программирования в команды, понятные машине) языка R и среду для написания кода, которая называется RStudio.
Следуя инструкции работы со stylo, мы исследовали сериал-антиутопию «Черное зеркало», взяв в открытом доступе расшифровки всех эпизодов на английском языке. Эксперимент показал, что первые два сезона для британского телеканала стилистически отличаются от последующих трёх — созданных для Нетфликса. Хотя сценарии для них написал один и тот же человек — создатель сериала, Чарли Брукер.
Чтобы узнать, какая серия «Черного зеркала» стилистически выбивается из общего ряда, получить более подробную инструкцию по работе со stylo на Windows, Mac и Linux и проводить собственные эксперименты — читайте полный текст статьи.
Время чтения: 16 минут.
Хотите научиться устанавливать авторство текстов и следить за изменениями в стилистике сценариев к любимым сериалам? Читайте гайд, как самому провести стилометрический эксперимент — с помощью stylo, библиотеки языка R и самого популярного инструмента для стилометрии.
Кратко: о чем статья?
Стилометрия — это количественное исследование стилистики, обычно включающее частотный анализ письменного текста. «Системный Блокъ» рассказывал о ней здесь и делал подборку материалов о стилометрических исследованиях. На практике её можно применять во многих областях: от судебной лингвистики и до установки авторства пьес Мольера.
Самый распространенный инструмент для стилометрических исследований — stylo, библиотека языка программирования R (но не пугайтесь заранее: программировать особо не придётся — у stylo вполне понятный интерфейс). Для работы с ним потребуется установить интерпретатор (программу, которая «переводит» код на языке программирования в команды, понятные машине) языка R и среду для написания кода, которая называется RStudio.
Следуя инструкции работы со stylo, мы исследовали сериал-антиутопию «Черное зеркало», взяв в открытом доступе расшифровки всех эпизодов на английском языке. Эксперимент показал, что первые два сезона для британского телеканала стилистически отличаются от последующих трёх — созданных для Нетфликса. Хотя сценарии для них написал один и тот же человек — создатель сериала, Чарли Брукер.
Чтобы узнать, какая серия «Черного зеркала» стилистически выбивается из общего ряда, получить более подробную инструкцию по работе со stylo на Windows, Mac и Linux и проводить собственные эксперименты — читайте полный текст статьи.
Время чтения: 16 минут.
Системный Блокъ
Гайд по проведению стилометрического анализа с помощью Stylo на языке R
Системный Блокъ уже рассказывал о том, что такое стилометрия, и о многих стилометрических исследованиях. Читайте подробный гайд, как самому провести такой эксперимент — с помощью stylo, библиотеки языка R и самого популярного инструмента для стилометрии.
Как работают языковые модели
Что такое языковая модель? Что общего между клавиатурой вашего телефона и GPT? Почему языковые модели умеют не только моделировать язык? Можно ли предсказать точность модели до её обучения? Отвечаем на все эти вопросы в нашем материале.
Кратко: о чём статья?
Мы сталкиваемся с работой языковой модели каждый раз, когда вводим что-то с помощью клавиатуры смартфона — языковая модель предлагает следующее слово или, говоря научно, моделирует наш язык. Большие нейросети вроде GPT, умеющие поддерживать диалог, писать код и многое другое тоже предсказывают наиболее вероятное слово на основе предыдущих. Главное отличие — они делает это намного точнее.
Учиться моделировать язык можно разными способами. Существует два принципиально разных подхода: каузальное моделирование (Causal Language Modeling) и моделирование путем восстановления исходного текста по его «искаженной» версии (Masked Language Modeling и UL2). В первом подходе текст моделируется последовательно, слово за словом. К таким моделям, например, относятся все модели семейства GPT, а также модель PaLM. Во втором подходе исходный текст модифицируется: например, часть слов заменяется на специальное слово «[MASK]», которое затем должна отгадать модель. К таким моделям относится BERT.
Качество языковой модели зависит от её размера, размера обучающей выборки и количества вычислительных ресурсов, доступных для её обучения. Про размер модели и обучающую выборку мы рассказывали в наших материалах про машинное и глубинное обучение. А узнать подробнее о том, как получить оптимальную языковую модель, с какими задачами она обычно справляется и почему именно языковые модели стали главными претендентами на роль сильного искусственного интеллекта можно из полного текста статьи.
Время чтения: 12 минут.
Что такое языковая модель? Что общего между клавиатурой вашего телефона и GPT? Почему языковые модели умеют не только моделировать язык? Можно ли предсказать точность модели до её обучения? Отвечаем на все эти вопросы в нашем материале.
Кратко: о чём статья?
Мы сталкиваемся с работой языковой модели каждый раз, когда вводим что-то с помощью клавиатуры смартфона — языковая модель предлагает следующее слово или, говоря научно, моделирует наш язык. Большие нейросети вроде GPT, умеющие поддерживать диалог, писать код и многое другое тоже предсказывают наиболее вероятное слово на основе предыдущих. Главное отличие — они делает это намного точнее.
Учиться моделировать язык можно разными способами. Существует два принципиально разных подхода: каузальное моделирование (Causal Language Modeling) и моделирование путем восстановления исходного текста по его «искаженной» версии (Masked Language Modeling и UL2). В первом подходе текст моделируется последовательно, слово за словом. К таким моделям, например, относятся все модели семейства GPT, а также модель PaLM. Во втором подходе исходный текст модифицируется: например, часть слов заменяется на специальное слово «[MASK]», которое затем должна отгадать модель. К таким моделям относится BERT.
Качество языковой модели зависит от её размера, размера обучающей выборки и количества вычислительных ресурсов, доступных для её обучения. Про размер модели и обучающую выборку мы рассказывали в наших материалах про машинное и глубинное обучение. А узнать подробнее о том, как получить оптимальную языковую модель, с какими задачами она обычно справляется и почему именно языковые модели стали главными претендентами на роль сильного искусственного интеллекта можно из полного текста статьи.
Время чтения: 12 минут.
Системный Блокъ
Как работают языковые модели и как их обучать
В этой статье рассказываем, что такое языковая модель, как она работает; чем отличаются разные языковые модели — с примерами, и существует ли оптимальный метод обучить языковую модель.
Три взгляда на визуализации: сделать смысл вещей и явлений (не)видимым
Какой может быть «хорошая визуализация» и почему это не всегда нечто «красивое»? В новом тексте блога «Системного Блока» специалисты по Digital Humanities из ИТМО поговорили с культурологом Ольгой Давыдовой, медиафилософом Алиной Латыповой и дизайнером Трофимом Поповым об эстетических критериях и социальных аспектах визуального представления данных и роли визуализации в научном поиске.
🖼️ Три режима искусства
Философ Жак Рансьер утверждал, что существует три режима искусства: репрезентативный, эстетический и этический. Каждый из них задает правила того, как строятся художественные объекты и образы, какие чувства они должны вызывать. Репрезентативный режим помогает ответить на ставший мемом вопрос «Что хотел сказать автор?», а эстетический — на вопрос «Что я чувствую, когда я сталкиваюсь с тем или иным объектом? Что в этом объекте есть такого, что запускает во мне это переживание?»
🎨 Учёные и художники: соперничество и сотрудничество
На протяжении истории развития визуализации науки отношения между художниками и учёными менялись. Изначально художник-иллюстратор — помощник в научном познании, он изображает то, что ученый-натуралист ему предлагает. По мере того, как художники более активно включаются в процесс, они хотят быть полноправными авторами научных атласов, творцами научных объектов. В XIX веке роли жестко разграничиваются, вторая половина XX века вновь сближает художника и учёного, а современность предлагает их любопытный союз.
👁️ Видимое и невидимое
Когда мы делаем нечто видимым, мы имеем дело с репрезентацией (образ, картинка, изображение). Современная наука движется в сторону презентации (актуализации перформативного опыта). Сегодня учёные создают симуляции объектов, смотрят, как эти симуляции работают, и на основе того, что происходит, делают научные выводы. Познание превращается в перформативную практику, выходящую за границы созерцания.
✍🏼 Поэзия и визуализация
Отдельный случай — визуализация данных в гуманитарных науках, поскольку они зачастую многозначны, субъективны и противоречивы. Зато графический язык тоже имеет лексику — это стиль, мотив, текстура, цвет, материалы; и синтаксис — соотношения, композиция, порядок.
Подробнее о том, как можно выстроить взаимодействие между текстом и визуализацией, о том, как с представлением данных связана «Поэтика» Аристотеля и о проектах, в которых ученые и визуализаторы буквально вторгаются в свои объекты, — в полной версии статьи на сайте.
Какой может быть «хорошая визуализация» и почему это не всегда нечто «красивое»? В новом тексте блога «Системного Блока» специалисты по Digital Humanities из ИТМО поговорили с культурологом Ольгой Давыдовой, медиафилософом Алиной Латыповой и дизайнером Трофимом Поповым об эстетических критериях и социальных аспектах визуального представления данных и роли визуализации в научном поиске.
🖼️ Три режима искусства
Философ Жак Рансьер утверждал, что существует три режима искусства: репрезентативный, эстетический и этический. Каждый из них задает правила того, как строятся художественные объекты и образы, какие чувства они должны вызывать. Репрезентативный режим помогает ответить на ставший мемом вопрос «Что хотел сказать автор?», а эстетический — на вопрос «Что я чувствую, когда я сталкиваюсь с тем или иным объектом? Что в этом объекте есть такого, что запускает во мне это переживание?»
🎨 Учёные и художники: соперничество и сотрудничество
На протяжении истории развития визуализации науки отношения между художниками и учёными менялись. Изначально художник-иллюстратор — помощник в научном познании, он изображает то, что ученый-натуралист ему предлагает. По мере того, как художники более активно включаются в процесс, они хотят быть полноправными авторами научных атласов, творцами научных объектов. В XIX веке роли жестко разграничиваются, вторая половина XX века вновь сближает художника и учёного, а современность предлагает их любопытный союз.
👁️ Видимое и невидимое
Когда мы делаем нечто видимым, мы имеем дело с репрезентацией (образ, картинка, изображение). Современная наука движется в сторону презентации (актуализации перформативного опыта). Сегодня учёные создают симуляции объектов, смотрят, как эти симуляции работают, и на основе того, что происходит, делают научные выводы. Познание превращается в перформативную практику, выходящую за границы созерцания.
✍🏼 Поэзия и визуализация
Отдельный случай — визуализация данных в гуманитарных науках, поскольку они зачастую многозначны, субъективны и противоречивы. Зато графический язык тоже имеет лексику — это стиль, мотив, текстура, цвет, материалы; и синтаксис — соотношения, композиция, порядок.
Подробнее о том, как можно выстроить взаимодействие между текстом и визуализацией, о том, как с представлением данных связана «Поэтика» Аристотеля и о проектах, в которых ученые и визуализаторы буквально вторгаются в свои объекты, — в полной версии статьи на сайте.
Системный Блокъ
Три взгляда на визуализации: сделать смысл вещей и явлений (не)видимым - Системный Блокъ
Критика, теория, чувственность, визуальное мышление, превращение в изображения и почти художественное эссе о визуализациях.
Анализ персонажей из песен «Короля и Шута» цифровыми методами: нужный, живой, веселый, пьяный, хороший
Наверняка вы когда-нибудь слышали о группе «Король и Шут» и сможете подхватить мотив, услышав «Разбежавшись, прыгну со скалы». К тому же, недавний релиз сериала о группе снова оживил интерес слушателя к творчеству самых известных панков России. «Системный Блокъ», вдохновившись сериалом, решил не только переслушать старые хиты, но и количественными методами изучить творчество группы.
Кратко: о чем статья?
Мы собрали корпус текстов песен «КиШ» за весь период их творчества до смерти Михаила Горшенева (1996-2013). Разбив корпус на отдельные токены (слова), мы и их лемматизировали (привели к начальной форме), отобрали самые смысловые части речи и посмотрели на частотность их употребления по всему корпусу.
Выяснилось, что в центре творчества «КиШ» стоит человек, важную роль также играет дом, а многие события разворачиваются ночью в лесу. Среди глаголов лидируют хотеть (118 раз), любить (46 раз) и желать (45 раз), а герои группы обычно оказываются нужными, живыми, странными, хорошими, веселыми, пьяными. Интерес представляет не только мир персонажей-людей «КиШ», но и мир животных. Чаще всего в нем встречаются представители домашнего скота и лесные обитатели. Сказочные драконы, например, встречаются реже.
Среди междометий почетное первое место заняло «Хо», которое, впрочем, не возвращалось в песни после 2000 года, а «Ах», оказавшееся вторым по популярности, стабильно использовалось на протяжении 10 лет.
Чтобы посмотреть, как выглядит мир песен «Короля и Шута» в разные периоды творчества, к какой тональности (негативной, позитивной или нейтральной) относит песни группы библиотека Dostoevsky и какой этап творчества «КиШ» оказался приближен к реальности, а какой — связан с возвышенными образами, переходите к полному тексту статьи. Там можно найти ещё больше классных визуализаций!
Время чтения: 8,5 минут.
Наверняка вы когда-нибудь слышали о группе «Король и Шут» и сможете подхватить мотив, услышав «Разбежавшись, прыгну со скалы». К тому же, недавний релиз сериала о группе снова оживил интерес слушателя к творчеству самых известных панков России. «Системный Блокъ», вдохновившись сериалом, решил не только переслушать старые хиты, но и количественными методами изучить творчество группы.
Кратко: о чем статья?
Мы собрали корпус текстов песен «КиШ» за весь период их творчества до смерти Михаила Горшенева (1996-2013). Разбив корпус на отдельные токены (слова), мы и их лемматизировали (привели к начальной форме), отобрали самые смысловые части речи и посмотрели на частотность их употребления по всему корпусу.
Выяснилось, что в центре творчества «КиШ» стоит человек, важную роль также играет дом, а многие события разворачиваются ночью в лесу. Среди глаголов лидируют хотеть (118 раз), любить (46 раз) и желать (45 раз), а герои группы обычно оказываются нужными, живыми, странными, хорошими, веселыми, пьяными. Интерес представляет не только мир персонажей-людей «КиШ», но и мир животных. Чаще всего в нем встречаются представители домашнего скота и лесные обитатели. Сказочные драконы, например, встречаются реже.
Среди междометий почетное первое место заняло «Хо», которое, впрочем, не возвращалось в песни после 2000 года, а «Ах», оказавшееся вторым по популярности, стабильно использовалось на протяжении 10 лет.
Чтобы посмотреть, как выглядит мир песен «Короля и Шута» в разные периоды творчества, к какой тональности (негативной, позитивной или нейтральной) относит песни группы библиотека Dostoevsky и какой этап творчества «КиШ» оказался приближен к реальности, а какой — связан с возвышенными образами, переходите к полному тексту статьи. Там можно найти ещё больше классных визуализаций!
Время чтения: 8,5 минут.
Старинные открытки о культуре: «Иду на Шаляпина в оперу “Фауст”»
В каждой старинной почтовой открытке можно найти что-то новое, необычное и интересное, начиная с фотографии или рисунка на лицевой стороне, заканчивая текстом или почтовой маркой. Благодаря открыткам мы можем представить себя в роли зрителя на театральных постановках вековой давности, узнать, какие спектакли и оперные выступления были популярны в разное время. Делимся здесь двумя текстами открыток из новой подборки «Пишу тебе».
🎫 Надо дежурить
«Милая Юля! Ты хочешь, во что бы то ни стало, слушать Шаляпина? На так поставленный вопрос существует один ответ: узнай, где он, поезжай туда и там возьми билет. Я по крайней мере не слышала, чтоб он был в Питере. Но, если он здесь и поет в Мариинке, надо дежурить, других средств достать билет нет. Дежурят по вторн[икам] и субботам. Если он в частн[ом] театре, надо, проследив по газетным объявлениям начало продажи билетов, сейчас-же ехать и купить их. Это все, что я знаю. Привет от нас! {Застать нас можно по воскресеньям.}»
🎥 Для ценителя фильм
«Зная Вас как любителя и ценителя художественных фильм Дирекция кинотеатров «Титан»(пр. 25 октября, 47) и «Павильон»(ул. 3 июня, 12) приглашает Вас на премьеру последней новинки Парижа мировой картины [нрзб.] {Кин} с уч[астием] «Ивана Мозжухина»При предъявлении сего письма Вам вне очереди выдадут в кассе театра два билета».
Открытки об опере «Фауст», Китайском и Александровском театрах, а заодно и комментарии волонтеров проекта «Пишу тебе» с небольшой исторической справкой ищите в полной подборке на сайте.
В каждой старинной почтовой открытке можно найти что-то новое, необычное и интересное, начиная с фотографии или рисунка на лицевой стороне, заканчивая текстом или почтовой маркой. Благодаря открыткам мы можем представить себя в роли зрителя на театральных постановках вековой давности, узнать, какие спектакли и оперные выступления были популярны в разное время. Делимся здесь двумя текстами открыток из новой подборки «Пишу тебе».
🎫 Надо дежурить
«Милая Юля! Ты хочешь, во что бы то ни стало, слушать Шаляпина? На так поставленный вопрос существует один ответ: узнай, где он, поезжай туда и там возьми билет. Я по крайней мере не слышала, чтоб он был в Питере. Но, если он здесь и поет в Мариинке, надо дежурить, других средств достать билет нет. Дежурят по вторн[икам] и субботам. Если он в частн[ом] театре, надо, проследив по газетным объявлениям начало продажи билетов, сейчас-же ехать и купить их. Это все, что я знаю. Привет от нас! {Застать нас можно по воскресеньям.}»
🎥 Для ценителя фильм
«Зная Вас как любителя и ценителя художественных фильм Дирекция кинотеатров «Титан»(пр. 25 октября, 47) и «Павильон»(ул. 3 июня, 12) приглашает Вас на премьеру последней новинки Парижа мировой картины [нрзб.] {Кин} с уч[астием] «Ивана Мозжухина»При предъявлении сего письма Вам вне очереди выдадут в кассе театра два билета».
Открытки об опере «Фауст», Китайском и Александровском театрах, а заодно и комментарии волонтеров проекта «Пишу тебе» с небольшой исторической справкой ищите в полной подборке на сайте.
6 июня — день рождения А. С. Пушкина. Сегодня Пушкин — не только главный поэт школьной программы и «наше все», но и вдохновение для тех, кто любит соединять литературу и информационные технологии. В честь дня рождения классика предлагаем проверить, насколько хорошо вы помните его сказки. Мы изменили один из текстов с помощью модели word2vec, которая умеет работать со значениями слов — находить для них ближайшие синонимы, складывать и вычитать векторы смыслов.
Если захотите угадать цитаты из текстов других авторов — проходите наш тест, а пока попробуйте вспомнить, как звучит в оригинале этот фрагмент:
В столовой сердится судомойка,
Рыдает у полуавтомата прядильщица
И любят оне
Государской супруге
Если захотите угадать цитаты из текстов других авторов — проходите наш тест, а пока попробуйте вспомнить, как звучит в оригинале этот фрагмент:
В столовой сердится судомойка,
Рыдает у полуавтомата прядильщица
И любят оне
Государской супруге
Какую сказку Пушкина преоборазовала word2vec?
Anonymous Quiz
21%
«Сказка о рыбаке и рыбке», давайте следующую загадку
63%
Конечно, это «Сказка о царе Салтане»
6%
«Сказка о золотом петушке», естественно
11%
Ха, это не сказка, а «Евгений Онегин»!
Пушкин, терминатор и звездолет
Продолжаем праздновать День рождения А. С. Пушкина и вспоминаем наш материал о семантическом поисковике по его текстам на основе векторной семантики. Благодаря word2vec можно не только создавать тексты, синонимичные оригиналам, но и найти аналог «интернета» в тексте Пушкина. Разбираемся, как это сделать.
Кратко: о чем статья?
Word2vec умеет строить семантический вектор слова, т. е. определять, что «кот» ближе к «собаке», а не к «картошке», а «вилка» вероятнее встретится в одном предложении с «блюдом», чем с «зоопарком». Обработав алгоритмами большое количество текстов, можно получить готовые наборы семантических векторов для множества слов, они называются «векторные модели». Пользуясь этими моделями на сайте проекта RusVectores, пользователь GitLab opennota написал семантический поисковик по текстам Пушкина.
Интерфейс программы — это поле запроса, где можно ввести слово или группу слов. Благодаря нему в текстах находятся не только вариации на тему «карусели» в текстах автора, поиск дает результаты и в тех случаях, когда слова из запроса явно не могут встречаться в произведениях Пушкина. Например, если попросить программу найти «звездолет», она предложит строки из стихотворения «Под каким созвездием…» и стих «Плывет корабль как лебедь громовержец», который не был напечатан при жизни Пушкина.
Посмотреть, какие тексты и строки поиск предложил по запросам «коммунизм» и «терминатор», а также детальнее разобраться с принципом работы векторной модели можно, перейдя к полному тексту материала.
Время чтения: 10 минут.
Продолжаем праздновать День рождения А. С. Пушкина и вспоминаем наш материал о семантическом поисковике по его текстам на основе векторной семантики. Благодаря word2vec можно не только создавать тексты, синонимичные оригиналам, но и найти аналог «интернета» в тексте Пушкина. Разбираемся, как это сделать.
Кратко: о чем статья?
Word2vec умеет строить семантический вектор слова, т. е. определять, что «кот» ближе к «собаке», а не к «картошке», а «вилка» вероятнее встретится в одном предложении с «блюдом», чем с «зоопарком». Обработав алгоритмами большое количество текстов, можно получить готовые наборы семантических векторов для множества слов, они называются «векторные модели». Пользуясь этими моделями на сайте проекта RusVectores, пользователь GitLab opennota написал семантический поисковик по текстам Пушкина.
Интерфейс программы — это поле запроса, где можно ввести слово или группу слов. Благодаря нему в текстах находятся не только вариации на тему «карусели» в текстах автора, поиск дает результаты и в тех случаях, когда слова из запроса явно не могут встречаться в произведениях Пушкина. Например, если попросить программу найти «звездолет», она предложит строки из стихотворения «Под каким созвездием…» и стих «Плывет корабль как лебедь громовержец», который не был напечатан при жизни Пушкина.
Посмотреть, какие тексты и строки поиск предложил по запросам «коммунизм» и «терминатор», а также детальнее разобраться с принципом работы векторной модели можно, перейдя к полному тексту материала.
Время чтения: 10 минут.
Системный Блокъ
Пушкин, терминатор и звездолет - Системный Блокъ
Тестируем семантический поисковик по стихам великого русского поэта — и ловим кайф
Что такое рынок SexTech?
По итогам 2022 года рынок SexTech оценивается в $21млрд с ежегодным ростом в 16.71% до 2030 года. О том, как устроена эта индустрия, на какие запросы она отвечает и как связана с развитием феминизма, рассказывает Таня Дмитриева — секс-просветительница и соосновательница международной платформы для познания своей сексуальности Deep. По ее мнению, забота о сексуальном удовольствии скоро станет частью здорового образа жизни: люди будут изучать новые телесные практики так же, как сейчас свое питание, ментальное и физическое здоровье.
Кратко: о чем статья?
Изначально большинство проектов в сфере SexTech были ориентированы на женщин и сделаны женщинами, потому что в патриархальном обществе женская сексуальность долгое время была под запретом в отличие от мужской. Сегодня можно также найти проекты для пар и отдельно для мужчин, причем форматы варьируются от приложений и платформ с аудиогидами до сборников поз, упражнений и заданий, которые помогают изучать свое тело и желания.
Проекты в этой области помогают сделать отношения с партнерами и с самим собой более качественными: делают возможной интимную близость на расстоянии, позволяют не фокусироваться на сексе при выборе партнера и способствуют преодолению страхов.
И хотя пока SexTech — рискованная для инвестиций область из-за табу корпораций на секс-контент, а перед маркетологами стоит задача научиться работать с ограничениями СМИ и социальных сетей, эта сфера отвечает общемировым трендам на экологичность и устойчивое развитие и может начать развиваться всё активнее. Подробнее о настоящем и будущем SexTech — в полном тексте материала.
Время чтения: 9 минут.
По итогам 2022 года рынок SexTech оценивается в $21млрд с ежегодным ростом в 16.71% до 2030 года. О том, как устроена эта индустрия, на какие запросы она отвечает и как связана с развитием феминизма, рассказывает Таня Дмитриева — секс-просветительница и соосновательница международной платформы для познания своей сексуальности Deep. По ее мнению, забота о сексуальном удовольствии скоро станет частью здорового образа жизни: люди будут изучать новые телесные практики так же, как сейчас свое питание, ментальное и физическое здоровье.
Кратко: о чем статья?
Изначально большинство проектов в сфере SexTech были ориентированы на женщин и сделаны женщинами, потому что в патриархальном обществе женская сексуальность долгое время была под запретом в отличие от мужской. Сегодня можно также найти проекты для пар и отдельно для мужчин, причем форматы варьируются от приложений и платформ с аудиогидами до сборников поз, упражнений и заданий, которые помогают изучать свое тело и желания.
Проекты в этой области помогают сделать отношения с партнерами и с самим собой более качественными: делают возможной интимную близость на расстоянии, позволяют не фокусироваться на сексе при выборе партнера и способствуют преодолению страхов.
И хотя пока SexTech — рискованная для инвестиций область из-за табу корпораций на секс-контент, а перед маркетологами стоит задача научиться работать с ограничениями СМИ и социальных сетей, эта сфера отвечает общемировым трендам на экологичность и устойчивое развитие и может начать развиваться всё активнее. Подробнее о настоящем и будущем SexTech — в полном тексте материала.
Время чтения: 9 минут.
Системный Блокъ
SexTech — как работает индустрия сексуальной жизни?
SexTech — индустрия для женщин? Какие проблемы у стартапов в области сексуальной жизни и что их может ожидать в будущем?
24000 оцифрованных старых открыток: проекту «Пишу тебе» два года
В июне 2021 года команда «Системного блока» презентовала проект открытого цифрового архива отправленных почтовых открыток. Имя этого проекта — «Пишу тебе».
Два года спустя мы хотим рассказать про интересные открытки, которые мы собрали, и обозначить планы на будущее.
Давайте посмотрим, что из этого получилось:
✅ К июню 2023 г. мы расшифровали более 24 000 открыток (большая часть уже доступна на сайте)
✅ Около 55% приходится на долю советских открыток, 39% — на долю дореволюционных открыток (среди них есть и отправленные до 1900 года), 6% — на современные
✅ Всего в проекте в разных ролях поучаствовало более 400 человек
✅ Нашим читателям стали доступны открытки из коллекций Еврейского музея, Детского музея открытки, Саткинского краеведческого музея и Калининградского музея открытки
✅ Мы опубликовали 18 подборок открыток на разные тематики: от праздников и дат до обзора музейных коллекций
✅ Придумали рубрику «Путешествия с открыткой», в которой каждую неделю знакомим вас со знаковыми местами, запечатленными на открытках
✅ Запустили практику для студентов нескольких направлений Высшей школы экономики и ИТМО
✅ Создали исследовательский отдел и разрабатываем корпус, удобный для работы ученых
За это время мы создали несколько материалов совместно с нашими партнерами: Еврейским музеем и центром толерантности, проектом «Прожито», а проект «Familio» выпустил про нас статью!
Также команда «Пишу тебе» проводит мастерские и лаборатории по расшифровке открыток для всех желающих. В 2023 году нами уже организовано 10 подобных мероприятий.
В этом году мы хотим довести количество опубликованных открыток из нашей коллекции на сайте до 35 000 экземпляров, а также готовим новые интересные совместные проекты с дружескими медиа.
Спасибо за то, что были и есть с нами! А еще мы всегда рады новым лицам. Если вы или ваши знакомые хотите присоединиться к нашей команде, — сделать это можно тут.
В июне 2021 года команда «Системного блока» презентовала проект открытого цифрового архива отправленных почтовых открыток. Имя этого проекта — «Пишу тебе».
Два года спустя мы хотим рассказать про интересные открытки, которые мы собрали, и обозначить планы на будущее.
Давайте посмотрим, что из этого получилось:
✅ К июню 2023 г. мы расшифровали более 24 000 открыток (большая часть уже доступна на сайте)
✅ Около 55% приходится на долю советских открыток, 39% — на долю дореволюционных открыток (среди них есть и отправленные до 1900 года), 6% — на современные
✅ Всего в проекте в разных ролях поучаствовало более 400 человек
✅ Нашим читателям стали доступны открытки из коллекций Еврейского музея, Детского музея открытки, Саткинского краеведческого музея и Калининградского музея открытки
✅ Мы опубликовали 18 подборок открыток на разные тематики: от праздников и дат до обзора музейных коллекций
✅ Придумали рубрику «Путешествия с открыткой», в которой каждую неделю знакомим вас со знаковыми местами, запечатленными на открытках
✅ Запустили практику для студентов нескольких направлений Высшей школы экономики и ИТМО
✅ Создали исследовательский отдел и разрабатываем корпус, удобный для работы ученых
За это время мы создали несколько материалов совместно с нашими партнерами: Еврейским музеем и центром толерантности, проектом «Прожито», а проект «Familio» выпустил про нас статью!
Также команда «Пишу тебе» проводит мастерские и лаборатории по расшифровке открыток для всех желающих. В 2023 году нами уже организовано 10 подобных мероприятий.
В этом году мы хотим довести количество опубликованных открыток из нашей коллекции на сайте до 35 000 экземпляров, а также готовим новые интересные совместные проекты с дружескими медиа.
Спасибо за то, что были и есть с нами! А еще мы всегда рады новым лицам. Если вы или ваши знакомые хотите присоединиться к нашей команде, — сделать это можно тут.
Системный Блокъ
Проекту «Пишу тебе» два года!
В июне 2021 года команда «Системного блока» презентовала проект открытого цифрового архива отправленных почтовых открыток. Имя этого проекта — «Пишу тебе». Два года спустя мы хотим рассказать про интересные открытки, которые мы собрали, и обозначить планы…
500 героев в одной схеме: о чем говорит сетевой анализ «Войны и мира»
Ранее мы рассказывали про цифровой анализ речи героев «Войны и мира». В этом материале с помощью сетевого анализа разбираемся, как взаимосвязаны персонажи эпопеи и кто из них «главнее».
Кратко: о чем статья?
Сетевой анализ (network analysis) предполагает представление информации в виде сети, или математических графов. Такой способ визуализации не только помогает быстрее проанализировать любое литературное произведение, но и предлагает новое видение классического сюжета (подробнее о сетевом анализе мы рассказывали здесь). Для анализа персонажей мы пользовались двумя методами — диалоговым (кто с кем разговаривает) и методом соседства (кто с кем упоминается в одном предложении) в «Войне и мире» Л. Н. Толстого.
В случае метода соседства самым значимым персонажем оказался Кутузов: через него связаны множество генералов, адъютантов, и одновременно с ним пересекаются многие мирные персонажи. При этом в диалоговой сети военно-исторических персонажей оказалось намного меньше, а в топ-10 ожидаемо вошли Николай и Наташа Ростовы, Пьер Безухов и Андрей Болконский.
Сетевой анализ также позволил разделить персонажей на подвижные сообщества в зависимости от их взаимодействий друг с другом и пронаблюдать изменение плотности сетей в разных частях романа. Плотность показывает, насколько тесно связаны узлы в графе и, следовательно, насколько высока концентрация персонажей в соответствующем фрагменте. В случае диалоговой сети самым плотным оказался эпилог, тогда как во всех военных эпизодах количество взаимодействия между персонажами снижалось.
Посмотреть на получившиеся сообщества, выяснить, насколько важные роли в романе играют Денисов, Курагины и Александр I, а также увидеть, как две сети отражают «мир» и «войну», можно благодаря полной версии статьи на сайте.
Время чтения: 13,5 минут.
Ранее мы рассказывали про цифровой анализ речи героев «Войны и мира». В этом материале с помощью сетевого анализа разбираемся, как взаимосвязаны персонажи эпопеи и кто из них «главнее».
Кратко: о чем статья?
Сетевой анализ (network analysis) предполагает представление информации в виде сети, или математических графов. Такой способ визуализации не только помогает быстрее проанализировать любое литературное произведение, но и предлагает новое видение классического сюжета (подробнее о сетевом анализе мы рассказывали здесь). Для анализа персонажей мы пользовались двумя методами — диалоговым (кто с кем разговаривает) и методом соседства (кто с кем упоминается в одном предложении) в «Войне и мире» Л. Н. Толстого.
В случае метода соседства самым значимым персонажем оказался Кутузов: через него связаны множество генералов, адъютантов, и одновременно с ним пересекаются многие мирные персонажи. При этом в диалоговой сети военно-исторических персонажей оказалось намного меньше, а в топ-10 ожидаемо вошли Николай и Наташа Ростовы, Пьер Безухов и Андрей Болконский.
Сетевой анализ также позволил разделить персонажей на подвижные сообщества в зависимости от их взаимодействий друг с другом и пронаблюдать изменение плотности сетей в разных частях романа. Плотность показывает, насколько тесно связаны узлы в графе и, следовательно, насколько высока концентрация персонажей в соответствующем фрагменте. В случае диалоговой сети самым плотным оказался эпилог, тогда как во всех военных эпизодах количество взаимодействия между персонажами снижалось.
Посмотреть на получившиеся сообщества, выяснить, насколько важные роли в романе играют Денисов, Курагины и Александр I, а также увидеть, как две сети отражают «мир» и «войну», можно благодаря полной версии статьи на сайте.
Время чтения: 13,5 минут.
Системный Блокъ
Сетевой анализ в литературе: 500 персонажей «Войны и мира» в одной схеме
Сетевой анализ в литературе позволяет группировать персонажей в зависимости от их взаимодействий и определять центральных героев. Разбираемся, как взаимосвязаны герои эпопеи и кто из них «главнее».
От ChatGPT до кыргызского эпоса: что обсуждали на круглом столе «Digital Humanities в Центральной Азии»
15 марта 2023 года прошел круглый стол «Digital Humanities в Центральной Азии» — серия панельных дискуссий, на которых учёные из стран Центральной Азии обсудили цифровые гуманитарные исследования и проекты в регионе. Участница «Системного Блока» посетила мероприятие и рассказала о представленных на нем докладах, а мы делимся здесь краткими описаниями трёх выступлений, которые можно посмотреть прямо сейчас.
📕 Тюркское стиховедение // Борис Орехов
Почему не всякое изучение стихов это стиховедение? Как корпусные технологии позволяют узнавать больше о литературе? Что общего и что различного у тюркской поэзии на разных языках? Ответы на эти вопросы — в выступлении филолога (и блогера «Системного Блока») Бориса Орехова.
📗 Мультимедийный корпус современного казахского языка // Андрей Фильченко
Устный разговорный материал очень полезен как для практических задач (распознавание и синтез речи), так и для теоретических исследований. Задача исследователей — заполнить лакуну в исследовании казахского языка, обеспечив в корпусе разнообразный и полный материал для изучения казахской речи.
📘 Дополненная реальность для музеев // Алишер Рахимов
Приложение дополненной реальности NazzAR позволяет посмотреть на привычные вещи под другим углом: использование AR-технологий позволяет туристам и жителям Узбекистана узнавать больше об объектах культурного наследия страны. Приложение охватывает Самарканд, Ташкент, Хиву и Бухару.
Узнать больше о доступности культурного наследия в цифровом пространстве, цифровом изучении главного кыргызского эпоса Манас и разных научных ассоциациях и учебных программах, посвященных развитию Digital Humanities в Центральной Азии, можно из полной версии статьи.
Время чтения: 10 минут.
15 марта 2023 года прошел круглый стол «Digital Humanities в Центральной Азии» — серия панельных дискуссий, на которых учёные из стран Центральной Азии обсудили цифровые гуманитарные исследования и проекты в регионе. Участница «Системного Блока» посетила мероприятие и рассказала о представленных на нем докладах, а мы делимся здесь краткими описаниями трёх выступлений, которые можно посмотреть прямо сейчас.
📕 Тюркское стиховедение // Борис Орехов
Почему не всякое изучение стихов это стиховедение? Как корпусные технологии позволяют узнавать больше о литературе? Что общего и что различного у тюркской поэзии на разных языках? Ответы на эти вопросы — в выступлении филолога (и блогера «Системного Блока») Бориса Орехова.
📗 Мультимедийный корпус современного казахского языка // Андрей Фильченко
Устный разговорный материал очень полезен как для практических задач (распознавание и синтез речи), так и для теоретических исследований. Задача исследователей — заполнить лакуну в исследовании казахского языка, обеспечив в корпусе разнообразный и полный материал для изучения казахской речи.
📘 Дополненная реальность для музеев // Алишер Рахимов
Приложение дополненной реальности NazzAR позволяет посмотреть на привычные вещи под другим углом: использование AR-технологий позволяет туристам и жителям Узбекистана узнавать больше об объектах культурного наследия страны. Приложение охватывает Самарканд, Ташкент, Хиву и Бухару.
Узнать больше о доступности культурного наследия в цифровом пространстве, цифровом изучении главного кыргызского эпоса Манас и разных научных ассоциациях и учебных программах, посвященных развитию Digital Humanities в Центральной Азии, можно из полной версии статьи.
Время чтения: 10 минут.
Системный Блокъ
Что обсуждали на круглом столе «Digital Humanities в Центральной Азии»
15 марта 2023 года прошёл круглый стол «Digital Humanities в Центральной Азии» — серия панельных дискуссий, на которых учёные из стран Центральной Азии обсудили цифровые гуманитарные исследования и проекты в регионе. Участница Системного Блока сходила на…