О дивный «Визуальный мир»
При помощи записи движения глаз учёные изучают, как мозг человека понимает предложения и справляется с лингвистической неоднозначностью. Продолжаем серию материалов про айтрекинг и рассказываем об одном из направлений нейролингвистических исследований: экспериментальном методе «Визуальный мир».
Кратко: о чем статья?
Первое исследование в парадигме «Визуальный мир» было представлено в 1994 году в Нью-Йорке, но сама история этого айтрекинг-метода началась гораздо раньше. В 1974 году американский лингвист Роджер Купер выяснил, что в большинстве случаев взгляд человека останавливается на названном объекте ещё до того, как слово полностью произнесено.
Во время эксперимента по методике «Визуальный мир» испытуемые прослушивают устные инструкции и по-разному взаимодействуют с некоторыми предметами: смотрят на них, двигают, дотрагиваются. Среди предметов обязательно есть объект-мишень, который используется в устной инструкции, и объект-конкурент, название которого похоже на название мишени по звучанию или значению (например, candle и candy). Ещё есть отвлекающие объекты-дистракторы. Запись движений глаз в «Визуальном мире» позволяет отследить обработку предложения во время его звучания.
Какие исследовательские проблемы решают с помощью «Визуального мира» и как с ним экспериментируют на русском языке — читайте в полной версии статьи.
Время чтения: 4 минуты.
🤖 «Системный Блокъ» @sysblok
При помощи записи движения глаз учёные изучают, как мозг человека понимает предложения и справляется с лингвистической неоднозначностью. Продолжаем серию материалов про айтрекинг и рассказываем об одном из направлений нейролингвистических исследований: экспериментальном методе «Визуальный мир».
Кратко: о чем статья?
Первое исследование в парадигме «Визуальный мир» было представлено в 1994 году в Нью-Йорке, но сама история этого айтрекинг-метода началась гораздо раньше. В 1974 году американский лингвист Роджер Купер выяснил, что в большинстве случаев взгляд человека останавливается на названном объекте ещё до того, как слово полностью произнесено.
Во время эксперимента по методике «Визуальный мир» испытуемые прослушивают устные инструкции и по-разному взаимодействуют с некоторыми предметами: смотрят на них, двигают, дотрагиваются. Среди предметов обязательно есть объект-мишень, который используется в устной инструкции, и объект-конкурент, название которого похоже на название мишени по звучанию или значению (например, candle и candy). Ещё есть отвлекающие объекты-дистракторы. Запись движений глаз в «Визуальном мире» позволяет отследить обработку предложения во время его звучания.
Какие исследовательские проблемы решают с помощью «Визуального мира» и как с ним экспериментируют на русском языке — читайте в полной версии статьи.
Время чтения: 4 минуты.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
О дивный «Визуальный мир» - Системный Блокъ Технологии айтрекинга в нейролингвистике — метод «Визуальный мир»
Что такое «Визуальный мир», кто в нём живёт и причём тут яблоки? Продолжаем серию материалов про айтрекинг и рассказываем об экспериментальном методе «Визуальный мир». При помощи записи движения глаз учёные изучают, как мозг человека понимает предложения…
Кто какую часть произведения написал? Выясняем с помощью Stylo
Представьте, что у вас есть текст, написанный несколькими людьми. Как узнать, какие его части точно принадлежат тому или иному автору, если об этом нет никаких данных? Для этого в Stylo, библиотеке языка программирования R, существует функция rolling.classify. В новом гайде рассказываем, как она работает и чем может быть полезна в стилометрических исследованиях.
⚙️ Как это работает?
В основе работы rolling.classify лежит алгоритм, который обучается на корпусе текстов предполагаемых авторов. Затем он разбивает изначальный текст на части и определяет, кому какая принадлежит.
🔬 Эксперимент «Системного Блока»
Чтобы проверить функцию, мы составили единый текст из отрывков «Драмы на охоте» А. П. Чехова и «Жизни Арсеньева» И. А. Бунина и запустили rolling.classify (Важное замечание: у неё нет графического интерфейса, как у stylo, придется написать код вручную и скопировать пару команд из инструкции).
После запуска функции на выходе получается диаграмма, которая предлагает три варианта разбиения отрывков по авторам — от более вероятного к менее. В нашем случае она сразу показала достаточно точный результат, но, изменив несколько параметров, мы убедились, что иногда найти подходящие для текстов настройки с первого раза не так просто. Поэтому в реальности часто нужно совмещать количественный анализ с качественным. Например, обращаться к литературоведческим работам, в которых можно найти подтверждение найденным закономерностям.
Проследить за экспериментом от начала и до конца и узнать, как провести собственное стилометрическое исследование, можно благодаря туториалу на сайте.
Время чтения: 9 минут.
🤖 «Системный Блокъ» @sysblok
Представьте, что у вас есть текст, написанный несколькими людьми. Как узнать, какие его части точно принадлежат тому или иному автору, если об этом нет никаких данных? Для этого в Stylo, библиотеке языка программирования R, существует функция rolling.classify. В новом гайде рассказываем, как она работает и чем может быть полезна в стилометрических исследованиях.
⚙️ Как это работает?
В основе работы rolling.classify лежит алгоритм, который обучается на корпусе текстов предполагаемых авторов. Затем он разбивает изначальный текст на части и определяет, кому какая принадлежит.
🔬 Эксперимент «Системного Блока»
Чтобы проверить функцию, мы составили единый текст из отрывков «Драмы на охоте» А. П. Чехова и «Жизни Арсеньева» И. А. Бунина и запустили rolling.classify (Важное замечание: у неё нет графического интерфейса, как у stylo, придется написать код вручную и скопировать пару команд из инструкции).
После запуска функции на выходе получается диаграмма, которая предлагает три варианта разбиения отрывков по авторам — от более вероятного к менее. В нашем случае она сразу показала достаточно точный результат, но, изменив несколько параметров, мы убедились, что иногда найти подходящие для текстов настройки с первого раза не так просто. Поэтому в реальности часто нужно совмещать количественный анализ с качественным. Например, обращаться к литературоведческим работам, в которых можно найти подтверждение найденным закономерностям.
Проследить за экспериментом от начала и до конца и узнать, как провести собственное стилометрическое исследование, можно благодаря туториалу на сайте.
Время чтения: 9 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Кто какую часть произведения написал? Выясняем с помощью Stylo - Системный Блокъ Кто какую часть произведения написал? Выясняем…
«Системный Блокъ» уже рассказывал, что такое стилометрия, и как сделать её своими руками с помощью библиотеки Stylo на языке программирования R. В новом гайде мы познакомим вас с функцией rolling.classify(), которая может помочь в исследований произведений…
Что влияет на продовольственную безопасность?
«Системный Блокъ» подготовил инфографику о связи голода с географией, экономикой, погодными бедствиями и вооружёнными конфликтами.
О том, как число людей, страдающих от нехватки продовольствия, выросло за последние годы, из-за чего случается продовольственный кризис и насколько мир зависит от экспорта зерна из России и Украины, узнаете из наших карточек. А ещё больше информации о продовольственной безопасности найдете в этом посте.
🤖 «Системный Блокъ» @sysblok
«Системный Блокъ» подготовил инфографику о связи голода с географией, экономикой, погодными бедствиями и вооружёнными конфликтами.
О том, как число людей, страдающих от нехватки продовольствия, выросло за последние годы, из-за чего случается продовольственный кризис и насколько мир зависит от экспорта зерна из России и Украины, узнаете из наших карточек. А ещё больше информации о продовольственной безопасности найдете в этом посте.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Агрессивная сеть: кибербуллинг в цифрах
Кто чаще всего сталкивается с травлей в сети? Как часто жертвы кибербуллинга становятся агрессорами? В новом материале «Системного Блока» разбираемся с феноменом онлайн-агрессии среди детей, подростков и взрослых.
Кратко: о чем статья?
Понятие «буллинг» было впервые введено Дэном Олвеусом в 1993 году, а термин «кибербуллинг» канадский политик Билл Белси ввел четыре года спустя. Он предлагал понимать его как агрессивные действия, направленные на интернет-пользователя со стороны других пользователей различных социальных сетей.
Сегодня с кибербуллингом сталкиваются люди всех возрастов, но 56% — согласно исследованию «Постнауки» — составляют подростки. Более того, в 40% случаев жертвы травли в интернете вскоре сами становятся онлайн-агрессорами. При этом 25% чувствуют вину, а 26% понимают, что поступают неправильно.
Другое исследование, которое проводила компания Microsoft, показало, что от интернет-агрессии в социальных сетях страдали или страдают 50% опрошенных российских подростков. При этом каждый второй предпочитает отвечать агрессией на агрессию, а к родителям обращается только каждый пятый.
Подробнее о ситуации с кибербуллингом, о том, что о ней думаю шестиклассники и девятиклассники и о том, как защититься от агрессии в интернете, узнаете из полного текста статьи.
Время чтения: 4,5 минуты.
🤖 «Системный Блокъ» @sysblok
Кто чаще всего сталкивается с травлей в сети? Как часто жертвы кибербуллинга становятся агрессорами? В новом материале «Системного Блока» разбираемся с феноменом онлайн-агрессии среди детей, подростков и взрослых.
Кратко: о чем статья?
Понятие «буллинг» было впервые введено Дэном Олвеусом в 1993 году, а термин «кибербуллинг» канадский политик Билл Белси ввел четыре года спустя. Он предлагал понимать его как агрессивные действия, направленные на интернет-пользователя со стороны других пользователей различных социальных сетей.
Сегодня с кибербуллингом сталкиваются люди всех возрастов, но 56% — согласно исследованию «Постнауки» — составляют подростки. Более того, в 40% случаев жертвы травли в интернете вскоре сами становятся онлайн-агрессорами. При этом 25% чувствуют вину, а 26% понимают, что поступают неправильно.
Другое исследование, которое проводила компания Microsoft, показало, что от интернет-агрессии в социальных сетях страдали или страдают 50% опрошенных российских подростков. При этом каждый второй предпочитает отвечать агрессией на агрессию, а к родителям обращается только каждый пятый.
Подробнее о ситуации с кибербуллингом, о том, что о ней думаю шестиклассники и девятиклассники и о том, как защититься от агрессии в интернете, узнаете из полного текста статьи.
Время чтения: 4,5 минуты.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как защититься от кибербуллинга?
Кто чаще всего страдает от интернет-агрессии? Как её избежать? Узнаем в новом материале «Системного Блока»
Как автоматически расшифровать аудио: пошаговая инструкция для Whisper
Расшифровка аудиозаписи — дело утомительное и времязатратное. К счастью, появляется все больше сервисов, которые умеют это делать автоматически. Рассказываем, как это сделать с помощью модели Whisper от OpenAI, и смотрим, насколько хорошо она справляется с русскоязычными записями.
👞 Шаг 0. Готовимся к работе и запуску Google Colab
Чтобы превратить аудио в текст с помощью Whisper, мы используем Python, потому что своего официального интерфейса у модели нет. Проще всего это сделать в Google Colab. Когда вы завели Colab-тетрадку, нужно настроить её так, чтобы она не «засыпала».
👟 Шаг 1. Загружаем аудио
Здесь мы напишем о самом простом, но и самом долгом способе загрузить файл. Его нужно просто выбрать с компьютера при помощи готовой функции из библиотеки files и вставить код из нашей инструкции.
👡Шаг 2. Делаем из аудио текст
Когда файл загружен, можно запустить программу, которая установит Whisper, применит его и запишет результат расшифровки в txt-файл. После этого останется открыть получившийся текст и поправить то, с чем машина не справилась.
🛼 Шаг 3. Метод Кондо: чистим текст
К сожалению, реплики собеседников придется разделять вручную, так как Whisper их не различает. А ещё кое-что придется переписать, потому что некоторые слова Whisper распознает неправильно (например, нам он предложил миросети вместо нейросетей). А вот знаки препинания Whisper расставляет неплохо, но иногда своеобразно. Например, придется разделить длинную фразу на пару предложений покороче или добавить тире. Наконец, названиям придётся добавить кавычки, но… это всё равно займет намного меньше времени, чем расшифровка вручную.
Скопировать необходимые коды и найти ещё два способа загрузки аудио (более сложных, зато более быстрых) можно в статье на сайте.
🤖 «Системный Блокъ» @sysblok
Расшифровка аудиозаписи — дело утомительное и времязатратное. К счастью, появляется все больше сервисов, которые умеют это делать автоматически. Рассказываем, как это сделать с помощью модели Whisper от OpenAI, и смотрим, насколько хорошо она справляется с русскоязычными записями.
👞 Шаг 0. Готовимся к работе и запуску Google Colab
Чтобы превратить аудио в текст с помощью Whisper, мы используем Python, потому что своего официального интерфейса у модели нет. Проще всего это сделать в Google Colab. Когда вы завели Colab-тетрадку, нужно настроить её так, чтобы она не «засыпала».
👟 Шаг 1. Загружаем аудио
Здесь мы напишем о самом простом, но и самом долгом способе загрузить файл. Его нужно просто выбрать с компьютера при помощи готовой функции из библиотеки files и вставить код из нашей инструкции.
👡Шаг 2. Делаем из аудио текст
Когда файл загружен, можно запустить программу, которая установит Whisper, применит его и запишет результат расшифровки в txt-файл. После этого останется открыть получившийся текст и поправить то, с чем машина не справилась.
🛼 Шаг 3. Метод Кондо: чистим текст
К сожалению, реплики собеседников придется разделять вручную, так как Whisper их не различает. А ещё кое-что придется переписать, потому что некоторые слова Whisper распознает неправильно (например, нам он предложил миросети вместо нейросетей). А вот знаки препинания Whisper расставляет неплохо, но иногда своеобразно. Например, придется разделить длинную фразу на пару предложений покороче или добавить тире. Наконец, названиям придётся добавить кавычки, но… это всё равно займет намного меньше времени, чем расшифровка вручную.
Скопировать необходимые коды и найти ещё два способа загрузки аудио (более сложных, зато более быстрых) можно в статье на сайте.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как автоматически расшифровать аудио с помощью программы Whisper от OpenAI
Превратить аудио в текст — дело утомительное и времязатратное. К счастью, появляется всё больше сервисов, которые умеют это делать автоматически. «Системный Блокъ» проверил, как работает приложение для распознавания речи Whisper от OpenAI, и сделал пошаговую…
Понять Льва Толстого: как векторно-семантические модели помогают литературоведам
Идиостиль — это авторский стиль писателя. И если на небольших стихах его изучать удобно, то вот на текстах Льва Толстого — очень непросто. Рассказываем, как филолог Борис Орехов использует векторно-семантические модели для анализа идиостиля Толстого.
Кратко: о чем статья?
Раньше полностью проанализировать корпус текстов Толстого — девяносто томов — было практически невозможно. Теперь такая перспектива появилась благодаря машинным методам. С помощью компьютерного моделирования контекстов в векторном пространстве можно понять, какие слова в корпусе текстов находятся ближе всего друг к другу. Говоря проще: определить, чем индивидуальный стиль писателя отличается от «обычного» русского языка.
В случае Толстого, например, обнаружилась разница между синонимичными «любовь» и «обожание». Оказалось, что глаголы «обожать» и «боготворить» в текстах писателя свидетельствуют о чувствах ложных и зыбких, а вот «любят» у классика по-настоящему.
Ещё одна интересная находка связана с полями: ближайшими соседями слова «поле» в текстах писателя оказались компоненты пейзажа («лес», «луг») и сельские термины, а батальная семантика поля боя встречалась реже.
Узнать больше об этом исследовании и подтвердить находки цитатами поможет полная версия статьи.
Время чтения: 6 минут.
🤖 «Системный Блокъ» @sysblok
Идиостиль — это авторский стиль писателя. И если на небольших стихах его изучать удобно, то вот на текстах Льва Толстого — очень непросто. Рассказываем, как филолог Борис Орехов использует векторно-семантические модели для анализа идиостиля Толстого.
Кратко: о чем статья?
Раньше полностью проанализировать корпус текстов Толстого — девяносто томов — было практически невозможно. Теперь такая перспектива появилась благодаря машинным методам. С помощью компьютерного моделирования контекстов в векторном пространстве можно понять, какие слова в корпусе текстов находятся ближе всего друг к другу. Говоря проще: определить, чем индивидуальный стиль писателя отличается от «обычного» русского языка.
В случае Толстого, например, обнаружилась разница между синонимичными «любовь» и «обожание». Оказалось, что глаголы «обожать» и «боготворить» в текстах писателя свидетельствуют о чувствах ложных и зыбких, а вот «любят» у классика по-настоящему.
Ещё одна интересная находка связана с полями: ближайшими соседями слова «поле» в текстах писателя оказались компоненты пейзажа («лес», «луг») и сельские термины, а батальная семантика поля боя встречалась реже.
Узнать больше об этом исследовании и подтвердить находки цитатами поможет полная версия статьи.
Время чтения: 6 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как изучать тексты Толстого с помощью семантических моделей
Почему Толстой «обожает» и «боготворит» не так, как все? Как векторно-семантические модели помогают в изучении авторского стиля? Узнаем в новом исследовании филолога Бориса Орехова
👋 Тест: какой вы жест из мультимедийного корпуса русского языка?✍️
«Закатить глаза» или «поднять бокал»? Пройдите тест и узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.
А если вы ещё думаете, переходить ли по ссылке, спойлер:в одном из вопросов нужно выбрать стихотворение про кота 😼
🤖 «Системный Блокъ» @sysblok
«Закатить глаза» или «поднять бокал»? Пройдите тест и узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.
А если вы ещё думаете, переходить ли по ссылке, спойлер:
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
👋 Тест: какой вы жест из мультимедийного корпуса русского языка?✍️ - Системный Блокъ
«Закатить глаза» или «троекратный поцелуй»? Узнайте, каким жестом вы были бы во вселенной мультимедийного корпуса русского языка.
Цифровые коллекции японского искусства
Как технологии открывают миру богатство культурного наследия? Японские гравюры, живопись и каллиграфию можно увидеть и изучать не только вживую, но и через интернет. Исследуем платформу Google Arts & Culture, цифровой ресурс Cultural Japan, базу данных японских гравюр на дереве Ukiyo-e Search и Центр исследования искусства Университета Рицумэйкан, которые позволяют соприкоснуться с оцифрованными произведениями японской культуры из любой точки мира.
🎌 Google Arts & Culture
Эта платформа объединяет более двух тысяч культурных учреждений из более чем восьмидесяти стран мира. При запросе «Japan» поисковая система Google Arts & Culture предлагает просмотреть 52 800 связанных с Японией экспонатов, 175 коллекций, 2 333 истории (онлайн-выставки) и 4 виртуальные галереи.
🏯 Cultural Japan
Cultural Japan включает в себя 133 базы данных и 1 718 202 элемента, доступных для поиска на английском и японском языках. Пользователи ресурса могут не только исследовать, но и создавать собственные виртуальные выставки: функция Self Museum позволяет выбирать произведения искусства и добавлять их в виртуальные галереи на сайте.
🎌 Japanese Woodblock Print Search
Эта база данных содержит изображения и метаданные по японским гравюрам из различных учреждений — всего более 213 000 гравюр из 24 коллекций по всему миру. Текстовый и графический поиск помогают исследователям находить новые копии гравюр, корректировать атрибуцию и идентифицировать гравюры.
🏯 The Art Research Center (ARC), Ritsumeikan University
В цифровых архивах Университета Рицумэйкан можно найти 80 баз данных, которые включают в себя изображения, тексты и метаданные, связанные с богатым культурным наследием Японии. Причем искать их можно не только по коллекции университета, но и по собраниям других учреждений и коллекционеров.
Узнать об истории этих проектов и посмотреть на интерфейс каждого можно на сайте.
🤖 «Системный Блокъ» @sysblok
Как технологии открывают миру богатство культурного наследия? Японские гравюры, живопись и каллиграфию можно увидеть и изучать не только вживую, но и через интернет. Исследуем платформу Google Arts & Culture, цифровой ресурс Cultural Japan, базу данных японских гравюр на дереве Ukiyo-e Search и Центр исследования искусства Университета Рицумэйкан, которые позволяют соприкоснуться с оцифрованными произведениями японской культуры из любой точки мира.
🎌 Google Arts & Culture
Эта платформа объединяет более двух тысяч культурных учреждений из более чем восьмидесяти стран мира. При запросе «Japan» поисковая система Google Arts & Culture предлагает просмотреть 52 800 связанных с Японией экспонатов, 175 коллекций, 2 333 истории (онлайн-выставки) и 4 виртуальные галереи.
🏯 Cultural Japan
Cultural Japan включает в себя 133 базы данных и 1 718 202 элемента, доступных для поиска на английском и японском языках. Пользователи ресурса могут не только исследовать, но и создавать собственные виртуальные выставки: функция Self Museum позволяет выбирать произведения искусства и добавлять их в виртуальные галереи на сайте.
🎌 Japanese Woodblock Print Search
Эта база данных содержит изображения и метаданные по японским гравюрам из различных учреждений — всего более 213 000 гравюр из 24 коллекций по всему миру. Текстовый и графический поиск помогают исследователям находить новые копии гравюр, корректировать атрибуцию и идентифицировать гравюры.
🏯 The Art Research Center (ARC), Ritsumeikan University
В цифровых архивах Университета Рицумэйкан можно найти 80 баз данных, которые включают в себя изображения, тексты и метаданные, связанные с богатым культурным наследием Японии. Причем искать их можно не только по коллекции университета, но и по собраниям других учреждений и коллекционеров.
Узнать об истории этих проектов и посмотреть на интерфейс каждого можно на сайте.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Цифровизация культуры Японии: как посмотреть все виды на гору Фудзи, не выходя из дома
Как происходит цифровизация культуры Японии? Каталоги Google Arts & Culture и других баз данных открывают миру богатство японского искусства.
Цвет антиутопии зеленый: цифровая рецензия на роман «Радио Мартын»
Гуманитарии осваивают цифровой мир и смотрят на литературные произведения через цифровую оптику. Это позволяет увидеть в толще текста неочевидные стилевые особенности текста. Мы проанализировали книгу «Радио Мартын» Филиппа Дзядко с помощью языка программирования R и отразили в цифрах уникальность авторского стиля писателя. Спойлер:в этом посте спойлеров нет, а вот в полной статье — очень даже.
Кратко: о чем статья?
Стиль романа – отрывистая, сухая речь с частыми повторениями одних и тех же словосочетаний. Чаще всего здесь встречаются предложения всего из трех слов, но вообще их длина колеблется от одного слова до шести.
Что же касается самих слов, самое употребительное прилагательное – другой – выводит на первый план инаковость главного героя антиутопии. Ещё в романе часто встречаются цвета, но только три — черный, белый и зеленый. Анализ словосочетаний, в которых они обычно употребляются, показал, что черный закономерно ассоциируется с чем-то тревожным и страшным, а белый — с приятными воспоминаниями о любви и домашнем уюте.
Если не боитесь спойлеров и хотите узнать, какое облако слов окружает зеленый и что происходит в предложении длиной в целую главу, переходите к полной версии материала.
Время чтения: 7 минут.
🤖 «Системный Блокъ» @sysblok
Гуманитарии осваивают цифровой мир и смотрят на литературные произведения через цифровую оптику. Это позволяет увидеть в толще текста неочевидные стилевые особенности текста. Мы проанализировали книгу «Радио Мартын» Филиппа Дзядко с помощью языка программирования R и отразили в цифрах уникальность авторского стиля писателя. Спойлер:
Кратко: о чем статья?
Стиль романа – отрывистая, сухая речь с частыми повторениями одних и тех же словосочетаний. Чаще всего здесь встречаются предложения всего из трех слов, но вообще их длина колеблется от одного слова до шести.
Что же касается самих слов, самое употребительное прилагательное – другой – выводит на первый план инаковость главного героя антиутопии. Ещё в романе часто встречаются цвета, но только три — черный, белый и зеленый. Анализ словосочетаний, в которых они обычно употребляются, показал, что черный закономерно ассоциируется с чем-то тревожным и страшным, а белый — с приятными воспоминаниями о любви и домашнем уюте.
Если не боитесь спойлеров и хотите узнать, какое облако слов окружает зеленый и что происходит в предложении длиной в целую главу, переходите к полной версии материала.
Время чтения: 7 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как создать цифровую рецензию на книгу?
Как проанализировать сказку-антиутопию с помощью языка программирования? Узнаем в новом материале «Системного Блока»
«Нас вообще все боятся»: Александра Архипова* о том, зачем фольклористы и социальные антропологи собирают слухи и считают репосты
От китайской медицины до американской конспирологии: «Системный Блокъ» поговорил с антропологом Александрой Архиповой и узнал, о чем могут рассказать лозунги митингующих и народные рецепты лечения Covid. А ещё — о сторонниках разных методов в исследованиях культуры, цифровых базах данных для фольклористов и причинах внесения в реестр иностранных агентов.
Кратко: о чем интервью?
Социальные антропологи, фольклористы и этнографы изучают, как люди воспринимают и как создают мир вокруг себя. Правда, пользуются разными методами: некоторые антропологи однозначно предпочитают количественные методы качественным, некоторые — наоборот. Александра Архипова старается их совмещать: например, как в исследовании анекдотов о Штирлице.
А ещё Александра уверена, что тот, кто умеет делать базу данных по сказкам и анекдотам, может и тексты плакатов на митингах анализировать, и слухи собирать. За первые полгода пандемии Covid-19 с помощью агрегатора текстов социальных сетей получилось собрать базу данных на два миллиона репостов и посмотреть, как распространялись слухи о болезни и лечении. Среди них есть очень старая история о том, что в вакцине содержатся тяжелые металлы, у которой было 500 тысяч репостов. Это — пример текста-реагента: ситуативного и отражающего плохо сформулированные страхи. Такие всегда возникают в ситуации социальной напряженности.
При этом слухи могут прийти к нам и из США, и из Китая, потому что сегодня они легко преодолевают национальные границы. Например, народная медицина у нас скорее китайская, а конспирологические теории — западные. Другое дело, что место таких теорий в российской жизни иное, чем в британской или в американской. В России их транслируют все социальные группы (в том числе политики). Плюс, конспирология всегда предлагает более удобное объяснение, чем какая-то наука, поэтому в некотором смысле конспирологи всегда выигрывают.
О том, как распространялся и распространяется нарратив о том, что на границах России обнаружили тайные лаборатории, и о том, как влияет на жизнь и работу статус иноагента, узнаете из полной версии интервью.
🤖 «Системный Блокъ» @sysblok
*признана в РФ иностранным агентом
От китайской медицины до американской конспирологии: «Системный Блокъ» поговорил с антропологом Александрой Архиповой и узнал, о чем могут рассказать лозунги митингующих и народные рецепты лечения Covid. А ещё — о сторонниках разных методов в исследованиях культуры, цифровых базах данных для фольклористов и причинах внесения в реестр иностранных агентов.
Кратко: о чем интервью?
Социальные антропологи, фольклористы и этнографы изучают, как люди воспринимают и как создают мир вокруг себя. Правда, пользуются разными методами: некоторые антропологи однозначно предпочитают количественные методы качественным, некоторые — наоборот. Александра Архипова старается их совмещать: например, как в исследовании анекдотов о Штирлице.
А ещё Александра уверена, что тот, кто умеет делать базу данных по сказкам и анекдотам, может и тексты плакатов на митингах анализировать, и слухи собирать. За первые полгода пандемии Covid-19 с помощью агрегатора текстов социальных сетей получилось собрать базу данных на два миллиона репостов и посмотреть, как распространялись слухи о болезни и лечении. Среди них есть очень старая история о том, что в вакцине содержатся тяжелые металлы, у которой было 500 тысяч репостов. Это — пример текста-реагента: ситуативного и отражающего плохо сформулированные страхи. Такие всегда возникают в ситуации социальной напряженности.
При этом слухи могут прийти к нам и из США, и из Китая, потому что сегодня они легко преодолевают национальные границы. Например, народная медицина у нас скорее китайская, а конспирологические теории — западные. Другое дело, что место таких теорий в российской жизни иное, чем в британской или в американской. В России их транслируют все социальные группы (в том числе политики). Плюс, конспирология всегда предлагает более удобное объяснение, чем какая-то наука, поэтому в некотором смысле конспирологи всегда выигрывают.
О том, как распространялся и распространяется нарратив о том, что на границах России обнаружили тайные лаборатории, и о том, как влияет на жизнь и работу статус иноагента, узнаете из полной версии интервью.
*признана в РФ иностранным агентом
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
«Нас вообще все боятся»: Александра Архипова о том, зачем фольклористы и социальные антропологи собирают слухи и считают репосты…
Как примирить сторонников количественных и качественных исследований культуры? Как исследователям фольклора помогают цифровые базы данных? О чём могут рассказать лозунги митингующих и народные рецепты лечения COVID-19? Почему конспирологические теории так…
Сегодня в колонии ИК-3 в Харпе погиб Алексей Навальный. Он умер в ШИЗО, куда его поместили в 27-й раз за последние 1,5 года. ШИЗО — это штрафной изолятор, место с тяжелыми условиями содержания, холодом и минимумом пищи. Навальный попадал туда за то, что «не держал руки за спиной», «регулярно расстегивал верхнюю пуговицу робы», «отказался представиться по форме» и за другие «провинности». Иногда между заключениями в изоляторе проходило меньше суток. По мнению представителя СПЧ Евы Меркачевой к смерти политика могло привести именно постоянное заключение в ШИЗО.
С августа 2022 Алексей Навальный провел в ШИЗО каждый второй день своего заключения. Несмотря на тяжелые условия, он до последних дней находил место иронии и оптимизму в своих посланиях из-за решетки. Мы едва ли найдем их сегодня. Мы соболезнуем семье, близким и соратникам политика.
🤖 «Системный Блокъ» @sysblok
С августа 2022 Алексей Навальный провел в ШИЗО каждый второй день своего заключения. Несмотря на тяжелые условия, он до последних дней находил место иронии и оптимизму в своих посланиях из-за решетки. Мы едва ли найдем их сегодня. Мы соболезнуем семье, близким и соратникам политика.
Please open Telegram to view this post
VIEW IN TELEGRAM
Мир как набор стереотипов в глазах нейросети
Алгоритмы искусственного интеллекта не только генерируют изображения или тексты, но и воспроизводят общественные стереотипы. «Системный Блокъ» рассказывает, как и почему они это делают.
Кратко: о чем статья?
Причина предрассудков нейросетей — смещенные или искаженные данные, на которых они могут обучаться. Смещение происходит, когда в наборе данных одни элементы получают больший вес и/или лучше представлены, чем другие. Например, технология ИИ по оцениванию откликов на вакансии от Amazon присваивала меньшие баллы резюме со словом «женщина» и отсеивала кандидаток из учебных заведений для девушек. Этот случай называется смещением репрезентативности (Representation Bias): для обучения были представлены резюме преимущественно мужчин, в результате чего алгоритм решил, что мужчины предпочтительнее.
Предвзятость нейросетей грозит не только распространением искаженной информации и языка ненависти, но и появлением новых форм социальных стереотипов и дискриминации. Разработчики ИИ предлагают очевидное решение: тщательнее составлять базы данных для обучения. Тем не менее, мы не сможем полностью избавить нейросети от стереотипов, пока сами остаемся предвзятыми.
О других случаях предвзятости моделей и опасности, которой это грозит, читайте в полной версии статьи.
Время чтения: 11 минут
🤖 «Системный Блокъ» @sysblok
Алгоритмы искусственного интеллекта не только генерируют изображения или тексты, но и воспроизводят общественные стереотипы. «Системный Блокъ» рассказывает, как и почему они это делают.
Кратко: о чем статья?
Причина предрассудков нейросетей — смещенные или искаженные данные, на которых они могут обучаться. Смещение происходит, когда в наборе данных одни элементы получают больший вес и/или лучше представлены, чем другие. Например, технология ИИ по оцениванию откликов на вакансии от Amazon присваивала меньшие баллы резюме со словом «женщина» и отсеивала кандидаток из учебных заведений для девушек. Этот случай называется смещением репрезентативности (Representation Bias): для обучения были представлены резюме преимущественно мужчин, в результате чего алгоритм решил, что мужчины предпочтительнее.
Предвзятость нейросетей грозит не только распространением искаженной информации и языка ненависти, но и появлением новых форм социальных стереотипов и дискриминации. Разработчики ИИ предлагают очевидное решение: тщательнее составлять базы данных для обучения. Тем не менее, мы не сможем полностью избавить нейросети от стереотипов, пока сами остаемся предвзятыми.
О других случаях предвзятости моделей и опасности, которой это грозит, читайте в полной версии статьи.
Время чтения: 11 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Глазами нейросети: как искусственный интеллект воспроизводит стереотипы
Алгоритмы искусственного интеллекта не только генерируют изображения или тексты, но и воспроизводят общественные стереотипы. “Системный Блокъ” рассказывает, как и почему они это делают.
Новый, мертвый, хороший: визуализация текстов Гражданской Обороны
16 лет назад умер Егор Летов — икона русского панк-рока, живой мёртвый классик, актуальный сегодня и всегда. Ведь мы по-прежнему лёд под ногами майора, вокруг нас по-прежнему русское поле экспериментов, а всё летит туда, куда оно летело ещё при жизни Летова... Сегодня отличный день, чтобы переслушать «Мою оборону» и перечитать наше исследование текстов Летова.
💔 Я и мы
Мы собрали около 200 текстов Гражданской Обороны и еще одного проекта до 1997 года, автором которых был Егор Летов. Первое, что мы увидели — как из них постепенно исчезает я, уступая место местоимению мы.
❤️🩹Здорово и вечно Хорошо и плохо
Язык Летова вполне разнообразен: слова, встретившиеся во всем корпусе только один раз составляют две трети всего словаря. При этом темы, конечно, повторяются из года в год и из альбома в альбом. Ключевая для творчества Летова — тема смерти. «Положительные» слова вроде хороший, смех, праздник, радость, веселый встречаются тоже, но на них всегда важно смотреть в контексте: у Летова «хороший царь» означает ровно противоположное, а «веселый сок» — это кровь.
Узнать о том, как менялась лексика в текстах Летова с 1985 до 1997 и какие глаголы, прилагательные и существительные были особенно характерны для альбомов разных периодов можно из полной версии статьи.
Время чтения: 7 минут.
🤖 «Системный Блокъ» @sysblok
16 лет назад умер Егор Летов — икона русского панк-рока, живой мёртвый классик, актуальный сегодня и всегда. Ведь мы по-прежнему лёд под ногами майора, вокруг нас по-прежнему русское поле экспериментов, а всё летит туда, куда оно летело ещё при жизни Летова... Сегодня отличный день, чтобы переслушать «Мою оборону» и перечитать наше исследование текстов Летова.
💔 Я и мы
Мы собрали около 200 текстов Гражданской Обороны и еще одного проекта до 1997 года, автором которых был Егор Летов. Первое, что мы увидели — как из них постепенно исчезает я, уступая место местоимению мы.
❤️🩹
Язык Летова вполне разнообразен: слова, встретившиеся во всем корпусе только один раз составляют две трети всего словаря. При этом темы, конечно, повторяются из года в год и из альбома в альбом. Ключевая для творчества Летова — тема смерти. «Положительные» слова вроде хороший, смех, праздник, радость, веселый встречаются тоже, но на них всегда важно смотреть в контексте: у Летова «хороший царь» означает ровно противоположное, а «веселый сок» — это кровь.
Узнать о том, как менялась лексика в текстах Летова с 1985 до 1997 и какие глаголы, прилагательные и существительные были особенно характерны для альбомов разных периодов можно из полной версии статьи.
Время чтения: 7 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Новый, мертвый, хороший: визуализация текстов Гражданской Обороны - Системный Блокъ
Посвящается 11-летию со дня смерти Егора Летова
Память о репрессиях: Цифровая история Узбекистана в проекте Raqamli tarix
Узбекистан — солнечный, хлопковый, гостеприимный. Но в XX веке и тут проходили сталинские репрессии. Проект Raqamli tarix («Цифровая история») помогает сохранить память об этом периоде в истории страны. В одном месте собраны база данных о репрессированных, фотографии и видео, а также архивные материалы на трёх языках: узбекском, русском и английском.
Кратко: о чем статья?
В Узбекистане проводится масштабная работа по увековечению памяти соотечественников, незаконно репрессированных в годы сталинских репрессий в 1920–1950-е гг. Кроме физических мест памяти (музеев, памятников и мемориалов) существуют и проекты по сохранению историй жертв репрессий. Например, Raqamli tarix — «Цифровая история».
На платформе можно найти несколько разделов: от новостей до видеотеки с лекциями и подкастами. А для каждого человека, пострадавшего от репрессий, есть своя карточка с биографией, которую можно скачать.
Помимо Raqamli tarix изучать и сохранять наследие репрессированных в Узбекистане можно с помощью мобильного приложения Книги памяти Ташкента и трехязычного мультимедийного комплекса. Подробнее об этих возможностях и о платформе Raqamli tarix узнаете из полной версии статьи.
Время чтения: 7 минут.
🤖 «Системный Блокъ» @sysblok
Узбекистан — солнечный, хлопковый, гостеприимный. Но в XX веке и тут проходили сталинские репрессии. Проект Raqamli tarix («Цифровая история») помогает сохранить память об этом периоде в истории страны. В одном месте собраны база данных о репрессированных, фотографии и видео, а также архивные материалы на трёх языках: узбекском, русском и английском.
Кратко: о чем статья?
В Узбекистане проводится масштабная работа по увековечению памяти соотечественников, незаконно репрессированных в годы сталинских репрессий в 1920–1950-е гг. Кроме физических мест памяти (музеев, памятников и мемориалов) существуют и проекты по сохранению историй жертв репрессий. Например, Raqamli tarix — «Цифровая история».
На платформе можно найти несколько разделов: от новостей до видеотеки с лекциями и подкастами. А для каждого человека, пострадавшего от репрессий, есть своя карточка с биографией, которую можно скачать.
Помимо Raqamli tarix изучать и сохранять наследие репрессированных в Узбекистане можно с помощью мобильного приложения Книги памяти Ташкента и трехязычного мультимедийного комплекса. Подробнее об этих возможностях и о платформе Raqamli tarix узнаете из полной версии статьи.
Время чтения: 7 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Цифровой проект Raqamli tarix — база данных о репрессиях в Узбекистане в XX веке
Raqamli tarix — «Цифровая история» — узбекский диджитал-проект на трёх языках для сохранения памяти о жертвах репрессий, происходивших в Узбекистане в 1920–1950-е годы
Найти похожую собаку🐕/машину🚗/квартиру🏬/что угодно: рассказываем про алгоритм K Nearest Neighbors
Очень частая задача в машинном обучении — найти похожие объекты или предсказать какой-то параметр для похожего объекта (например, цену квартиры на основе имеющихся цен других квартир). Как компьютер это делает? Рассказываем в материале «Системного Блока».
Кратко: о чем статья?
Идея, которая лежит в основе метода KNN, — если объекты похожи по одним характеристикам, то будут похожи и по другим. Этот алгоритм используется, например, в системах рекомендаций.
Есть два типа задач, которые можно решить с помощью K Nearest Neighbors — классификации и регрессии. Например, определить породу собаки по набору характеристик — задача классификации. Предсказать стоимость квартиры по её описанию — регрессии.
В обеих задачах выделяют объект — то, по чему делается предсказание, и целевую переменную — то, что надо предсказать. Если объекты «похожи», то их целевые переменные принимают те же (в случае классификации) или близкие (в случае регрессии) значения.
Предсказание целевой переменной делается на основе набора KNN с учетом рассчитанных расстояний между объектом и всеми объектами выборки. Само предсказание вычисляется по-разному в зависимости от задачи: это может быть голосование или усреднение. В случае породы собаки голосование работает так: когда есть 5 хаски и 2 маламута (K в этом случае равно 7), то предсказанием будет порода хаски.
Более подробно о предсказании целевой переменной, а также о сложностях, возникающих при применении метода К ближайших соседей, читайте в полной версии статьи.
Время чтения: 6 минут.
🤖 «Системный Блокъ» @sysblok
Очень частая задача в машинном обучении — найти похожие объекты или предсказать какой-то параметр для похожего объекта (например, цену квартиры на основе имеющихся цен других квартир). Как компьютер это делает? Рассказываем в материале «Системного Блока».
Кратко: о чем статья?
Идея, которая лежит в основе метода KNN, — если объекты похожи по одним характеристикам, то будут похожи и по другим. Этот алгоритм используется, например, в системах рекомендаций.
Есть два типа задач, которые можно решить с помощью K Nearest Neighbors — классификации и регрессии. Например, определить породу собаки по набору характеристик — задача классификации. Предсказать стоимость квартиры по её описанию — регрессии.
В обеих задачах выделяют объект — то, по чему делается предсказание, и целевую переменную — то, что надо предсказать. Если объекты «похожи», то их целевые переменные принимают те же (в случае классификации) или близкие (в случае регрессии) значения.
Предсказание целевой переменной делается на основе набора KNN с учетом рассчитанных расстояний между объектом и всеми объектами выборки. Само предсказание вычисляется по-разному в зависимости от задачи: это может быть голосование или усреднение. В случае породы собаки голосование работает так: когда есть 5 хаски и 2 маламута (K в этом случае равно 7), то предсказанием будет порода хаски.
Более подробно о предсказании целевой переменной, а также о сложностях, возникающих при применении метода К ближайших соседей, читайте в полной версии статьи.
Время чтения: 6 минут.
🤖 «Системный Блокъ» @sysblok
Системный Блокъ
Мне нужна твоя собака и квартира. Что такое метод KNN?
Как сравнивать объекты с помощью компьютера? Что такое «проклятие размерности»? Обо всём этом — в новом материале «Системного Блока».