Системный Блокъ
10.8K subscribers
241 photos
2 videos
1 file
846 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
Download Telegram
Женщины в IT: существует ли гендерное неравенство?

Нобелевская премия 2023 присуждена за исследование роли женщин в экономике и причин дискриминации женщин в оплате труда. Проблема гендерного неравенства очень заметна и в сфере IT. «Системный Блокъ» изучил, какова доля женщин в IT, сколько девушек готовы обучаться компьютерным наукам и какие стереотипы ограничивают их на рынке труда.

Кратко: о чем статья?

Доля женщин в сфере информационных технологий с каждым годом растёт: в мире доля IT-специалисток за последние четыре года увеличилась до 25%. Тем не менее разрыв в численности и в зарплате сохраняется. Например, во время получения высшего образования мужчины в пять раз чаще намереваются работать в области инженерии и компьютерных наук, в системе высшего образования США женщины составляют лишь 38% бакалавров в традиционных областях STEM (естественные науки, технология, инженерия и математика), а в России разница в заработной плате между специалистами разного пола, имеющими одинаковую квалификацию, составляет 28%.

У такой ситуации несколько причин, но если кратко — все дело в стереотипах. Так, существует популярное мнение о том, что математика не для девочек. Несмотря на то что женщины, имеющие детей, демонстрируют более эффективную работу в коллективе, руководители часто отдают предпочтение трудоустройству мужчин, опасаясь, что женщины внезапно могут уйти в декрет. Кроме того, есть стереотип о том, что «женский склад ума» не подходит для IT-сферы.

Подробнее о том, как проявляется гендерное неравенство в области компьютерных наук в России и за рубежом, а также каковы его причины, читайте в полной версии статьи.

Время чтения: 8 минут.
Правда глаза колет: 150 лет истории айтрекеров

Айтрекинг, или регистрация движений глаз, используется в психолингвистике и психологии, исследованиях зрительной системы и в устройствах взаимодействия между человеком и компьютером. «Системный Блокъ» уже писал про айтрекинг и паттерны чтения.

А в этом материале рассмотрим историю айтрекеров. Готовы ли вы поместить на своё веко тупую иглу, передающую движения глаз в виде звука? А надеть гипсовую контактную линзу, соединённую с рычагом, записывающим движения глаза на барабан? А прикрепить к глазу радиоантенну на резиновой присоске? Всё это приходилось делать участникам айтрекинговых экспериментов до изобретения бесконтактных технологий.

Кратко: о чем статья?

Интерес к изучению движений глаз возник за много веков до появления первых айтрекеров. Особенности зрения интересовали Аристотеля, древнеримского медика и хирурга Клавдия Галена и средневекового ученого Ибн аль-Хайсама.

История айтрекеров же полноценно началась в 1883 году, когда М. Ламар вместе с Л. Жавалем использовали для наблюдений прибор, трансформировавший движения глаз испытуемого в звук, улавливаемый экспериментатором. Но у технологий конца XIX века были очевидные недостатки, поэтому постепенно разрабатывались устройства, не требующие непосредственного крепления глаза к регистрирующей поверхности.

В последние годы технологии позволяют создавать айтрекеры, не требующие фиксации головы. Они представляют собой очки или шлем с двумя вмонтированными видеокамерами: одна из камер записывает изображение, которое видит испытуемый, а вторая фиксирует изображение глаза с помощью отражённого света. Испытуемого в таких очках можно отправить в магазин, в музей или за руль автомобиля.

Подробнее о важных именах и вехах в истории айтрекинга, а также о том, какие ограничения связаны с такими исследованиями в психолингвистике, читайте в полном материале.

Время чтения: 14 минут.
Вы Лев Толстой на словах или на деле? Викторина по редким словам из корпуса текстов писателя

Кого Лев Толстой называл голышом, и где в усадьбе тырла? Кем лучше быть ― келарем или щелкопёром? Писатель был знатоком редких и диковинных слов. Пройдите наш тест и попробуйте отгадать их значения. Сможете ли вы сравниться с графом Толстым в эрудиции?
Как распознать тексты и сделать корпус для исследования: пошаговая инструкция

В новой статье «Системного Блока» разбираемся, как собрать корпус, используя ресурсы цифровых библиотечных коллекций, и как преобразовать отсканированные документы в машиночитаемый текст с помощью различных инструментов оптического распознавания символов.

Кратко: о чем статья?

Оптическое распознавание символов (OCR) — это преобразование отсканированных документов в машиночитаемый текст, по которому можно искать и который можно редактировать. Превращение цифровых копий книг в распознанный машиночитаемый текст предполагает три этапа: сбор коллекции документов, распознавание текста с помощью OCR и вычитка.

Для оптического распознавания текста существуют разные инструменты, в том числе десктопные, мобильные и веб-приложения. Например, можно воспользоваться ABBYY FineReader PDF или Tesseract. FineReader предлагает много функий для работы с текстом и вычитки, а ещё ему знаком русский язык не только в новой, но и в старой орфографии. Если же этот вариант не подходит, есть Tesseract — программная библиотека, с которой можно работать через командную строку или с использованием Python-оболочки.

Подробную инструкцию по работе с каждым из инструментов, информацию о том, как проверить распознанный текст на полноту и точность, и некоторые ресурсы, где можно найти оцифрованные копии книжных и периодических изданий, найдёте в полной версии статьи.

Время чтения: 12 минут.
Страх и удивление в 2000 языков: семантика эмоций и природа вариативности языка

Ученые давно задаются вопросом, есть ли у человеческих эмоций универсальные корни или они различаются в культурах. Чтобы выяснить это, они обратились к тезаурусу, составленному на материале 2474 языков. «Системный Блокъ» вспоминает, как лингвисты выясняли особенности представлений об эмоциях в разных культурах.

Кратко: о чем статья?

Обратившись к тезаурусу из более чем 2000 языков, исследователи создали сети слов среди 20 языковых семей (групп языков, имеющих общие корни). Благодаря ним они сравнили эмоциональный словарь во всем мире.

Например, ученые поняли, что в одних языках слова, обозначающие «удивление», имеют семантическую близость со словами, обозначающими «страх», в других — с более положительными чувствами, такими как «счастье». Это можно считать одним из случаев дифференциации на основе эмоциональной окраски (положительной или негативной). Другой частый критерий — активация (уровень возбуждения, который эмоции вызывают).

Узнать, какую роль в сходствах и различиях значений играет география, и посмотреть, как соотносятся надежда, ненависть, гордость и счастье в австронезийских и индоевропейских языках, можно в полной версии статьи.

Время чтения: 2,5 минуты.
Нейросети-художники

Предлагаем вам взглянуть на самые успешные нейросети для генерации изображений. Сегодня расскажем о двух популярных моделях: Stable Diffusion с открытым исходным кодом и DALL·E 2 от компании OpenAI. Они обе вышли в 2022 году и с тех пор несколько раз обновлялись.

В сердце этих нейросетей — похожие технологии: они являются диффузионными (создают изображения из случайного информационного шума), обе работают с текстовыми запросами благодаря модели CLIP (подробнее о ней мы писали здесь), обладают примерно одинаковым количеством параметров: около 3,5 миллиардов.

Однако у Stable Diffusion есть два важных отличия. Во-первых, ее обучали на датасете большего размера: около 2 миллиардов изображений против 650 миллионов у DALL·E 2. Во-вторых (и это главное) — Stable Diffusion использует технологию, которой нет у второй нейросети: она работает не с изображениями, а с их векторными представлениями, которые предоставляет отдельная программа-автокодировщик. Эта технология имеет два преимущества: векторные представления намного компактнее оригинальных изображений и содержат только самую важную информацию о них. Благодаря этому модель обучается и работает значительно быстрее.

Вы можете сами оценить, насколько разные результаты получаются у Stable Diffusion и DALL·E 2. Мы сгенерировали с их помощью две картинки: одну — с котятами, по подробному запросу, который написала ChatGPT (стоит заметить, что запрос не поместился до конца в ограниченное пространство для текста у DALL·E 2), а вторую — с фотореалистичным изображением девушки на улице Нью-Йорка.

Попробуйте угадать, какой набор из двух картинок принадлежит более сложной Stable Diffusion, а какой — DALL·E 2!
Какая нейросеть создала картинки 1 и 2, а какая — 3 и 4?
Anonymous Quiz
41%
1 и 2 — DALL·E 2, 3 и 4 — Stable Diffusion
59%
1 и 2 — Stable Diffusion, 3 и 4 — DALL·E 2
DALL·E не сдается

Компания OpenAI, создавшая ChatGPT, в начале октября выпустила новую версию своей нейросети для генерации изображений — DALL·E 3. Она намного лучше предыдущей справляется с задачами: точнее следует запросу, умеет создавать реалистичные картинки и портреты людей, владеет большим количеством стилей. Нейросеть даже может вставлять в изображения текст из запроса, но пока только на английском. На территории России доступ к ней закрыт OpenAI, но в других регионах нейросеть можно протестировать на сайте Bing Image Creator и в платной подписке ChatGPT Plus.

Мы сгенерировали для вас несколько картинок, чтобы вы тоже могли оценить прогресс DALL·E.
Знатный борщ, Чапаев и НКРЯ: подборка материалов по лингвистике
 
Сегодня предлагаем вспомнить лингвистические тексты (и тесты!) «Системного Блока». Отвечаем на пять вопросов «как» и на один — «зачем».
 
Как трансформируется язык в интернет-пространстве?
 

В интернет-пространстве смысл может быть спрятан в отдельных символах языка, будь то строчная буква вместо прописной или «б» в слове «маленбкий». А уже в 2007 году американские ученые выяснили, что только 29% респондентов использовали точки в конце сообщений, потому что с точками они воспринимались как неискренние. О строчных буквах вместо прописных, перерождении скобок, намеренных ошибках и кампании “CAPSoff” узнаете из полного текста статьи.
 
Как менялись значения слов в русском языке на протяжении XVIII-XIX веков?
 
Когда возникла поговорка «голод не тетка», а слово «молодец» стало похвалой? Какое значение слова «привет» было самым первым? Мог ли борщ быть «знатным» в XVII веке? Вспоминаем вместе с тестом на лингвистическую интуицию.
 
Как изменился Национальный корпус русского языка после редизайна?
 
НКРЯ — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Не так давно в НКРЯ обновился дизайн, появились новые функции и корпуса «Русская классика» с черновиками и редакционными вариантами произведений и корпус детской литературы «От 2 до 15». Подробнее о работе с новой версией сайта – в нашем посте.
 
Как бабка, гаишник и Чапаев распределились по подкорупсам НКРЯ?
 
Сможете ли вы отличить фэнтези от средневековья и гороскопов, а смс-ки – от форумов? Проверьте, пройдя тест по словам, характерным для разных подкорпусов НКРЯ.
 
Как превратить ботвинью в гаспачо?
 
Ещё один материал про НКРЯ посвящен параллельному корпусу – коллекции текстов, где для каждого текста хранятся его переводы на другой язык (или языки). В одном из них – русско-китайском – сейчас чуть менее 4,5 миллионов слов и более тысячи документов, включая перевод «Анны Карениной». О том, как пользоваться этим корпусом, какие у него преимущества и как суп на квасе превратился в гаспачо, – узнаете из нашего поста.
 
Бонус: Зачем нужен «Прагматикон» (и что это такое)?
 
Если вы тоже учили языки с помощью сериалов, то замечали, что их герои вместо простых «нет» или «да» произносит не всем знакомые выражения вроде no way или you bet. Это примеры дискурсивных формул — коротких устойчивых ответов, которые мы используем в разговорной речи. Такие выражения плохо представлены в словарях и в случае русского почти не встречаются в учебниках для иностранцев. Зато ими занимается исследовательская группа Школы лингвистики НИУ ВШЭ, разработавшая ресурс Прагматикон. О том, как им пользоваться, узнаете из полной версии статьи.
Подборка лингвистических каналов от издания «Системный Блокъ»

Погружение культуры в цифру началось с языка. И сегодня, в эпоху ChatGPT и нейропоэзии, пространство текстов остается главным двигателем цифровой революции. Подготовили для вас подборку каналов о словах и языке.

@UznalSlovoУзнал новое слово
Знаете, что такое конечка, мелтсы или шеверюшка? Лингвист и автор словарей Борис Иомдин ежедневно рассказывает об одном слове русского языка, которое он узнал в этот день, а читатели голосуют, известно ли им такое слово, и обсуждают его значения. Затем автор публикует «облака» новых слов со статистикой их известности.

@waurdaО словах и не только
Что чаще делают от зависти — краснеют, чернеют или зеленеют? Как называли антиваксеров 100 лет назад? Как завоевать Константинополь с помощью гугл-транслейта? Лингвист и популяризатор науки Александр Пиперски предлагает лингвистические задачки, делится этимологическими изысканиями, социокультурными маргиналиями и наблюдениями о фонетических феноменах.

@portalgramotaruГрамота.ру
Ставить ли запятую во фразе «женись на ком хочешь»? Откуда взялось выражение «как пить дать»? Помимо привычных разборов сложных случаев правописания и лингвистических казусов, в канале «Грамоты.ру» есть подборки свежих исследований специалистов по языкам, находки в классике русской поэзии и рассказы о современных технологиях в лингвистике.

@TDvTGТотальный диктант
Здесь, как ни странно, никто не предлагает писать под диктовку. И канал не ограничивается информацией только об акции, которая проходит раз в год. Здесь можно разобрать сложные случаи правописания, больше узнать о современной литературе и авторах текстов Тотального диктанта, а еще посмотреть полезные лекции. В общем, подготовиться и узнать много нового!

@LingvoedЛингвоед
Почему разным языкам мира так сложно даются нейтральные названия для половых органов? Как Набоков готовил яйца? Лингвист и специалист по интернет-коммуникации Валерий Шульгинов загадывает лингвистические загадки, даёт этимологические выкладки, делится фрагментами своих лекций и статей, приглашает на встречи, посвящённые в том числе IT в лингвистике.

@greatetymologyЭтимология каждый день
Почему квартира по-английски плоская (flat) и что общего между планетами и планктоном? На канале Игоря Осмоловского можно поразгадывать этимологические загадки и узнать много неожиданного о привычных словах, например, что Петроград и Ташкент — это одно и то же, а «мент» означает не «мой единственный надёжный товарищ», а «плащ, накидка».

@ealdengliscИстория английского языка
Канал лингвиста-энтузиаста Таира Кубаниязова будет интересен не только любителям истории языка в целом, истории английского языка и Англии, но и фанатам компаративистики и этимологических изысканий. Если тот факт, что very (очень) родственное слову «вера» в русском языке, не оставляет вас равнодушными, вы найдёте здесь много интересного.

@istoki_slovaВосстание редуцированных
Популяризатор лингвистики и сторонница «доказательной филологии» Светлана Гурьянова опровергает мифы о русском языке и рассказывает о его истории. Правда ли, что «слоняться» — от слова «слон», а «урод» — тот, кто стоит «у рода»? Знаете ли вы, что нелюбимое многими сокращение «Питер» использовали еще Пушкин и Грибоедов? Если вы страдаете от лингвистического пуризма, то вам сюда.

@sysblokСистемный Блокъ
Как устроено ударение в 160 тысячах любительских стихов? Как работают онлайн-тесты оценки вашего словарного запаса? Почему если бы не лингвист А. А. Зализняк, мы бы не смогли ничего «заяндексить»? Здесь вы не пропустите ни один громкий сюжет из современных цифровых исследований языка и культуры.
Русалка села на шпагат: как нейросети генерируют картинки и подменяют понятия

Многие видели фейковую фотографию папы римского в белом пуховике. Фейк оказался настолько реалистичным, что встал вопрос о том, где границы прогресса искусственного интеллекта. Авторы «Системного Блока» провели эксперимент с генерацией изображений, чтобы выяснить, как алгоритмы справляются с абстрактными понятиями, фразеологизмами и многозначными словами.

Кратко: о чем статья?

Экспериментируя с нейросетями, мы не только предлагали вам угадать, какая из них лучше справится с заданием, но и выяснили, что ИИ игнорирует отрицание. Например, рисует мужчину с усами по запросу «мужчина без усов». Аналогично ИИ не воспринимает частицу «не» и не справляется с генерацией изображений на основе негативных промтов.

Если же мы заменяли в задании предлог «без» на наречие «только» (вместо фразы «человек без органов» использовали подсказку «человек только из кожи»), FusionBrain неверно интерпретировала значения слов и рисовала мужчину в кожаном костюме. Более того, поскольку нейросеть как бы хватается за знакомую ей фразу и выстраивает вокруг неё визуализацию, для неё «человек только из кожи» — это человек откуда-то, а не состоящий только из чего-то.

ИИ не справился и с генерацией изображений на основе пословиц и фразеологизмов. Нейросеть давала визуализацию, которая не соответствовала ни образному, ни буквальному значению выражений. Зато соответствовала английским эквивалентам пословиц!

А о том, как ИИ справлялась с оксюморонами и выражениями, основанными на многозначности слов, и отказалась ли визуализировать мем «смешная нарезка детей», посчитав это неэтичным, можно узнать из полного текста статьи.

Время чтения: 10,5 минут.
Сегодня день памяти жертв политических репрессий. В этот день предлагаем вам перечитать наше интервью с человеком, который потратил несколько десятилетий на цифровое увековечивание памяти о репрессиях, — Алексеем Бабием.

В интервью «Системному Блоку» Алексей Бабий рассказал, что может дать интернет гражданским активистам, как опыт работы на советских ЭВМ 70-х годов помогает ему обеспечивать сохранность данных о репрессиях и почему современным «облачным НКО» не страшна ликвидация.
«Цифровые» методы в музее и в магистратуре: блог ИТМО

Сегодня делимся с вами новыми статьями из блога Центра цифровых гуманитарных исследований Университета ИТМО. Рассказываем, чему учит магистратура Digital Humanities и как студенты применяют знания на практике: например, на выставке «Первая позиция. Русский балет», проходившей в «Манеже».

Этими самыми руками

В DH-магистратуре в ИТМО люди учатся делать и проекты, и исследования, и совмещение этих двух подходов может многому научить. Такое образование забирает ощущение, что цифровой мир вырастает сам по себе, а методы — просто инструменты. По мнению Полины Колозариди, руководительницы DH магистратуры в ИТМО, главное, чему оно учит, — каждый день признавать, что это одни и те же (собственные) руки, голова, глаза понимают роскошь и ужас цифровизации и делают, делают, делают её.

А ещё в цифровой гуманитаристике всегда есть риск, что пожертвовать придётся именно тем, ради чего всё и затевается. Из любви к культуре — превратить её в коллекцию образцов, выставленных в музее. Из интереса к науке — разложить её на схемы, которые вытравят всё живое из открытий и сомнений. 

О том, на какие «душные» вопросы отвечают абитуриенты, с какими последствиями цифровизации работают студенты и как с этим связан «Пушкин Цифровой», можно узнать из материала на сайте.

Зритель на первой позиции: взламывая техники наблюдателя

Студентки магистратуры ИТМО по Digital humanities провели серию ридингов о кураторстве и зрительском опыте. Например, обсудили, как задуманный куратором маршрут и другие посетители мешают свободному перемещению по выставке, а одни и те же объекты экспозиции могут вызвать у разных посетителей противоположные отклики.

А ещё — пришли к выводу, что выставка, состоящая только из вспомогательных средств, тоже возможна. В таком случае текст-описание объекта сам по себе станет экспонатом. И если объект спустя время мы вряд ли сможем с точностью вспомнить, то текстовая память о нём будет более достоверна, чем вымышленное представление. 

О том, как на зрительский опыт влияют мультимедиа и как посетители взаимодействуют с цифровыми и не-цифровыми объектами выставок, читайте в полной версии текста.
Telegram-спектакль «Невидимый Басмач»: как чат-бот может продлить жизнь театру

Как воссоздать театральный опыт в Telegram? Поставить спектакль — затратное дело: долгая подготовка, репетиции, декорации, реквизит, потом нужно собрать труппу и публику в одном месте и в одно время. Можно ли преодолеть ограничения и создать спектакль, который всегда доступен, и как в этом могут помочь цифровые методы? Рассказывают постановщицы Telegram-спектакля.

Кратко: о чем статья?

«Невидимый Басмач» — это (пост)документальный спектакль-прогулка по учебному корпусу Высшей школы экономики в Москве, который поставили его студентки и студенты в 2022–2023 учебном году. Спектакль рассказывает о жизни корпуса, раскрывая детали университетского быта, которые остаются за пределами аудиторий.

В основу сценария легли рассказы студентов Старой Басманной и дословно воспроизведённые монологи реальных людей — вербатимы. Также в спектакле были использованы фотографии и звуки, записанные в корпусе и непосредственно поблизости. 

Чтобы спектакль состоялся снова, достаточно сохранить маршрут-нарратив и в нужных местах включить записи голосов актёров. С этим прекрасно справляется бот-проводник, который присылает инструкции по переходу по корпусу, предлагает прослушать вербатимы, изучить дополнительные материалы и поисследовать пространство самостоятельно, каждый раз ожидая ответа зрителя, чтобы продолжить рассказ. И хотя в живом спектакле было много интерактивных моментов, некоторые из них нашли воплощение в игровых механиках бота. Правда, в телеграм-версию спектакля не вошел танцевальный перформанс внутри умного гардероба.

Узнать больше о спектакле и боте, а заодно собрать бинго типичной лекции можно благодаря полной версии материала.

Время чтения: 11,5 минут.