Системный Блокъ
8.29K subscribers
199 photos
2 videos
1 file
695 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
Download Telegram
Секретная жизнь ранних ЭВМ

Почему история первого двоичного программируемого компьютера была засекречена? Что связывает искусственный интеллект и криптографию? Как спецслужбы стали одними из важнейших клиентов IBM? Об истории первых шифровальных машин и устройств для дешифрования, о том, как дешифровальные службы повлияли на развитие ЭВМ и компьютерной лингвистики рассказываем в материале, который для «Системного блока» подготовил научный сотрудник Музея криптографии Егор Ефремов.

80 лет назад первый двоичный компьютер Colossus, британское вычислительное устройство с пятью с лишним тысячами ламп, выдал первые полезные результаты. Он был разработан в 1943 году для взлома немецкой шифровальной машины Lorenz SZ-40. До 1974 года его существование оставалось тайной.

1️⃣ С чего всё начиналось?
Сразу после Первой мировой войны произошло бурное развитие шифровальных машин. Наиболее известной из которых является дисковая «Энигма», сюжет о взломе которой уже стал частью массовой культуры. Однако в то же время был разработан и шифр Вернама - первый двоичный шифр, который используется в криптографии до сих пор. В этом шифре буквы сначала преобразуются в двоичный код (с конца XIX века в телеграфии широко использовался код Бодо).

К 1930-м годам на основе шифра Вернама были разработаны шифровальные машины с электромеханическими генераторами псевдослучайных чисел, к которым относился немецкий Lorenz SZ-40. Если анализировать зашифрованные SZ-40 сообщения как поток букв, найти в них закономерность очень сложно. Но если посмотреть на них как на последовательность двоичных чисел, то паттерн становится гораздо более очевидным. Для того, чтобы ускорить эти вычисления, и понадобился компьютер Colossus.

2️⃣ Как развивался симбиоз ЭВМ и криптоанализа дальше?
После войны перспективы использования компьютеров для криптоанализа стали очевидны, поэтому спецслужбы как стран НАТО, так и соцблока стали инвестировать в разработки ЭВМ. Они же стали покупателями первых суперкомпьютеров. А вчерашние криптоаналитики и криптографы (самыми известными из которых являются Клод Шеннон и Алан Тьюринг) продолжили работу в области ЭВМ и искусственного интеллекта.

3️⃣ Искусственный интеллект или «искусственная разведка»?
Первые задачи, которые ставились перед ИИ в рамках проекта DARPA, связаны именно с разведкой: машинный перевод с русского языка, анализ текстов, выделение паттернов в разведданных, машинное зрение. И сегодня за яркими ширмами ChatGPT, DALL-E и голосовых ассистентов в тени прячутся другие сферы применения ИИ — распознавание лиц, деанонимизация, обработка больших данных в OSINT.

4️⃣ Шифропанки и свободная криптография
К концу двадцатого века, с распространением персональных компьютеров и компьютерных сетей важность защиты личных данных стала очевидна. Сейчас мы воспринимаем как само собой разумеющееся шифрование банковских данных при покупках онлайн и безопасные мессенджеры, но доступность этих технологий стала результатом длительной борьбы активистов и шифропанков за либерализацию и популяризацию криптографических технологий.

О криптоаналитиках и шифропанках, первых двоичных шифрах и суперкомпьютерах, читайте в полной версии статьи.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Материнство в России. В цифрах

На словах российские власти очень громко поддерживают рождаемость, семью и демографический рост. На деле в России 44% семей, состоящих из матери-одиночки и трёх детей, имеют среднедушевой доход ниже 15 тысяч рублей. А работодатели гораздо хуже относятся к матерям с детьми. В наших карточках — невесёлая статистика материнства в России.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Бунтующий young, ностальгирующий adult: как книжный рынок монетизировал взросление

В трендах и на полках книжных магазинов всё чаще мелькает young adult: только в России тираж книг для подростков и молодежи за последние 10 лет увеличился в два раза. «Системный Блокъ» решил разобраться, что стоит за этим веянием и можно ли считать его новым.

Кратко: о чем статья?


Young adult – большое культурное явление, которое можно скорее назвать литературным направлением, а не жанром. Часто его приравнивают к литературе для подростков, но 44% читателей young adult’а старше 30 лет. Да и сами книги этого направления зачастую выходят с рейтингом 18+.

Их герои обычно сталкиваются с подростковой любовью, половым созреванием поиском идентичности и другими проблемами перехода от детства к зрелости. Поэтому young adult часто становится инструментом психологической самопомощи (для подростков) и рефлексии (для взрослых).

Повышенное внимание издательств к этому направлению соизмеримо спросу – к нему можно отнести 6 из 10 книг самых продаваемых книг первого полугодия 2023 года в России. Причём издатели начинают «переупаковывать» в young adult всевозможные произведения: от «1984» до «Мастера и Маргариты».

Подробнее о прошлом, настоящем и будущем young adult узнаете из полного текста статьи.

Время чтения: 8 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Тест: Что сгенерировала нейросеть?

Гном Гномыч или угрюмый тролль? Офисный кот или кот-гангстер? Специально для вас мы попросили нейросети сгенерировать изображения… но какие именно? Пройдите тест и проверьте, сможете ли вы понять, результатом какого запроса является картинка перед вами.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Исследование картин с помощью рентгена

27 марта в 1845 году родился Вильгельм Рентген — физик, нобелевский лауреат, первооткрыватель рентгеновского излучения. Его изобретение помогает не только медикам, но и искусствоведам. День рождения Рентгена — хороший повод перечитать статью «Системного Блока» о том, как рентген и ультрафиолет раскрыли тайну четырёх картин с одним сюжетом.

Кратко: о чем статья?

Исследуемые картины написаны на один и тот же важный для христианства сюжет: изгнание Христом торгующих из храма в Иерусалиме. Полотна приписывают последователям Иеронима Босха и Питера Брейгеля-старшего, и картины, хотя и выглядят похожими, полны двусмысленных деталей, которые делают каждую уникальной.

Чтобы исследовать все слои картин, спрятанные под конечным слоем, и увидеть дорисовки, ученые воспользовались технологиями инфракрасной съемки, рентгенографии и ультрафиолетового облучения. Они выяснили, что все четыре картины имели множество подрисовок, которые явно были сделаны разными людьми. Например, хотя авторство картины из коллекции Копенгагена приписывали Босху, сегодня многие искусствоведы согласны, что работа имеет с этим художником мало общего как с точки зрения техники живописи, так и с точки зрения палитры. 

О том, что такое дендрохронология, и более подробно обо всех исследуемых полотнах читайте в полной версии статьи.

Время чтения: 6 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Четыре проекта по борьбе с коррупцией онлайн. Как они работают? 

Может ли работа с данными помочь в борьбе с коррупцией? «Системный Блокъ» выяснил, какие цифровые сервисы и проекты занимаются антикоррупционной деятельностью с помощью открытых и не очень открытых данных.

💸 «Тендерскоп» 
Проект позволяет использовать весь массив данных о государственных закупках, контролировать такие закупки, а также искать признаки картельных сговоров. С его помощью воронежские активисты обнаружили, что семья замгубернатора зарабатывает сотни миллионов на сдаче недвижимости государству, и добились увольнения чиновника. Краткая инструкция о том, как пользоваться сервисом доступна по ссылке. 

📑 «Дума Бинго» 
На сайте можно найти информацию о каждом депутате или сенаторе: чьи интересы он продвигает, с какими государственными или частными структурами связан и т. д. Особое внимание уделяется законотворческой деятельности каждого депутата.

🎓 Лаборатория университетской прозрачности

Благодаря проекту студенты учатся находить коррупцию в своих вузах и противостоять ей. Жульничество и махинации при целевом поступлении, несправедливые пересдачи и вымогательства оценок и зачетов, закрытые сессии у студентов, которые ни разу не были на парах, и другие мутные схемы российской высшей школы. Помимо расследований и исследований, Лаборатория рассказывает о том, какие права есть у студентов и как можно их защитить.

🗂️ Декларатор
В этой базе данных собраны декларации российских публичных лиц (от депутатов до чиновников администраций городов и районов). Проект помогает гражданским активистам и журналистам осуществлять общественный контроль за чиновниками и проводить расследования.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Бамбарбия киргуду: нейросеть «оживила» Юрия Никулина

Образ Юрия Никулина воссоздали с помощью ИИ для фильма «Манюня: Приключения в Москве». Разрешение на использование внешности и голоса советского актера студия получила у его семьи. Создатели фильма Гевонд и Сарик Андреасяны рассказывают, что работа над цифровым Никулиным заняла около 8 месяцев и утверждают, что это первый в России успешный опыт воссоздания образа покойного актера с помощью нейросетей. Авторы «Бюллетеня кинопрокатчика» после просмотра трех сцен с участием актера написали, что «результат действительно впечатляет». 

1️⃣ Такое уже бывало

Создатели фильма не совсем правы, заявляя свое первенство: еще 2 года назад для сериала «Диверсант» был «воскрешен» умерший актер Владислав Галкин. Тогда задача команды, как рассказывал продюсер сериала Николай Попов, состояла в том, чтобы найти «двойника» Галкина. После чего нейросети, используя 90-процентное совпадение антропометрии лица подобранного актера и предыдущие работы Галкина, воссоздали образ умершего артиста. Однако как работают эти технологии сегодня, насколько изменилось «качество» с тех пор и будет ли оно приемлемым для зрителей?

2️⃣ Как нейросети воссоздают образы умерших актеров

Используется технология создания Deepfake-видео. В классическом виде она основана на генеративно-состязательных нейросетях (GAN). Она состоит из двух частей, генератора и дискриминатора. На вход такой нейросети подается обучающий набор данных, например, видео с актером. Генератор создает новые данные, которые похожи на обучающий набор, в то время как дискриминатор пытается отличить настоящие данные от сгенерированных. Этот процесс приводит к постоянной борьбе между генератором и дискриминатором, пока последний не начнет путать сгенерированную фейковую картинку с оригиналом. Таким образом лицо актера создается автокодировщиком и улучшается GAN-ом. 

3️⃣ Кого еще хотят «воскресить»

Владимира Высоцкого. По словам режиссера и продюсера Александра Жигалкина, в новом фильме «Володя» будет использована технология deepfake:

«Это полнометражный фильм, в котором впервые в истории кино будет воссоздан реальный исторический персонаж со 100% идентичностью при помощи нейросети. […] У нас актер Александр Шпагин, он находка для нашей истории. Это человек, который уже много лет существует в этом образе. Манера говорить, походка, игра на гитаре и так далее очень идентичны при дополнительной работе. […] Петь будет Высоцкий, а говорить он будет голосом Никиты, с которым мы изначально все это дело вместе придумывали».

4️⃣ А могут и заменить

Исполнительницу главной роли в шведском фильме «Персона» Лив Ульман при помощи нейросетей заменят на финскую актрису Альму Пёвсти. Это совместный эксперимент фонда Ингмара Бергмана, после которого планируется дискуссия об актерской игре и новых технологиях. Зимой 2024 года на международном фестивале в Гётеборге представят измененную картину, но в массовом прокате ее не будет.

5️⃣ Нейросети как инструмент цензуры

Иногда дипфейк используется чтобы вырезать актера, который резко стал неугодным и вошел в списки запрещенных. Так случилось с Максимом Виторганом, лицо которого вырезали из сериала «Контакт» и заменили на сгенерированное нейросетью после его антивоенных высказываний. 

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
GPT-4 больше не лучшая языковая модель, суперкомпьютер за 100 млрд долларов и новые открытые модели: дайджест новостей из мира ИИ

Claude 3 Opus возглавила рейтинг языковых моделей

Модель Claude 3 Opus компании Anthropic была признана лучшей языковой моделью согласно рейтингу платформы LMSYS, опередив предыдущего лидера GPT-4. На этой платформе любой желающий может сравнить работу двух разных языковых моделей и отдать предпочтение одной из них. На основе собранных предпочтений пользователей по системе Elo рассчитывается позиция модели в рейтинге. Та же система используется для сравнений двух игроков в парных играх — например, в шахматах. 

В сравнении LMSYS присутствуют как коммерческие модели (GPT-4, Gemini, Mistral Medium и др.), так и публично доступные модели вроде OpenChat, Command-R, LLama.

Семейство моделей Claude 3 (версии Opus, Sonnet и Haiku) были представлены 4 марта 2024 года. Более компактные версии модели, Sonnet и Haiku, также занимают лидирующие позиции.

Слухи о суперкомпьютере Microsoft и OpenAI

По словам трёх источников издания The Information, Microsoft и OpenAI разрабатывают проект нескольких беспрецедентно энергозатратных суперкомпьютеров для обучения нейросетей. Завершение работы над первым суперкомпьютером планируется в 2026 году, его стоимость составит около 10 миллиардов долларов. Второй суперкомпьютер планируется к 2028 году и оценивается в 100 миллиардов долларов. Стоимость обоих значительно превосходит стоимость существующих компьютеров. Оба вычислительных центра будут расположены в Америке.

Jamba – новая языковая модель гибридной архитектуры

Лаборатория AI21 опубликовала языковую модель Jamba. Архитектура Jamba является гибридом Mamba и Transformer. Благодаря этому модель сочетает преимущества обеих архитектур: она поддерживает большую длину контекста (256 тысяч токенов), в несколько раз быстрее и ресурсоэффективнее обычных Transformer моделей и при этом по качеству сопоставима с лучшими публичными моделями. Jamba доступна для всех желающих, в том числе для коммерческого использования.

Модель Grok-1 выложена в открытый доступ

Лаборатория xAI Илона Маска опубликовала код и веса своей первой языковой модели Grok-1. Grok-1 содержит 314 миллиардов параметров, что делает её самой большой публичной моделью. Модель является Mixture of Experts, другими словами, во время ее работы используются только 25% параметров, а набор задействованных параметров зависит от входных данных. А ещё… в ней нет цензуры (в отличие от большинства конкурентов).

Публикация Grok-1 в открытый доступ была сделана на фоне иска против OpenAI, поданного Илоном Маском. В нём миллиардер обвиняет компанию в несоблюдении изначальных соглашений (Илон Маск — один из первых инвесторов OpenAI), согласно которым OpenAI должна быть открытой и некоммерческой.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Березки и программисты в школьных учебниках подсчитаны

На этой неделе школьники вернулись с каникул, поэтому самое время вместе с «Системным Блоком» вспомнить, как в Институте имени Пушкина создали технологию лингвистической оценки учебников. При сравнении цифрового Яндекс.Учебника с другими школьными пособиями по русскому языку исследователи нашли интересные отличия.

Кратко: о чем статья?

Методика заключается в выявлении статистических закономерностей в текстах учебных пособий. Например, авторы исследования выяснили, что объем словарного состава цифрового учебника превосходит средний объем традиционного. В цифровом пособии более широко представлены современные профессии и реалии городской жизни. При этом реже упоминается «береза», зато очень много бабушек и дедушек.

Лингвистическая оценка по формальным параметрам (жанрам, стилям, словарному составу) поможет создателям цифровых учебников соотнести содержание заданий с приоритетами современного образования.

Графики с упоминаниями бабушек, агрономов и программистов, а также другие различия между пособиями ищите в полной версии статьи.

Время чтения: 5 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Госкаталог, семейная память и электронные ноты: подборка блогов «Системного Блока»

Три поста наших блогеров, которые вы могли пропустить, и одна конференция, на которую вы точно успеете.

🎶 Электронные ноты: особенности использования

Сегодня часто можно увидеть музыкантов, играющих, глядя не в бумажные ноты, а на планшет. Но это чтение распространено не так широко, как, например, чтение электронных книг. Ключевых причины три: во-первых, музыканты не читают, а изучают. Добавлять пометки в PDF сложнее, чем на бумагу, а удобный формат, подходящий для отображения нотного текста, пока не создан из-за отсутствия единого стандарта кодирования музыкальных символов. Во-вторых, машиночитаемые электронные ноты малодоступны. И, наконец, в-третьих, росту и развитию рынка электронных изданий препятствует пиратство. 

Подробнее об этих причинах узнаете из текста в блоге Василисы Александровой.

🖼 Госкаталог — немного статистики

Не так давно мы рассказывали о необычных экспонатах Госкаталога, а наш блогер Олег Лашманов — Научный руководитель лаборатории «Искусство и искусственный интеллект» Школы искусств и культурного наследия в ЕУСПБ — изучил данные о произведениях, хранящихся в фондах музеев. Выяснилось, например, что множество записей не содержит никакой информации об авторе произведения, а следующие по популярности — «Неизвестный мастер» и «Неизвестный художник». Если объединить их в один тип, получится, что примерно для 32% живописных полотен автор неизвестен. 

Что именно чаще всего изображают известные и неизвестные авторы и на что снимают Госкаталог, посмотрите в полной версии статьи.

📸 Выставка «Исчезнет или превратится»: как куратор воспроизводит семейную память

Студенты магистратуры Digital Humanities в ИТМО составили хендбук для продюсеров цифровых проектов, в который вошло и это эссе о выставке «Исчезнет или превратится». Она была посвящена исследованию семейной памяти и традиций в нескольких регионах, и чтобы превратить чужой опыт в экспозицию, куратору необходимо было работать с тремя ключевыми понятиями — метафора, традиция и человек. Фокус на человека позволяет актуализировать тему, традиции — поговорить о трансформациях, а метафоры — донести личный, духовный аспект повествования. 

О том, как эти три элемента стали основой кураторской экскурсии Ксении Диодоровой узнаете из полного текста блога.

Гуманитарные проблемы актуальных наук

Актуальность наук — загадочная конструкция. Особенно в случае наук гуманитарных, которые превращают доброту — в этические проблемы, а дружбу — в тесные связи социального графа. Когда же такие исследования дополняются «цифровизацией», она не только даёт новые методы, но и предполагает переустройство самих режимов работы в науке. Этому переустройству посвящен новый пост руководительницы DH ИТМО Полины Колозариди. А чтобы обсудить их и разобраться с междисциплинарными и цифровыми областями знаний, можно присоединиться к конференции «Гуманитарные проблемы актуальных наук». Она состоится 15–17 апреля в DH-центре Университета ИТМО и на других площадках, а также онлайн. Подробнее — в блоге ИТМО на сайте «Системного Блока».

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Невыносимая лёгкость атрибуции: новая пьеса Милана Кундеры

Милан Кундера всемирно известен своими романами, но на самом деле он писал ещё и пьесы. Более того, чешские филологи подозревают, что его перу принадлежит больше пьес, чем мы думаем: например, переосмысление фольклорного сюжета «Юро Яношик», изданное за авторством Карела Штайгервальда. Как так вышло и кто (с огромной вероятностью) на самом деле написал пьесу — в материале «Системного Блока».

Кратко: о чем статья?

Ученые проверили гипотезу о настоящем авторе «Юро» с помощью стилометрического анализа. Корпус, с которым они работали, состоял из девяти текстов: три пьесы Кундеры, четыре пьесы Штайгервальда, одна его радиопьеса, и, конечно же, пьеса «под вопросом». Чтобы увеличить размер данных, каждый текст был поделен на отрезки в 2000 слов.

Для атрибуции исследователи применили метод опорных векторов, Support Vector Machine (SVM). В 94% случаев модель правильно определяла автора, причем ошибки чаще всего приходились на радиопьесу Штайгервальда «Слабое полуденное солнце» (видимо, из-за жанровых различий). А вот пьесу «Юро Яношик» модель во всех случаях приписывала Кундере.

Так, в авторстве Кундеры больше не приходится сомневаться, но если вы хотите узнать о работе исследователей подробнее и выяснить, почему писатель опубликовал пьесу под чужим именем — загляните в полную версию статьи.

Время чтения: 6 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Тест Тьюринга, лемматизация и регулярные выражения: новинки глоссария 

Мы регулярно пополняем рубрику «глоссарий» на сайте «Системного Блока», чтобы рассказать вам о ключевых понятиях в цифровых исследованиях. В этом посте рассказываем о трех новых материалах рубрики.

🤖 Тест Тьюринга

Тест Тьюринга появился в 1950 году чтобы определить, достиг ли компьютер интеллектуального уровня человека. Он осуществляется так: человек-оператор ведет текстовое общение с двумя невидимыми для себя собеседниками — одним человеком и одной машиной. Оператор может задавать вопросы и реагировать на ответы, чтобы определить, кто из собеседников является машиной. С момента появления этот тест пытались пройти множество систем и программ: от виртуального собеседника ELIZA до PARRY, которая имитировала поведение параноидального шизофреника.

Узнать, как они справлялись с этой задачей, за что критикуют тест Тьюринга и какие альтернативы предлагают, можете из полной версии статьи.

🌲 Лемматизация

Как компьютеры понимают, что «зло», «зла» и (из двух) «зол» — формы одного и того же слова? Благодаря лемматизации. Это процесс приведения слова к его базовой, начальной форме и один из основных методов предобработки текстов, который помогает компьютеру лучше их понимать. Лемматизация применяется, например, ​​в поисковых системах для повышения точности поиска. 

О том, как её автоматизировать и какие сложности могут возникнуть, например, со словом «ели», прочитаете в материале на сайте.

📨 Регулярные выражения

Как найти в тексте все числа из четырех цифр или все email-адреса? Рассказываем о регулярных выражениях — простом, но мощном инструменте для анализа и редактирования текстов, который используется программистами, специалистами в NLP и Digital Humanities, а также биоинформатиками. Этот инструмент позволяет искать и изменять подстроки в тексте, соответствующие заданному шаблону. Например, адрес электронной почты состоит из двух строк, разделённых символом «@», и чтобы найти все почты в одном файле нужно задать такое выражение: (.+)@(.+)\.(com|ru). 

Почему именно такое? Рассказали в полной версии текста на сайте.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM