Системный Блокъ
10.7K subscribers
241 photos
2 videos
1 file
854 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
Download Telegram
От Гомера до Мольера: зарубежная литература в школьной программе

Должен ли современный школьник читать Шекспира и Сэлинджера? А Гомера? Когда больше изучали зарубежных авторов: в советское время или сейчас? Недавно мы рассказывали о нашем дата-исследовании школьного канона от Октябрьской революции до ЕГЭ, а теперь собрали главную информацию и инфографики на карточках.

Смотрите, как менялось изучение иностранной литературы в школах в последние 100 лет, и рассказывайте, кого в школе читали вы – Джоан Роулинг или Оноре де Бальзака.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Какие темы интересуют современных востоковедов и как им помогают в исследованиях цифровые технологии?

Какие инструменты помогают анализировать древние рукописные иероглифы и токенизировать азиатские тексты? Что узнали ученые, исследующие религиозность африканцев? И что творят с цифровыми технологиями японцы? Читайте в нашей востоковедческой подборке статей от «Системного блока».

Искусственный интеллект и старинные японские книги: как лингвисты распознают иероглифы

В старинных японских книгах иероглифы отличаются от современных — они более сложны в написании и отличаются по значению. Старинные рукописи еще своеобразнее — в них использовалась скоропись, из-за чего символы плавно перетекают из одного в другой. И в тех, и других текст необязательно последовательный — он может огибать иллюстрации или зависеть от толщины кисти. Такую старую систему записи называют кудзусидзи, и ее способен прочесть не каждый носитель японского языка. Что уж говорить об ИИ. О том, что все же помогло ученым ускорить обработку текстов, читайте в статье.

Искусственный интеллект и YouTube: что ещё изучают лингвисты

Лингвисты, работающие с современными источниками на японском языке (такими как комментарии на YouTube), осваивают совершенно другие технологии: чистят данные от стоп-слов, распознают иероглифы-эмоджи и создают облака слов для отражения частотностей. О них читайте в статье о Voyant Tools.

Религии Африки через данные: во что и как верит самый религиозный континент Земли

За жизнь одного поколения Африка перешла в христианство и ислам настолько быстро и эффективно, что африканских проповедников стали приглашать европейцы для изучения их опыта и оживления собственных служб. Иван Захаров рассказал о том, что помог узнать ученым датасет, охватывающий более чем столетие развития феномена. 

ChatGPT и литературная премия

Япония не перестает удивлять. Пока школьники становятся агрессивнее и наращивают темпы кибербуллинга, люди искусства осваивают ИИ.  Так, 17 января 2024 писательница Риэ Кудан получила престижную японскую премию Акутагавы. Жюри назвало роман «почти совершенным». А на следующий день разразился скандал: в одном из интервью писательница призналась, что примерно 5% текста были написаны с помощью ChatGPT. О том, зачем она это сделала и почему премию не отозвали, рассказывает Анна Слащева. 

Гайды по работе с библиотеками токенизации азиатских текстов

Завершим подборку востоковедческих текстов рассказом про text-mining (автоматизированный интеллектуальный анализ текстов) с инструкциями, как это использовать вам, если вы изучаете корейский, китайский или японский язык.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Птички, цветочки и запахи городов: подборка материалов для летнего чтения

Впереди почти месяц лета, а это значит, что можно успеть насладиться августом: съездить в путешествие, собрать гербарий, посмотреть выставки.  Но еще лучше, если сделать все это в духе digital humanities. Как соединить технологии и летние радости, читайте в нашей сезонной подборке. 

Чем пахнут города?
Лето — это прежде всего путешествия. Если не знаете, как выбрать направление, загляните в наш материал об интерактивной карте запахов городов, которую составила международная группа урбанистов. Узнаете, как исследователям помогли посты и фотографии из соцсетей и на какой улице Барселоны раздается больше всего ароматов еды.

Айтрекинг в восприятии архитектурной среды
Путешествовать можно и виртуально. Например, в Помпеи! Ведь ученые создали 3D-модель Дома греческих эпиграмм, сохранившегося после извержения Везувия. Мы изучили их исследование и выяснили, зачем археологам погружать людей в виртуальную реальность и что привлекает современных наблюдателей в античном интерьере.

Бердвотчинг: что это за птица такая?
Если городскому туризму вы предпочитаете прогулки по природным ландшафтам, то рекомендуем заняться бёрдвотчингом, или попросту наблюдением за птицами. У нас есть материал, в котором мы советуем мобильные приложения для всех, кто хочет отличать соловья от кукушки. Прочитайте его — и вы узнаете, как с помощью смартфона определить, кто поет в соседней роще и как любители могут внести вклад в большую науку. А ещё больше о возможности самостоятельно вложиться в науку рассказали здесь.

Испытание ботаника: тест по растениям России из цифрового гербария МГУ
Примените свои знания о флоре в нашем тесте, созданном на основе цифрового гербария МГУ. Это самая крупная в России цифровая база растений. В ней собраны более миллиона образцов со всего мира. Пройдите тест и вы навсегда запомните, как называется трава из детской игры “Петушок или курочка” и какое народное прозвище у клевера ползучего.

Гид по Voyant Tools
Если лето для вас — время, когда можно научиться чему-то новому, то рекомендуем наш гайд по инструменту для анализа текстов Voyant Tools (есть первая и вторая части). Визуализации, частотный анализ, определение трендов и коллокаций в корпусе — вот лишь некоторые возможности этого ресурса. 

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Исход людей из OpenAI, новые модели для решения математических задач и SAM 2

Рассказываем, что произошло в мире ИИ за последние две недели.

Ключевые лица покидают OpenAI?

Сооснователь OpenAI, Джон Шульман, заявил о своём уходе. В сообщении Шульман рассказал, что переходит работать в компанию Anthropic (один из основных конкурентов OpenAI). Свою отставку он объяснил желанием  заниматься более технической работой и сфокусироваться на исследованиях безопасного ИИ.

Через несколько часов после заявления Шульмана технический директор компании Грег Брокман сообщил, что после девяти лет работы он берёт отпуск до конца этого года. В июне этого же года компанию покинули два топ-исследователя. Один из них также впоследствии ушёл в Anthropic.

Qwen2-Math – новый лидер среди математических моделей

Китайский холдинг Alibaba Group выпустил семейство больших языковых моделей Qwen2-Math, специализированных для решения математических моделей. Qwen2-Math  — дообученная версией семейства обычных языковых моделей Qwen2, доступная в трёх размерах: 1,5, 7 и 72 млрд параметров.

Флагманская модель опережает открытые и коммерческие модели (GPT-4o и Claude Sonnet 3.5) в математических тестах. Младшая версия же по качеству сравнима с моделями более чем в четыре раза больше, включая недавно выпущенную Mathstral.

SAM 2 – новая модель для сегментации изображений и видео

Meta* представила второе поколение модели SAM (Segment Anything Model). В отличие от предшественника, который умел выделять произвольные объекты только на изображениях, SAM 2 умеет работать и с видео.

SAM 2 способен консистентно выделять произвольные движущиеся объекты между кадрами. В работе с изображениями новая версия точнее и в шесть раз быстрее первой. Для обучения модели была собрана обучающая выборка, содержащая 51 тыс. разнообразных видео с 643 тыс. выделенных объектов.

Модель и выборка доступны для скачивания и коммерческого использования.

🤖 «Системный Блокъ» @sysblok

* Meta признана в РФ экстремистской организацией.
Please open Telegram to view this post
VIEW IN TELEGRAM
От Ктулху до Человеколося: мифы в цифровой галактике

Как существа из древних легенд «выживают» в современной массовой культуре, перемещаясь из сказок и книг — в мультики, сериалы и компьютерные игры? Материал «Системного Блока» о цифровой жизни мифов. 

Кратко: о чём статья?

В цифровой среде интерактивность лежит в основе реальности. Интерактивность пользователя, взаимодействие с программным кодом или его написание порождает просьюмеризм (явление, при котором человек принимает активное участие в создании товаров и услуг, которые сам потребляет). Когда просьюмер сталкивается с собственным запросом, он познает проблему интермедиальности (перехода образа из одной среды в другую).

Примером перехода мифа в цифру может служить рассказ Говарда Лавкрафта «Зов Ктулху». Образ Ктулху стал появляться в произведениях других авторов, например, Анджея Сапковского, Стивена Кинга и Нила Геймана, потом с участием этого персонажа сняли фильмы. Индустрию игр Ктулху также не обошёл стороной.

Другой пример переосмысления образов — игра пермских инди-разработчиков «Человеколось». За основу взяты предания ханты, манси и саамов о лосе Ене и его семи сыновьях.

О том, чем может заниматься просьюмер, из чего состоит коллекция пермского звериного стиля и какие ещё примеры перехода мифа в цифру можно найти — в полном тексте статьи.

Время чтения: 6 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
«Короче, Пушкин!»: как нейросети пересказали школьную программу

В апреле 2024 года — период активной подготовки к экзаменам — Яндекс Вордстат зафиксировал более 1,5 миллиона запросов по словосочетанию «краткий пересказ». Но кто-то ищет краткие пересказы произведений в поисковиках, а кто-то — просит помощи у нейросети. Насколько точен и адекватен анализ от ИИ? Чтобы узнать это, мы провели эксперимент и протестировали три самых популярных нейросети.

Кратко: что за эксперимент?

Для эксперимента мы использовали три нейросети: Chat GPT, Yandex GPT и Notion AI.
У каждой ИИ было две задачи: кратко изложить текст и рассказать, в чем основная суть произведения.

В качестве материала мы выбрали разные по структуре произведения из школьной классики: рассказ А. П. Чехова «Толстый и тонкий», басню Крылова «Ворона и лисица» и стихотворение М. Ю. Лермонтова «Бородино».

В случае рассказа Чехова Yandex GPT пересказал только сюжет: на вокзале встретились два приятеля, пообщались и разошлись. Никакой иронии он не заметил. Chat GPT справился лучше, хотя грамматика русского языка у него оказалась не на высоте и встречались фразы вроде: «У них были с собой жена и сын тонкого». Notion AI просуммировал события наиболее точно, но вот считать иронию текста у нейросети тоже не получилось. Зато, формулируя главную мысль текста, Notion AI обратил внимание на позицию автора критику общества, не ограничившись только сюжетом.

В случае с Лермонтовым и Крыловым Yandex GPT бессистемно выдавал лоскуты отдельных цитат, а Notion AI и Chat GPT выбрали другие стратегии.

Подробнее о них и о том, какие ошибки сделали нейросети (спойлер: Chat GPT, например, приписал «Бородино» Пушкину) узнаете из полной версии статьи.

Время чтения: 9 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Музей криптографии глазами гуманитария 
Рассказываем про новый пост из блога Бориса Орехова

Что такое криптография?

Криптография — наука о конфиденциальности, аутентификации и шифровании данных. Системный Блокъ уже писал об исторической криптографии и шифропанках. Музей криптографии в Москве посвящен не только ей самой, но и смежным дисциплинам и технологиям коммуникации. 

Культура и технологии вперемешку

Сейчас область криптографии исключительно математическая и компьютерная, однако музей концентрируется еще и на гуманитарной составляющей. Например, целый этаж посвящен истории здания музея, а на литературной полке можно найти книги, в которых шифры играют заметную сюжетную роль. В то же время в музее много технических экспонатов: например, шифровальных аппаратур.

Атмосфера «Системного Блока» 

Музей может показаться представительством редакции «Системного Блока» в оффлайне: здесь внимание и к текстам, и к технологиям, и к их взаимодействию. Музей отличается легкой подачей и заботливым отношением к истории. Например, большое пространство отведено античности.

Каковы гуманитарные истоки криптографии? Как музею о ней удается разговаривать на человеческом языке? Почему часть экспозиции рассказывает про интернет? О всём этом и многом другом, читайте в посте блога. 

Время чтения: 7,5 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Вино и гашиш, Истанбул и Париж: про какие города и страны поют русскоязычные исполнители? 

Анализ 1129 песен, выпущенных с 1990-ых по 2019 год показал, какие локации популярнее всего у русской поп-эстрады. В лидерах Москва – 68 упоминаний (от 22 исполнителей). Причем чаще всего город встречается в песнях Децла. Второе по популярности направление – Париж. О нем пели 41 раз 13 исполнителей. Санкт-Петербург как главный мотив песен упомянули 30 раз 8 исполнителей.

Если хотите узнать не только о городах, но также о еде, напитках и чувствах в песнях разных жанров, читайте наше исследование о русскоязычной музыке.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Языковые модели — это адронный коллайдер для языка: интервью с Татьяной Шавриной

Что делать с тем, что коммерческие продукты вроде ChatGPT созданы на основе украденной интеллектуальной собственности? Есть ли внутри современных нейросетевых моделей что-то вроде физической модели мира? (Спойлер: кажется, нет.) Куда развивается искусственный интеллект и какие новые умения он приобретет в ближайшем будущем? И что делать тем, кто хочет участвовать в развитии ИИ? Об этом «Системный Блокъ» поговорил с Татьяной Шавриной, руководительницей исследовательской команды в проекте LLAMA и создательницей канала Kali Novskaya @rybolos_channel, в котором выходят новости мира NLP, обзоры свежих статей, датасетов и моделей.

‼️ Перспективы

Мы впервые находимся в ситуации, когда благодаря большим языковым моделям (LLM) мы можем задокументировать человеческое общение в огромном объеме, причём в условиях, которые мы можем контролировать. Благодаря LLM мы можем построить универсальные правила грамматики заново, как бы снизу вверх, опираясь на большие данные, которые у нас теперь есть. Правда, придется преодолеть англоцентризм моделей и ещё некоторые ограничения.

Риски

С использованием искусственного интеллекта связаны и большие риски. Например, манипуляция информацией и общественным мнением на разных уровнях, а еще – применение в военной сфере. Сейчас есть стартапы, которые занимаются компьютерным зрением для дронов, распознаванием лиц, слежкой за людьми.

Вопросы

Интеллектуальная собственность и авторские права — большой вопрос в сфере ИИ. Все нейросети и продукты на них в широком смысле построены на нарушении копирайта. Что с этим делать пока неясно, поскольку популярные лицензии на интеллектуальную собственность составлялись без учета того, что кто-то будет их использовать для обучения ИИ-моделей. Они создавались под маркетинговые нужды. Сегодня крупные владельцы контента часто сами заинтересованы в том, чтобы ослабить ограничения копирайта, но пока мало что сделано.

⁉️ Сомнения

Фундаментально в области LLM мало что поменялось с 2020 года, когда вышла GPT-3. То есть ещё до ChatGPT. Просто сначала взаимодействие с ней было не так удобно, как сейчас, потому что оно было не в формате диалога. Скорее всего вскоре наши ожидания от LLM остановятся на определённом уровне, как ожидания от интернет-поиска. Станет проще писать эссе, писать код или оформлять отчёты по ГОСТу. И на этом всё.

Впрочем, модели, конечно, будут становиться масштабнее и качественнее. Будет поддержка большего числа языков. Будут больше использоваться научные данные. Логический вывод будет работать чуть-чуть лучше. Тренд идет на планирование, агентность — всё то, чего нам не хватает до наступления AGI (универсального искусственного интеллекта).

Если хотите узнать больше о настоящем и будущем ИИ — конкуренции Open-source моделей с коммерческими, данных для обучения и «модели мира» — переходите к полной версии интервью.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Цифровая охота: «поймать» всех животных в тексте

Какие животные населяют научную фантастику? Где их больше: в ужасах или в детективах? А где они разнообразнее? Рассказываем об исследовании Кирилла Маслинского и смотрим на фауну в детской литературе.

Кратко: о чем статья?


Кирилл Маслинский, исследователь литературы, сотрудник Пушкинского дома и создатель Деткорпуса, изучает процесс создания контента. Он использует модель роста словаря, чтобы оценить разнообразие «‌‎животных»‎ в разных жанрах детской литературы. 

Само появление животных в тексте зависит от множества обстоятельств: например, в сказках типичные герои-помощники — это лесные обитатели, так исторически сложилось, это внутренний фактор; а в текстах Пришвина много птиц, потому что писатель был охотником, то есть тут сыграла роль социализация автора, фактор внешний.

Для исследования Кирилл Маслинский сделал выборку текстов от 100 до 300 000 слов из коллекции ДетКорпуса, относящихся к периоду 1900–2020 гг. Всего в такой словарь вошло 1906 упоминаний животных: птиц, рыб, грызунов и прочих. В ужасах, например, больше всего упоминались змеи, а в научной фантастике было много амфибий и морских обитателей. 

Увидеть кто, где и как часто упоминается, можно на наших инфографиках с данными из исследования, а узнать больше об исследовании можно из полной версии материала.

Время чтения: 7 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Может ли робот прочитать папирус: как ИИ помогает восстанавливать утраченные тексты

Кажется, история из «‎Гостьи из будущего», где один из героев спасал рукописи из Александрийской библиотеки, стала реальностью. В начале 2024 года исследователям удалось прочитать сгоревший папирус из Геркуланума с помощью искусственного интеллекта.

Кратко: о чем статья?

Геркуланум, один из городов, погибший во время извержения Везувия в 79 году н. э., был открыт искателями сокровищ ещё в XVIII веке. В 1752 году рабочие наткнулись на постройку, которую позже назвали Виллой папирусов. В ней обнаружили 1800 сгоревших свертков, так что сегодня это собрание античных рукописей считается самым большим в мире.

Ученые предпринимали разные попытки прочитать уцелевшие части рукописей, размачивая и разворачивая папирусы, даже просвечивали их рентгеном, но эти методы не всегда давали желаемый результат и часто повреждали рукопись. 

Наконец, в 2023 году команде из трех человек удалось прочитать четыре отрывка из свитка Геркуланума с помощью искусственного интеллекта, который отличил чернила от подложки. Благодаря этому открытию исследователи уточнили точное место захоронения Платона и узнали некоторые подробности его биографии, а ещё прочитали один из неизвестных ранее текстов древнегреческого философа Филодема.

Подробнее о том, какими методами ученые пользовались раньше и как с  исследованием 2023 года связан Vesuvius Challenge, узнаете из полной версии статьи.

Время чтения: 10 минут.


🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM