Системный Блокъ
8.83K subscribers
239 photos
2 videos
1 file
800 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
Download Telegram
Точные методы в лингвистике: подборка памяти Ю. Д. Апресяна

В Москве на 95-м году жизни скончался лингвист Ю. Д. Апресян — основатель Московской семантической школы, соавтор множества словарей, один из первых исследователей машинного перевода. Мы решили почтить память Ю. Д. Апресяна подборкой статей о прошлом и настоящем машинного перевода и точных методов в лингвистике.

Машинный перевод: как он появился и как работает

Впервые идея использовать компьютер для перевода текстов с одного естественного языка на другой была предложена ещё в 1949 году. От короткого набора правил до продвинутых нейросетей: 70 лет истории развития машинного перевода за 15 минут.

Что такое кросс-языковая морфология и зачем она нужна

Машинный перевод и другая компьютерно-лингвистическая магия работают тогда, когда есть много данных для обучения нейросетей. Но что делать, если язык редкий и данных почти нет? Тут может помочь перенос на малоресурсный язык лингвистических моделей, построенных на данных большого родственного языка. Рассказываем про построение кросс-языковых NLP-моделей. 

Зачем нужен Национальный корпус русского языка 

Зачем нужен НКРЯ? В статье рассказано о самых разных исследованиях на основе корпуса: от сложностей перевода на другой язык культурных реалий на примере книг Набокова до возникновения фразы «ибо нефиг» и особенностей применения частного и местного падежей в современном языке. 

От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна 

В этом году Национальному корпусу исполнилось 20 лет. Все эти годы НКРЯ менялся не только внешне, но и внутренне: добавлялись новые функции и новые подкорпусы. Сейчас с помощью НКРЯ можно изучать детскую литературу, блоги, берестяные грамоты и многое другое, анализировать статистику употребления слов и коллокаций, строить графики и искать похожие слова. 

Как лингвистика стала близкой подругой математики и информатики?

Лингвистика привлекла внимание математиков и инженеров после Второй мировой войны. Этому способствовали достижения структурной лингвистики начала XX века (Фердинанд де Соссюр и его последователи), но ещё больше — появление первых компьютеров и холодная война. Заинтересованные идеей научить компьютер переводить текст и понимать его, кибернетики начали создавать формальные модели языка для компьютеров. В их работах заложена база для стохастических методов, которые играют ведущую роль в современной прикладной обработке языка. Рассказываем, как в середине XX века соединились лингвистика, математика и информатика.

Достигла ли своих целей разработка искусственного интеллекта?


В 1972 году (как раз когда Ю. Д. Апресян во второй раз вплотную занялся машинным переводом) учёные составили список из двенадцати задач, которые нужно решить для создания искусственного интеллекта в ближайшие десятилетия. В список входили автоматический перевод, самоуправляемые автомобили и даже автономные роботы-планетоходы. Мы попробовали оценить, что сделано, а что ещё нет.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
GPT-4o научилась смеяться и петь, LSTM-нейросети наносят ответный удар, ChatGPT встроят в iPhone: дайджест ИИ-новостей  

OpenAI выпустила новую версию GPT-4. Apple и OpenAI завершают сделку о сотрудничестве. Авторы архитектуры LSTM выпустили её обновление, которое не хуже Transformer. Google DeepMind анонсировала AlphaFold 3 – нейросеть, способную моделировать широкий спектр биомолекул. Рассказываем, что произошло в мире ИИ за прошедшие две недели.

GPT-4o – новая мультимодальная модель от OpenAI

Компания OpenAI анонсировала обновление GPT. Обновление назвали GPT-4o («o» от слова «Omni» — всё в одном). GPT-4o может принимать на вход и выдавать в качестве ответа текст, изображения и аудио – ранее для этого использовались разные модели. По основным тестам модель сопоставима с GPT-4 на английском языке и превосходит её на других языках (в том числе и на русском). Модель также лучше пишет код.

Одно из главных нововведений GPT-4o – способность выражать эмоции в разговоре через интонацию и смех. Модель может изображать удивление, любопытство, сарказм, петь и шептать.
Также сократилось время ожидания ответа в устном диалоге – теперь модель отвечает в среднем через 0.3 секунды после реплики пользователя. Примеры диалогов можно посмотреть на ютуб канале OpenAI

GPT-4o уже доступна разработчикам через API, причем дешевле, чем GPT-4. Рядовые пользователи могут бесплатно использовать GPT-4o через сайт ChatGPT, однако аудио функции появятся позже и только у пользователей с подпиской.

Сотрудничество Apple и OpenAI

По данным Bloomberg, компания Apple и OpenAI (создательница ChatGPT) близки к завершению сделки, по условиям которой Apple сможет использовать наработки OpenAI в следующем обновлении iOS на iPhone. Предполагается, что Apple будет использовать ChatGPT и технологии для синтеза речи для улучшения своего голосового ассистента Siri. Презентация для разработчиков, на которой представят обновление iOS, состоится 10 июня.

Ранее в сети появлялись слухи, что Apple договаривается с Google об использовании их языковой модели Gemini, однако о статусе переговоров ничего неизвестно.

Обновление архитектуры LSTM


Опубликована статья xLSTM, в которой была представлена модификация нейросети LSTM (Long short-term memory). Эта архитектура показывала лучшие результаты в задаче языкового моделирования до выхода Transformer, на которой основаны все современные LLM.

Авторы статьи модернизировали LSTM, используя технические находки современных языковых моделей, обновили устройство ячейки памяти, а также увеличили количество параметров. Полученную архитектуру xLSTM сравнили с Llama (Transformer от Meta), Mamba, RWKV-4 (современные рекуррентные архитектуры) – практически во всех задачах xLSTM оказалась лидером.
xLSTM требует меньше вычислительных ресурсов во время работы и позволяет обрабатывать очень длинные тексты, но её обучение примерно в 4 раза медленнее Transformer. Однако авторы отмечают, что их реализация не оптимизирована, поэтому есть простор для улучшений.

AlphaFold 3 – нейросеть для моделирования биомолекул

Лаборатория Google DeepMind выпустила третье поколение нейросети AlphaFold. В отличие от AlphaFold 2, которая умеет моделировать структуру белков, новая версия способна моделировать РНК, ДНК и лиганды (тип химических соединений). Предсказания результатов взаимодействия разных соединений у AlphFold 3 на 50% точнее, чем предсказания существующих методов. Вместе с моделью выпустили Alpha Server – веб-сервис, который позволяет учёным использовать AlphaFold.

Первая версия AlphaFold произвела революцию в биологии, повысив качество предсказания структуры белка по последовательности аминокислот. Эта задача — одна из самых важных в биологии, так как структура белка задаёт его функцию.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Дневники, письма, конспекты: что такое эго-документ?

Историю можно изучать и по письмам, дневникам и записным книжкам. «Системный Блокъ» рассказывает об эго-документах (частных источниках) и связанных с ними цифровых исследованиях.

Кратко: о чем статья?

Эго-документ (от лат. ego — «я») — это источник личного происхождения, который создан конкретным человеком и обращен к самому себе или узкому кругу читателей. К эго-текстам относят, например, дневники, мемуары, открытки, даже конспекты.
Хотя содержание эго-документов часто не соответствует реальности (они субъективны, могут содержать ошибки), такие источники — все равно ценный материал. Например, эго-тексты отражают отношение простых людей к происходившему; в них раньше, чем в литературе, может быть зафиксировано жаргонное слово. Поэтому эго-документы изучают не только историки, но и культурологи, филологи.

К наборам текстов одного жанра можно применить количественные методы «дальнего чтения», которое подразумевает выделение общих закономерностей для сотен и тысяч текстов. Так, на основе цифрового архива эго-документов «Прожито» был разработан датасет «Размечено», создатели которого выделили внутри дневниковых записей именованные сущности (имена людей, названия организаций, топонимы и т.п.).

Кроме того, к текстам можно применять методы тематического моделирования. Например, исследование дневников 1917 года, выполненное «Системным Блоком», показало, что записи на тему революции включали рассуждения о хлебе, рубле, Распутине и поездах. 

Более подробно о ценности эго-текстов и цифровых исследованиях о них, читайте в полной версии статьи.

Время чтения: 5 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
«Меня интересует знать, а не уметь»: Игорь Мельчук о нетрадиционной лингвистике, машинном переводе и влиянии репрессий на науку

«Системный Блокъ» поговорил с легендой российской лингвистики и заслуженным профессором Монреальского университета Игорем Мельчуком о машинном переводе в СССР, нейропсихологии и главной научной задаче лингвистики. А еще — об эмиграции, жизни в Канаде и роли, которую сыграли репрессии в отечественной науке.

Кратко: о чем интервью?

То, чем занимается Игорь Мельчук, он сам называет нетрадиционной лингвистикой, «просто лингвистикой», чья задача — описать язык. С этим тесно связана главная цель ученого: создание такой понятийной системы, которая была бы близка к понятийной системе математики. Создание универсального научного языка лингвистики. Важнейшее достижение Мельчука — лингвистическая модель «Смысл Текст», которая, по его словам, даёт лингвистике всё, поскольку прежде всего язык – это способ выражения мысли.

Свой путь Игорь Мельчук начал на факультете филологии в МГУ, сейчас он — заслуженный профессор Монреальского университета на пенсии. А между этими фактами — жизнь, полная научных поисков, открытий, смен траектории, мест работы и мест жительства. Так, в начале 1950-х Мельчук был вовлеченн в создание первых алгоритмов машинного перевода в СССР, для того времени — чего-то фантастического и абсурдного.

Кроме нетрадиционной лингвистики, Мельчук пробовал заниматься и (теперь уже вполне традиционной) нейролингвистикой. Он считает, что нейронаучные проникновения в реальный мозг помогут создать настоящую модель языка. Если бы он не уехал из России, то, может быть, занимался бы этой областью дальше. С 1976 года Мельчук живет в Канаде, и хотя он не обрел там второй родины, считает свою эмиграцию спасением жизни и свободы.

Более подробно о создании первой в СССР системе машинного перевода, о том, как влияли сталинские репрессии на лингвистику, и что такое марризм, узнаете из полной версии интервью.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Тест: с какими героями «Войны и мира» вы говорите на одном языке?

Наташа или Андрей Болконский? Пройдите тест и узнайте, с кем из героев «Войны и мира» вы могли бы делиться последними новостями или обсуждать знакомых.

Персонажи романа Л. Н. Толстого «Война и мир» обладают разными «голосами». Цифровые методы анализа стиля текста позволяют сравнить между собой речевые портреты героев и узнать, какие из них говорят похоже друг на друга. Попробуйте и вы найти себе собеседника среди персонажей Л. Н. Толстого.

😎 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Machine Learning на службе биоразнообразия

Машинное обучение сегодня применяется для моделирования и предсказания в биологии. «Системный Блокъ» рассказывает, как технологии помогают оценивать ареалы живых существ и прогнозировать изменения окружающей среды.

Кратко: о чем статья?

Сегодня биология генерирует огромное количество big data, поэтому современный биолог, эколог или биогеограф должен быть ещё и дата-сайентистом: владеть анализом данных, использовать машинное обучение и знать основы статистики, чтобы отделять значимое от незначимого.

Пример использования Machine Learning в биологии — моделирование пространственного распространения видов, или SDM (species distribution models). SDM основано на понятии экологической ниши — области важных экологических факторов, которая соответствует пригодным для вида местообитаниям.

Для моделирования ареала вида потребуются два набора данных: локалитеты (места фактического нахождения вида, где его ранее удалось заметить) и предикторы (переменные, описывающие условия окружающей среды, например, климат, рельеф, антропогенные факторы). Обучение модели включает стандартные шаги ML, а результат SDM — карта, которая показывает пригодность местообитания для вида по шкале от 0 до 1.

У подхода SDM есть и уязвимая сторона: он не использует ансамблевые предсказания. В ансамблевых методах разные модели работают сообща, чтобы минимизировать погрешности друг друга, что повышает точность. В SDM этот подход не внедрен.

Более подробно о процессе обучения SDM, а также зачем еще ее можно использовать, читайте в полной версии статьи.

Время чтения: 10 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Инфографика для анализа текстов: Voyant Tools

На сайте “Системного Блока” вышел гайд в двух частях (I, II) о том, как пользоваться онлайн-анализатором текстов Voyant Tools. Рассказываем об основных функциях инструмента и о том, зачем они нужны.

Во-первых, Voyant Tools умеет подсчитывать частотности слов в корпусе текстов. Причем предлоги, артикли и прочие “вспомогательные” единицы, которых в текстах обычно особенно много,  программа позволяет исключить, загрузив список стоп-слов. Тогда останутся только значимые слова. Их можно изучать дальше — например, построить график их встречаемости и узнать, менялась ли частота употребления ключевых слов на протяжении произведения или целого периода творчества писателя.

Еще один полезный инструмент в составе Voyant Tools — поиск коллокаций (это слова, которые чаще всего встречаются рядом с заданным). По контексту, в котором употребляются ключевые слова, можно сделать более глубокие выводы о темах произведения. По корпусу Достоевского, например, можно определить, что в его прозе Россия обычно рассматривается вне контекста внешней политики, в отличие от его публицистики.

Главная черта Voyant Tools — очень много возможностей визуализации полученных данных. Доступны не только разные виды графиков — но и облако частотных слов, мандала и даже карта перемещений персонажей (она, впрочем, без дополнительных настроек работает неточно).

Более подробно о том, как работать с программой, читайте в первой и второй частях гайда. А пока предлагаем квиз: как думаете, кто встречается в художественных произведениях Достоевского чаще всего — старик, ребенок или женщина? Все эти слова входят в список ключевых для творчества писателя, но некоторые до недавних пор не отмечались исследователями. Голосуйте в опросе, вечером опубликуем ответ!

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
В художественных произведениях Достоевского чаще упоминается:
Anonymous Quiz
30%
старик
28%
ребенок
42%
женщина
Правильный ответ на опрос про Достоевского — чаще других в его художественных текстах упоминается ребенок! Слово встречается 1033 раза, тогда как старик — 886 раз, а женщина — всего 811.

При этом слово женщина исследователи обозначили как один из ключевых концептов для творчества писателя — а вот слова старик и ребенок в число концептов включены не были, хотя и встречаются чаще.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
На последнем дыхании: туберкулез в России в цифрах и фактах 

Цифровые методы помогают «Системному Блоку» изучать не только гуманитарные науки, но и социально значимые проблемы. Одна из них – заболеваемость туберкулезом. Самая литературная болезнь по-прежнему распространена в России. Рассказываем о её причинах и о том, почему пациенты с туберкулезом до сих пор остаются стигматизированными.

Кратко: о чем статья?

Согласно данным Росстата, с 2010 по 2022 год заболеваемость туберкулёзом снизилась в разных возрастных группах и разных регионах России. Но есть и менее приятные новости: главный способ профилактики заболевания – вакцина, а в последнее время количество невакцинированных детей увеличивается, о чём прямо говорится в отчётах институтов Минздрава.

При этом риску заражения и развития туберкулёза подвержены прежде всего люди, живущие в неблагополучных социально-экономических условиях: с ограниченным доступом к качественному питанию, жилью и медицинской помощи. Главные факторы, влияющие на статистику болезни в разных регионах, мы собрали в инфографике.
Как рассказала «Системному Блоку» Ирина Васильева, главный фтизиатр Минздрава России, заболевание не только сопровождается тяжелыми симптомами, но и негативно отражается и на отношениях пациента с социумом. Поскольку «специфика туберкулеза и его лечения заключается в длительном отрыве от семьи и привычной профессиональной деятельности», пациенты становятся несдержанными, склонными к конфликтам, либо заторможенными, чрезвычайно ранимыми, робкими и застенчивыми. 

Узнать больше о статистике, связанной с заболеванием, и о том, как уберечь себя и своих близких от заражения можно из полной версии статьи.

Время чтения: 15,5 минут.


🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Эволюция литературы: может ли Дарвин объяснить Конан Дойла и футуризм

Сегодня 165 лет Артуру Конан Дойлу — автору детективов про Шерлока Холмса и одному из создателей жанра. Помимо прочего, детективы Конан Дойля интересны тем, что они стали невероятно успешными на фоне огромного числа конкурентов, тоже писавших детективные истории. О поиске причин этого успеха формальными методами, вдохновлёнными биологией, читайте в нашей статье.

Кратко: о чем статья?

Филологи чаще всего обращаются к одному из двух эволюционных подходов для описания процессов, происходящих в истории литературы: 
подход русских формалистов и дарвинистский подход социолога литературы Франко Моретти.

Формалисты предлагали смотреть на литературу как на поле со своими «центром» и «периферией», где  то, что еще вчера казалось читателю маргинальным, сегодня смещает то, что было доминирующим в литературном процессе. Моретти же сравнивал процесс эволюции литературы с бойней, где мясниками оказываются «сами читатели, которые читают роман» и так поддерживают его жизнь в следующих поколениях. 

В такой «бойне» выжили и рассказы о Шерлоке Холмсе. От детективов, которые читатели благополучно забыли, их отличало наличие улик, на основании которых читатели смогли самостоятельно прийти к разгадке. Правда, от одного дарвиновского принципа natura non facit saltus. (лат. — «природа не делает скачков») Моретти отказался и заявил, что литература, напротив,  меняется только через скачки. «Скачок — Конан Дойл. Еще прыжок — Кристи».

Подробнее об этих скачках и экспериментах, на которых основывается Моретти, узнаете из полного текста статьи.

Время чтения: 11 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Берестяные грамоты от раскопа до компьютера

На этой неделе отмечается День славянской письменности и культуры — и это хороший повод перечитать наш материал об исследованиях берестяных грамот и их цифровом сохранении.

Берестяные грамоты — важнейший источник живого древнерусского языка (а точнее, новгородского диалекта). Из берестяных грамот мы узнали множество слов, которых нет в других древнерусских источниках. Вспоминаем эти слова — и их исследователей.

Кратко: о чем статья?

Сейчас кажется естественным, что люди из разных городов России легко понимают друг друга, даже если кто-то выходит из подъезда, а кто-то — из парадной. Но в IX-XI вв. ситуация была иной. Благодаря берестяным грамотам ученые узнали и смогли хорошо изучить древненовгородский диалект. Этот язык заметно отличался от того варианта древнерусского языка, на котором говорили в Суздале, Москве или Киеве.

Древнерусский язык берестяных грамот — живой язык, на нем обсуждались совершенно обычные бытовые и интимные вопросы: покупки, продажи, хозяйство, любовные связи… Грамоты открыли нам множество слов, которых нет в других древнерусских источниках. Например, гречьскыи бобъ означает фасоль, а исполовница — корова, взятую на время по договору. Есть в грамотах и обидные слова, вроде недума (пустомеля), и ругательства, например, знаменитое уже аесова (буквально — сователь яйца).

Одним из известнейших исследователей грамот и древненовгородского диалекта был знаменитый лингвист А.А. Зализняк. Именно Зализняк обратил внимание на отличие говоров Новгорода и Пскова от остальных, что привело к пересмотру сложившейся схемы диалектов Древней Руси. До самой своей смерти Зализняк каждый год читал лекцию о вновь найденных грамотах — и эта лекция становилась «филологическим праздником урожая», неизменно собирая переполненный зал.

Главный цифровой ресурс, посвященный берестяным грамотам, — сайт «Древнерусские берестяные грамоты». Его база данных включает фотографии берестяных грамот, их прориси, древнерусские тексты, переводы на современный русский язык и основную информацию о документах.

Посмотреть на отсканированные берестяные грамоты, а также подробнее узнать о том, как формировался современный русский язык и какой вклад в исследование этого процесса внес А.А. Зализняк, можно в полной версии статьи

Время чтения: 7 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Google встраивает языковую модель в поиск, Скарлетт Йоханссон обвиняет OpenAI, исследователи стали лучше понимать и контролировать ИИ

Рассказываем, что произошло в мире ИИ за прошедшие две недели.

Google теперь генерирует ответы на запросы пользователей

На недавно прошедшей конференции для разработчиков Google I/O корпорация анонсировала обновления своих генеративных моделей, а также новые функции поисковика, использующие языковую модель Gemini. Одно из ключевых нововведений – генерация ответа на поисковый запрос с использованием информации с разных сайтов. Эта функция уже доступна американским пользователям. По сообщениям многих из них, Google часто галлюцинирует или, другими словами, генерирует фактологически неверные ответы. Например, на вопрос пользователя «Как сделать так, чтобы сыр не сползал с пиццы?» поисковик предлагает использовать клей. Подобные ошибки возникают из-за недостоверной информации на некоторых сайтах и несовершенства языковых моделей. Про галлюцинации и механизм генерации, дополненной поиском, мы рассказывали в нашей статье про RAG (Retrieval Augmented Generation).

Скандал вокруг голоса GPT-4o

Голливудская актриса Скарлетт Йоханссон обвинила OpenAI в использовании её голоса для озвучки GPT-4o без её согласия. По заявлениям актрисы, в прошлом сентябре CEO OpenAI, Сэм Альтман, предложил ей озвучить голосового ассистента компании, однако она отказалась. После презентации GPT-4o многие пользователи в интернете отметили сходство голоса ассистента Sky (помимо него пользователь может также выбрать другие голоса) и актрисы. Более того, сам Альтман опубликовал твит с текстом «Her», названием фильма про интеллектуальную систему, озвученную Скарлетт Йоханссон. Также актриса утверждает, что CEO OpenAI повторно связывался с ней за два дня до презентации новой модели, чтобы выяснить, не пересмотрела ли она своё решение касательно сотрудничества. Однако к тому моменту, когда представители актрисы ответили, модель была уже анонсирована. После обращения юристов OpenAI согласилась убрать этот вариант озвучки.

Новое исследование интерпретируемости нейронных сетей

Компания Anthropic, основанная бывшими сотрудниками OpenAI, выпустила новое исследование, в котором авторы анализируют механизмы работы языковой модели Claude 3 Sonnet.

Суть метода, который используют авторы, заключается в выявлении набора признаков, которыми «оперирует» модель. Под признаком понимается численное (понятное компьютеру) представление какой-то концепции либо информации. Например: сведения об известных людях и достопримечательностях, лингвистические концепции, эмоции и т.д. Однако зачастую признаки представляют сразу несколько концептов или хранят информацию о совершенно разных объектах. Такая многозначность сильно усложняет задачу интерпретации нейросети и её контроля.

Главное достижение исследователей Anthropic – разработка метода, который позволяет выявлять только однозначные признаки, то есть признаки, которые не могут представлять несколько концепций одновременно. В своей статье авторы смогли идентифицировать большой и разнообразный набор однозначных признаков в языковой модели, сопоставимой по качеству и размеру с GPT-4. Также они показали, как можно управлять поведением модели, имея информацию о её признаках. В качестве демонстрации Anthropic на день дала пользователям доступ к своей языковой модели, которую с помощью разработанного метода заставили думать, что она является мостом «Золотые ворота». Модель всё так же, как и раньше, была способна отвечать на произвольные запросы пользователей, однако во всех ответах вставляла различную информацию о мосте.

Интерпретируемость нейронных сетей – одна из главных задач, решение которой позволит сделать ИИ более надёжным, безопасным и применимым в задачах, где важна обоснованность и прозрачность решений (например, в медицинских задачах).  

В ближайшее время «Системный Блокъ» выпустит подробный разбор работ Anthropic по этой теме.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Что такое обучение с подкреплением?

Что если бы компьютеры могли самостоятельно исследовать окружающий мир, экспериментировать и корректировать свои действия на основе реального опыта? Они уже могут! Благодаря обучению с подкреплением (от англ. Reinforcement Learning, сокращённо RL), принципы которого очень похожи на то, как мы, люди, учимся в реальном мире.

Кратко: о чем статья?

В основе обучения с подкреплением — несколько ключевых понятий: окружение, состояние, aгент, действие, награда. Они формируют фундамент, на котором строится процесс обучения.

Окружение — это среда, в которой действует агент. Оно может быть как физическим (например, комната для робота-пылесоса или тестовый полигон для машины с автопилотом), так и виртуальным (карта, по которой ходит персонаж компьютерной игры). Состояние — описание окружения в момент времени, понятное компьютеру. Агент — сущность, выполняющая действия в окружении. Например, программа, робот или нейросеть. Наконец, награда – это сигнал от окружения, который оценивает эффективность действий агента.

Меняя состояние окружения с помощью различных действий, агент получает награду, анализирует результаты своих действий и обновляет стратегию, чтобы улучшить будущие результаты. Это похоже на то, как шахматист продумывает свой следующий шаг, основываясь на ходах соперника и текущем состоянии доски. Уникальность такого подхода в том, что агент не просто учится на основе данных: он сам формирует их в процессе взаимодействия со средой.

Подробнее о пяти шагах в процессе обучения и о том, какой прорыв совершила программа AlphaGo благодаря RL, узнаете из полной версии статьи.

Время чтения: 8 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Как устроено закулисье современного интернета: подборка интервью «Системного Блока» 

Интернет — параллельный мир, в котором возникают новые культуры, формируется новый язык, разворачиваются ожесточенные словесные битвы. Он виртуален, но происходящее в нём напрямую влияет на реальную жизнь каждого из нас. Политика, буллинг, скорбь, торговля, флирт, преступления и благотворительность — как этот видимый хаос определяет нашу жизнь? Читайте в подборке интервью «Системного Блока», где интернет-исследователи делятся наблюдениями и опытом. 

«К идее разных интернетов мы пока не привыкли»: Полина Колозариди об исследованиях интернета

Часто вопросы, связанные с интернетом, на самом деле не про сам интернет, а про отношения между людьми, любовь, детские страхи, политику, приличия и так далее. Об этом в интервью «Системному Блоку» рассказывает интернет-исследовательница, рукводительница магтсратуры DH в ИТМО и со-основательница Клуба любителей интернета и общества, Полина Колозариди. Например, для подростков интернет это не технология, а скорее способ публичной жизни, они используют онлайн-площадки для того, чтобы фильтровать и лучше понимать свои круги общения. О том, чем и почему отличается интернет в разных городах России, сильно ли влияют на общество TikTok и Tinder, как стать интернет-исследователем и зачем это нужно, читайте в интервью

«Отличить бота от трамвайного хама»: Оксана Мороз о спорах в интернете, цифровом бессмертии и языке онлайн-скорби

Оксана Мороз, культуролог, исследователь цифровой среды, академический руководитель образовательной программы НИУ ВШЭ «Практики кураторства в современном искусстве», рассказала «Системному Блоку» об особенностях коммуникации в интернете. Например, о  том, что в онлайн-среде усиленно воспроизводится то, что характерно для офлайн-среды, поэтому в кризисных ситуациях люди особенно интенсивно спорят и возвращаются к архаичным моделям определения мира через своих и чужих. А ещё – об изменения в общении после 24 февраля 2022 года, эзопове языке, мутизме и коллективном интернет-горевании. Подробнее – в интервью.

«Виртуальные НКО — это будущее»: интервью с руководителем красноярского «Мемориала»*

Руководитель красноярского общества «Мемориал»*, а также один из первопроходцев Рунета Алексей Бабий занимается сохранением памяти о жертвах репрессий в Красноярском крае и развитием цифровой инфраструктуры красноярского «Мемориала». В интервью «Системному Блоку» Алексей рассказал, что может дать интернет гражданским активистам (спойлер: в 2005 году он помог остановить установку памятника Сталину благодаря большому информационному шуму), как опыт работы на советских ЭВМ 1970-х годов позволяет обеспечивать сохранность данных о репрессиях и почему современным «облачным НКО» не страшна ликвидация.

«Интернет-среда влияет на политическую активность»: интервью с Ольгой Гулевич


В 2021 году «Системный Блокъ» поговорил с психологом Ольгой Гулевич, профессором департамента психологии НИУ ВШЭ. Она рассказала, в частности, что термин «интернет-зависимость» появился ещё до соцсетей, её нельзя определить просто по количеству времени, которое человек проводит в интернете. Из интервью узнаете, по каким симптомам можно, а ещё –  чем кибербуллинг отличается от обычного буллинга, как пандемия повлияла на интернет, а интернет — на политические настроения.

*«Мемориал» в России официально ликвидирован решением суда

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Почему информацию надо спасать: проблема цифрового архива

Интернет создает ложное ощущение: всё, что мы выгрузили в сеть, останется там навсегда. На самом деле нет. Одни сервисы закрываются, и всё, что на них было опубликовано, пропадает, другие платформы страдают от утечек и проблем с серверами, третьи просто удаляют данные тех пользователей, которые долго не заходили в свой аккаунт. О том, как можно решить проблему архива в XXI веке, рассуждает доцент НИУ ВШЭ и соосновательница сообщества DHCLOUD Анастасия Бонч-Осмоловская

📎 Что будет с коллективной памятью

Мы ежесекундно создаём огромный цифровой архив человечества, но при этом непонятно, сложится ли из этого так коллективная память, без которой невозможно будет представить наше будущее.

Проблему сохранения воспоминаний в новую технологическую эпоху, когда документов очень много, а живут они очень недолго, впервые артикулировал в 1975 году архивист Джеральд Хэм. С тех пор проблема стала только острее. Сегодня мы создаем множество born digital документов, которые никогда не существовали в материальном виде, а сразу были созданы «в цифре». Про born digital говорят, что они одновременно перманентны и эфемерны: с одной стороны, «интернет помнит всё», и опубликованное однажды в интернете практически невозможно вывести из публичного поля, с другой — цифровые документы очень легко изменяются или становятся недоступными.

⛓️ Где хранится интернет

Первыми инициаторами цифровой архивации стали институты памяти — музеи, библиотеки, архивы. Например, в 1976 году был создан Окфордский текстовый архив. С развитием интернета достаточно быстро возникло понимание необходимости архивного хранилища сайтов — Интернет-архива. WaybackMachine, открытый в 1996 году, за это время вырос в огромное хранилище сайтов и документов, обнаруженных в сети.

🔗 Куда ведут ссылки

В 2017 году вышло исследование того, насколько актуальны ссылки на веб-ресурсы в научных статьях, опубликованных с 1997 до 2012 годы. Результаты были совершенно поразительны: более 75% веб-ресурсов, ссылки на которые имеются в научных статьях, изменили с тех пор свое содержание. Получается, что цифровизация фантастически ускоряет обмен научным знанием, но одновременно ставит под удар сам процесс его трансляции будущим поколениям ученых — то, что до сих пор считалось основой развития науки.

О том, важны ли архивы электронных переписок (спойлер: очень!), какую роль в создании архивов играет краудсорсинг и какую еще сыграет искусственный интеллект, узнаете из полной версии текста.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Музыкальная «энциклопедия русской жизни»: о чём пел русский рок и русский поп?

Как русскоязычная поп- и рок-музыка представляла пространство быта с 1990 по 2019 год? Что пили, ели и куда хотели поехать герои музыкальных текстов? Авторы исследования проанализировали корпус из 1129 популярных песен разных жанров — и получили неожиданные результаты.

🪗Что считать популярной музыкой?

За основу списка исследователи взяли ​​рейтинги музыкальных журналов, радио и телеканалов и просветительские материалы. Каждому исполнителю была приписана условная категория «поп» или «альтернатива». Для каждой декады (1990-е, 2000-е, 2010-е) было выбрано по 10 исполнителей из каждой категории, и от каждого в выборку попало около 20 песен. Так в списке оказались, например, Кино, Сплин, Леонид Агутин и Егор Крид.

🎤О чем поют в корпусе?

В музыкальных текстах в список самых частотных существительных  слова, связанные с описанием или выражением чувств: любовь, день, ночь, небо, сердце, свет, душа… Для сравнения, в обычных русских текстах (НКРЯ) эти слова не входят в топ 30 существительных, там вместо них год, человек, время, дело, жизнь... Самые частотные слова в песенном корпусе — местоимения. На первом месте — я, на втором — ты. В НКРЯ местоимение ты — лишь 33-е по частотности слово.

🎻Чем наполнен мир популярных песен?

Какие собственные имена встречаются в песнях? Исполнители часто упоминают типовые российские топонимы (Москву, Россию, Питер), а еще Нью-Йорк, Париж и Лондон … и самих себя. Это видно по списку имен собственных, в котором лидируют Настя, Потап и Каста. Ещё в мире постсоветсткой музыки много пьют и едят, особенно в текстах Касты и Ленинграда. В категории «еда и напитки», кстати, лидируют вино, водка, хлеб и кофе. Вино одинаково упоминается и в песнях жанра «поп» (19 раз), и в «альтернативе» (44 раза). А вот в упоминании водки «альтернатива» лидирует со счетом 25:3.

🎸Чем отличаются разные жанры?

Рэперы описывают весь мир сразу: их тексты в основном концентрируются на окружающей реальности, но часто выходят за ее пределы за счет множества культурных отсылок. Поп-музыка описывает путешествия и мечты своих героев о дальних странах — это места из реального мира, к которым действительно можно приблизиться. Русский рок описывает мистические переживания и больше говорит о внутренней стороне жизни.

Узнать подробнее о бытовом и сверхъественном в песнях разных исполнителях можно из полной версии статьи. А если хочется провести сделать собственные выводы, созданный корпус опубликован на платформе linghub.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Всемирная история картотек: как учёные и библиотекари пытались упорядочить всё

Зачем разрезать конспекты книги на полоски? Как крючки в шкафу заменяли библиотекарем теги? Антон Басов, сотрудник факультета компьютерных наук НИУ ВШЭ и исследователь истории науки и техники, рассказал об истории упорядочивания книг и изучил, как развивалась идея библиотечного каталога с XVI века и до наших дней.

Как возникла идея каталогов?

После изобретения книгопечатания мир пережил первый в истории информационный взрыв: количество напечатанных книг росло с 12,5 тысяч экземпляров в начале XVI века до 138 тысяч в его второй половине. Изменилось не только количество книг, но и их качество: кроме религиозной литературы, стали появляться греческие и римские философы, сочинения самих европейцев по всем вопросам. Это требовало создания «навигационных инструментов» для книжного мира.

Когда появился первый каталог?

Первый литературный каталог создал Конрад Геснер — швейцарский ботаник и зоолог Нового времени. Он выпустил две книги: Bibliotheca universalis, в которой упорядочена вся известная ему литература на латыни, греческом и иврите, и Pandectarum sive Partitionum Universalium, которая распределяет все книги из первой части по 21-й области знаний. Еще Геснер предложил такой метод: выписывать все важное на лист бумаги с новой строки, разрезать лист на полоски и сортировать в необходимом порядке.

Какие ещё были идеи?

Первый каталожный шкаф был создан Томасом Харрисоном примерно в 1640-м году и назван им Arca studiorum, «ковчег познания». Англичанин предложил выписывать факты на отдельные карточки, а затем сделать доску с крючками, каждый из которых соответствовал бы какому-либо ключевому слову. Карточки, связанные с тем или иным словом, вешались на соответствующий крючок.

А как же библиотечные каталоги?

Первый карточный каталог библиотеки создал Готфрид Лейбниц, один из главных европейских интеллектуалов XVII века. Лейбниц сделал каталог с помощью отдельных листков бумаги для каждой книги, рассортированных по предметам и авторам. После Лейбница понадобится ещё сто лет и череда случайностей, чтобы появился первый настоящий библиотечный карточный каталог.

Почему фрагменты знаний Геснера, записанные на полосках бумаги, отражали мировосприятие Нового времени? Какой известный ученый заинтересовался изобретением Харрисона? Обо всём этом и более подробно об истории каталогов книг, читайте в полной версии статьи.

Время чтения: 11 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Три гайда для востоковедов: китайский, корейский и японский

Многие задачи, связанные с автоматической обработкой текста, начинаются с токенизации — деления текста на слова (токены). Текст на русском языке, например, можно поделить на слова по пробелам, но что делать с японскими и китайскими текстами, где пробелов нет?

Одно из популярных решений — использование словаря, в котором прописаны леммы и их всевозможные словоформы, а также некоторые морфологические сведения. Такие словари лежат в основе библиотек из этой подборки. Рассказываем о них подробнее!

🇨🇳 Text-mining китайского языка: библиотека Jieba

Jieba — одна из самых популярных на сегодняшний день Python-библиотек для токенизации китайских текстов. Например, именно её использовали разработчики Яндекса, когда внедряли функцию перевода видео с китайского языка в браузере. Как с ней работать, узнаете из нашего гайда.

🇯🇵 Text-mining японского языка: библиотека fugashi

fugashi – библиотека, позволяющая самостоятельно провести токенизацию текстов на японском. Она способна не только определить наиболее вероятные границы слов, но также провести морфологический анализ и выделять именованные сущности. А ещё для неё можно скачать дополнительные словари: современный письменный, современный устный и одиннадцать видов словарей для классического японского. О том, как устроена fugashi и как ей пользоваться, узнаете из гайда.

🇰🇷 Text-mining корейского языка: библиотека koNLPy

Библиотека koNLPy выделяет токены, определяет морфемы и части речи. Для этого она предлагает пользователю пять методов: Kkma, Hannanum, Komoran, Mecab и Twitter. Все они отличаются по своему функционалу и подходят для решения разных задач. Подробнее об их особенностях и о том, как устроена работа в koNLPy узнаете из материала.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM