Цифровой филолог (Даня Скоринкин)
1.87K subscribers
91 photos
1 file
71 links
Digital Humanities, количественные методы анализа текстов, вычислительная филология, компьютерная лингвистика, бытование текстов, языка и литературы в эпоху чат-гопоты, умных машин и безумных людей
Ранее известен как Ебаный DH
Ведёт Даня @skorinkin
Download Telegram
(продолжение, начало выше)

Сердца нам шепчут в этот день

Любовь к ямбам повлияла и на частотности отдельных слов в стихах от GPT. При контрастивном сравнении лексики двух корпусов словами, наиболее характерными для GPT-поэзии, с большим отрывом оказались предлоги In и Upon — просто с них удобно начинать ямбические строки. Слово Upon — вообще идеальный ямбический предлог: два слога, второй ударный, занимает ровно одну стопу. Вот две первые строчки:

Upon this day, we sing the laborer’s song,... (GPT-4, сонет, тема: день труда)
Upon the chill of winter’s breath descends,... (GPT-4, белый стих, тема: ханука)

Среди более содержательных слов, отличающих GPT-поэзию от человеческой, оказались всякие патетические слова вроде behold (созерцать, часто в императиве: смотри!), всякая шаблонная романтика вроде heart (сердце) и embrace (обнимать), а также сравнительно «романтические» звуки: echo (эхо), whisper (шепот)… Это, кстати, отчасти перекликается с моим старым исследованием того, что GPT считает признаком литературности текста. Там тоже было слово echo, а еще melody, symphony, silent и прочие приглушенные пыльные красивости.

А еще GPT-модели оказались противницами индивидуализма. Они гораздо чаще, чем живые поэты, используют местоимение «мы» и его формы (нас, нам, нами), и гораздо реже — «я/мне/мной/меня». Авторы исследования считают, что модели приучали говорить более «инклюзивно», отсюда множественное число.

Окей, ChatGPT как поэт — посредственность, что с того?

Прошлой осенью много шума наделала статья в Nature о том, что люди предпочитают сгенерированную поэзию человеческой в слепом тесте. А это новое исследование, кажется, позволяет предположить, почему. Сгенерированная поэзия — куда более традиционная, шаблонная и привычная, чем поэзия живых поэтов, а мозгу нравится привычное и сложно от нового. Но вот филологам и профессиональным поэтам такое скучно. Позапрошлый век (буквально)

Как написал Артём Шеля:
“вы когда-нибудь задумывались о том, что самый выдающийся языковой инструмент, созданный человечеством, одновременно является самым посредственным поэтом, которого только видел мир?”

😆
55🔥21👍20
Кафкианская киберпанк-антиутопия с Госреальностью против хэппи-энда в тюрьме: как мы промптили писателя и ChatGPT сюжетом про студента и дипфейк

Дорогой подписчик Navi в комментах к посту про GPT-поэзию справедливо указал, что честным сравнением литературных талантов людей с талантами роботов было бы заставить поэтов-людей писать ровно по тем же инструкциям что писала нейросеть. Так мы убрали бы из эксперимента неравенство в интенциональности: у человека при написании текста есть какие-то более или менее осознанные устремления, а модели их сообщает промт-затравка, сконструированная исследователем.

Ученые в статье про поэзию так не делали — и понятно почему: ставить такой эксперимент в нужном масштабе долго и дорого. Вообще не факт, что найдется достаточное количество профессиональных поэтов, которые согласятся в таком участвовать. Но в меньших масштабах такие эксперименты возможны. И в одном из них я соучаствовал. Вместе с коллегами из издания “Подтекст” мы взяли один и тот же короткий набросок сюжета — и предложили его ChatGPT и живому петербургскому писателю Александру Сорге:

Порядочный преподаватель в университете со стажем работы более 20 лет отправил студента на пересдачу. Он всегда так делал, когда видел в студентах потенциал и хотел, чтобы они стремились к большему. Но этот студент был из числа тех, кто не просто обижается на преподавателя, но и готов отомстить ему за оценку «неудовлетворительно». Он создает видео дипфейк, где этот преподаватель пристает к одной из студенток у себя в кабинете. В итоге суд приговаривает его к шести годам заключения с лишением права на преподавательскую деятельность.


Что получилось у обоих авторов — можно почитать тут. А отличия были таковы:

🔭Точка зрения/перспектива: в тексте ChatGPT повествование ведется от третьего лица, а текст Сорге — это диалог. Живой диалог (как в драме) с живыми героями — прием, который по большому счету сделал роман королем литературы в 19 веке. Прямая речь дает читателю очень киношное ощущение присутствия на сцене. Но нейросеть как всегда оказалась унылым архаистом, построив весь текст в виде авторского повествования в третьем лице, вообще без прямой речи персонажей. Диалоговая форма — это уже слишком смело для ChatGPT: она по умолчанию пишет от третьего лица, а чтобы герои беседовали, ее нужно специально попросить, указав это в запросе. Играть с формой так же свободно, как писатель, нейросеть не может.

Время: ChatGPT написала весь рассказ строго в прошедшем времени. Это снова признак консервативного подхода к творчеству. Так написаны Библия, летописи, исторические хроники и другие «каноничные» во всех смыслах книги. Так же пишутся протоколы, научные статьи и другие сухие формальные тексты, предполагающие отстраненность от событий. Писатель же начал с использования настоящего времени («Мужчина сидит в большом черном кресле»), что создает эффект присутствия. И лишь по ходу диалога повествование неуловимо переключается на формы прошедшего времени: в одном фрагменте герой «парирует», а в следующем уже «вспылил». Далее повествование идет в прошедшем времени. Писатель снова смелее и свободнее обращается с текстом.

🌏Сюжет и художественная вселенная: ChatGPT просто по порядку изложила все, о чем ее просили, не создавая объемного мира вокруг. Фантазию модель проявила только в двух последних абзацах, описывая просветительскую деятельность героя в тюрьме и завершая драматичную историю на позитивной ноте (LLMки натаскивают на позитив). Писатель же создал киберпанк-антиутопию, перенеся историю преподавателя в кафкианский мир с виртуальной “Госреальностью” и цифровым судом. У ChatGPT никакой новой художественной вселенной не возникает: об этом надо просить явно.
👍25🔥177
(продолжение)

🚬 Атмосферные детали: и ChatGPT, и писатель вводят в рассказ похожие мелкие декорации: в сгенерированном рассказе тишину в университетской аудитории нарушает «лишь слегка вибрирующий шум кондиционера», а у Александра Сорге герои сидят на кухне, где «жужжит над столом одинокая лампочка». Похоже, такие детали а ля Дэвид Линч стали клишированными и их легко вынимают из общего «коллективного бессознательного» и люди, и нейросети.

Итого:
У писателя-человека получился емкий и погружающий в себя кусочек антиутопии, хотя и с шаблонными деталями. Нейросеть, в отличие от человека, не придумывает мир сама, она по умолчанию создает самый заурядный реалистичный сеттинг и конструирует его самыми стандартными литературными приемами: нарратив в третьем лице, прошедшее время и натужный хэппи энд в конце 🤡
29👍20🔥17🤔1
Лжежурналисты, Абатуров и ФСБ

Ненадолго вернемся к доносчику Ивану Абатурову. Он продолжает порождать тексты, воспроизводя в них дивный стиль своего фантома “Анны Коробковой”. На этот раз Абатуров написал у себя в ВК призыв жаловаться в ФСБ на издание It's My City. Начинается текст характерным коробковским заглавием «О [тех-то]»:

О лжежурналистах ликвидированного СМИ It's My City


Дальше Иван рассказывает, что в его городе творятся страшные вещи:

В Екатеринбурге звонят людям молодые личности, которые говорят, что они являются журналистами It's My City, и просят дать комментарий для СМИ.


Представьте, поднимаете вы трубку телефона — а там молодая личность… Это пострашнее гроба на колесиках. К счастью, у Абатурова есть оберег: выписка из реестра Роскомнадзора. Выписка говорит, что It's My City как СМИ ликвидировано, а следовательно, никаких журналистов быть не может:

Следовательно, прекращение деятельности It's My City означало, что все его журналисты перестали быть журналистами. Мне один из их сотрудников написал - мол они все равно якобы несмотря на прекращение лицензии остались журналистами. Разумеется, они перестали быть журналистами с момента прекращения действия лицензии. То есть их деятельность незаконна. Неизвестно, для какой цели и для какой организации они собирают информацию.


В мире Абатурова журналиста делает журналистом ярлык от Роскомнадзора. Ну как писателя в известные времена делал писателем членский билет СП, а все остальные были тунеядцами. Поэтому Абатуров призвал стучать на них в ФСБ, добавив сакраментальное русское «там разберутся»:

Как только такой лжежурналист (раз он журналистом по закону не является, а журналистом назвался, то он лжежурналист) Вам предлагает поговорить, то сообщите номер телефона, с которого он звонил, в ФСБ России. Там разберутся - по номеру можно легко их найти. В ФСБ России можно обратиться по электронной почте.


Из языковых примет Коробковой выше вы уже могли заметить
• слово „мол“ без запятых и после тире (Абатуров, как многие, ставит дефис, но функционально это тире): “написал - мол они”
• Начало нового предложения с “То есть“
• Вы с большой буквы в текстах, где это не является обращением к конкретному лицу

Ну и конечно, в той части, где Иван Абатуров излагает мораль и объясняет, какому коварному злу он противостоит своими доносами в ФСБ, появляется коронная формула Коробковой «Я против любого нарушения закона»:

Обратите внимание, что эти лжежурналисты It's My City вполне могли бы стать сотрудниками зарегистрированных СМИ, но похоже не захотели. Ведь зарегистрированное СМИ вынуждено нести ответственность за свои публикации. А к It's My City нельзя подать иск, если они Вам припишут то, что Вы не сказали. Потому, что юридически It's My City нет. Я против любого нарушения закона.


Мотивацию своих действий Иван представляет как самую благородную: он спасает людей, которые вдруг случайно станут жертвами страшных “лжежурналистов”. Ведь “если потом на сайте организации, чья деятельность в России запрещена, появится Ваше выступление, то Вы познакомитесь с правоохранительными органам”. И только ФСБ по наводке Абатурова и его команды смогут уберечь граждан от такой беды:

Не подумайте, что лжежурналисты It's My City преследуют хорошую цель. Они хотят любой ценой заработать гонорар, а что будет с тем, кто в их ложь поверил и им дал комментарий, их вообще не интересует. Только передачей на них сведений в ФСБ России можно заставить их прекратить вредить законопослушным гражданам.


Верный своему жизненному правилу «быть ходячей прокуратурой», Иван Абатуров даже предоставляет услугу «проверки» любых подозрительных журналистов:

Если к Вам кто-то обратится с рассказом, что он журналист, то можете мне написать - могу сообщить журналист ли он.


Глядя на Ивана, подумываю предложить аналогичную услугу. Если к вам кто-то обратится с рассказом, что он журналист Иван Абатуров, то можете мне написать — могу сообщить, что он доносчица Анна Коробкова😉
64😁31👍20👏7😱4🌚3🔥1
Тем временем в Потсдаме после примерно месяца тухлой апрельской погоды дали настоящий снег — и ваш ебобо-филолог забыл про все свои исследовательские, расследовательские и прочие там просветительские дела — и побежал принимать снеговые ванны!🛁 ❄️☃️😶‍🌫️

#не_про_dh
🔥8447🥰2319❤‍🔥5👍3🐳2👏1🤔1
Пушкин и геометрия, или Что бы еще посчитать в литературе?

Еще до появления "сферического коня в вакууме" Яков Перельман придумал "конический холм на равнине".
Демонстрируя широкий кругозор, он составил задачки еще и по Толстому и Шекспиру.

Перельман Я.И. Новый задачник по геометрии. 1925

*Ответ в первом комментарии.
❤‍🔥25🔥19👍11🤣11😁2
И тут я увидел ЭТО: компьютерный анализ текстов о встречах с НЛО 👽

Филология хороша тем, что её инструментарий применим далеко за пределами художественной литературы. И я сейчас даже не про кейс Абатурова 🙂 Любая история, любой изложенный кем-то нарратив может быть препарирован филологом. А если филолог программирующий (вот как я) — он еще и попытается автоматизировать и масштабировать свой анализ 🤖

На последней конференции Computational Humanities Research в датском Орхусе я слушал доклад ученых из Дрездена о поиске «сюжетного поворота» (turning point) в рассказах о встречах с НЛО 🛸 Рассказы о встречах с НЛО хороши своей регулярной двучастной структурой: сначала идет вступление, где все обычно и нормально, а потом БДЫЩ💥 — и переход к необычному / паранормальному. И конечно, компьютерные филологи не были бы компьютерными филологами, если бы не попытались научиться распознавать этот БДЫЩ переход автоматически, а также понять, какие формальные признаки его сопровождают.

Откуда взялись тексты про НЛО?

Ученые взяли тексты с сайта UFO Stalker, где на тот момент было больше 110 тысяч историй о неопознанных объектах в небе. Сейчас их там еще больше — сайт пополняется почти ежедневно. Вот, например, чье-то свидетельство из Англии от 2 марта 2025 (сегодня!), время — 3 часа утра:

sat in garden at 2/3am this morning, saw a cluster of lights appear that suddenly became clear it was in a formation, it almost loooked like a bird or "dragon" and had looked like it had lights on the underneath. was moving way too fast and way too low to be a plane, which i observe here daily.


(кстати, не могу не восхититься обилием метаданных к каждой истории. Тут есть поля для описания формы объекта, траектории полета, предполагаемого удаления от наблюдателя, продолжительности наблюдения, предполагаемой высоты над землей…)

Авторы исследования, правда, метаданные особо не трогали и сосредоточились на текстах. Они сделали случайную выборку в 496 текстов, разметили в них то самое предложение, где происходит переход к описанию появления НЛО, потом сделали автоматическую морфосинтаксическую разметку с помощью пакета Stanza — и изучили, чем эти предложения статистически отличаются от прочих. А еще натренировали модели логистической регрессии предсказывать вероятность того, что предложение является поворотным — чтобы посмотреть, какие признаки будут повышать вероятность.

И что получилось?

Во-первых: turning-point-предложения обычно появляются в относительном начале текста. Истории бывают длинными (свыше 80 предложений), их медианная длина — 12 предложений, но поворотный момент почти всегда происходит в первых 10-20% текста.

Во-вторых, в «поворотных предложениях» аномально часто встречается наречие времени «когда» (when_ADV): примерно в 4 раза чаще, чем в прочих. Информация о наличии этого наречия повышала вероятность в предсказании регрессионной модели (например, для предложений в начале текста вероятность поднималась примерно с 35% до 65%). А вот наречие «тогда» (then) и другой вариант когда (предлог «as») такого эффекта не дают, хотя тоже часто встречаются при описании turning-point.

So what? / И чо? / Und jetzt? 🤔

Вы конечно спросите, зачем это надо? Я думаю, тут, как часто бывает в Digital Humanities, важнее не конкретный объект исследования, а поиски метода. Как пишут сами авторы, их интересует computational modeling of narratives, т.е. моделирование того, как люди рассказывают истории, как в них передается саспенс и внезапный поворот. А это, согласитесь, актуально и для сценариста сериала на Нетфликсе, и для ютубера, и для автора предвыборного ролика…
46👍27👾20😁9🔥5🤔2
Сколько статей пишут о Пушкине каждый год? Чем отличается образ Пушкина в учебниках, в медиа и в науке? Как ученые используют цифровые коллекции пушкинских текстов? Зачем нужен проект Пушкин ⟨цифровой⟩?

Жизнь классики в цифровом пространстве — давно волнующая меня тема (я какое-то время занимался цифровой реинкарнацией текстов Льва Толстого), а вот в пятницу 7 марта будет по этой теме мероприятие в Digital-Humanities-центре ИТМО, вокруг проекта Пушкин цифровой. Пишут, что можно заглянуть онлайн без регистрации и СМС 💁‍♂️

🗓7 марта, пятница

🕐13:00
мск

📍DH-центр ИТМО (Санкт-Петербург, Биржевая, 16) и онлайн

——

Чтобы прийти в DH-центр ИТМО очно, надо зарегистрироваться по ссылке.

Для онлайн-слушателей регистрация не обязательна, ко встрече можно сразу подключиться здесь
19👍1👀1
На днях будет 3 года моей работы в Потсдаме. Поэтому пост не о науке, а о жизни цифрового филолога. Расскажу о своем опыте существования в немецкой академии: плюсы, минусы, подводные камни🙂 М.б. кому-то эта перспектива поможет понять что вам это не надо что-то о себе. Поехали:

1. Плюсы немецкой академической жизни на контрасте с московской (NB: Москва — не Россия)

· Нет авралов. За эти 3 года я разучился работать по ночам (особенно когда кончил преподавать в Вышке удаленно) и научился отдыхать в выходные. В немецкой академии всё делают сильно заранее. Приглашая человека провести у вас лекцию через год, вы можете выяснить, что его расписание “на через год” уже расписано. В апреле я сам провожу школу по Digital Humanties — и преподавателей я начал звать еще прошлой весной! А летом для них уже были забронированы отели.

· Человечность в обществе и в академии. Германия в целом после Москвы поражает тем, сколько внимания уделяется ивалидам, людям с особенностями, их семьям, маломобильным и незрячим и т.п. Люди в инвалидных колясках сами ходят в супермаркеты, ездят на автобусах, выходят на демонстрации, приезжают на конференции… На некоторых конференциях организуют и бэбиситтеров для детей участников. В декрет уходят и матери, и отцы, у них общий срок на двоих. В университетских туалетах лежат бесплатные тампоны и прокладки. Студенты сами организуют службы психподдержки…

· Чистая природа. Только в Германии я понял, как грязны парки и леса Москвы и Подмосковья. В Москве с её киберпанковым шармом круто жить, но за природой придется пилить километров 200. Здесь леса с косулями, зайцами и белками встроены в городские кварталы и университетские кампусы (не только в Потсдаме) Можно иметь хорошую квалифицированную работу — и потом идти в лес к зверушкам (прямо сейчас пишу этот пост в университете, а за окном на ветку дуба сел большой зеленый дятел).

2. Минусы

· Все медленно. Обратная сторона плюса номер 1. В Москве все двигаются быстрее, проекты растут в телеграм-чатиках в режиме 24/7, а не от зума к зуму раз в 3 недели. В немецкой академии вместо нормального проектного менеджмента часто происходят бесконечные заседания и стенограммы.

· Консерватизм. Хотя Россия иногда пытается изображать “оплот традиционных ценностей”, это, конечно, чистый постмодернистский китч. Наши “традиции” придуманы/переизобретены позавчера и никто за них крепко не держится, при необходимости переобувание мгновенное. А вот в немецкой академии можно встретить настоящий глубинный консерватизм. Отсюда куда более строгое отношение к дисциплинарным границам и вера в свою колею. Многие местные студенты свято верят, что как гуманитарии должны исключительно ходить с тетрадочкой в библиотеку, а к компьютеру относиться как к дьявольскому наущению. Вместо энтузиазма, который я видел рассказывая про Digital Humanities гуманитарным студентам в Москве, здесь я чаще вижу вежливое недоумение и испуг. Еще в Германии для большинства работ важен формальный диплом по специальности — вера в степени и формальные квалификации очень высока. Чтобы работать в библиотеке, надо отучиться на библиотекаря и т.д.

· Датеншутц как религия. Немцы очень боятся за свои данные. Немец спокойно купается голым на глазах у всего города, но не хочет заводить аккаунт в Google, т.к. данные уйдут американским капиталистам. Электронные госуслуги? Нет, это опасно, примите пожалуйста 20 бумажных писем. Почтальон не нашел ваш адрес? Хм, жаль, ведь в этом письме был ваш рабочий договор, а в следующем — зарплатная карта😅 Те самые гуманитарные студенты не хотят пользоваться ChatGPT для разметки, потому что “а вдруг журналы 1956 года, которые я исследую, содержат персональные данные”? Datenschutz — национальная паранойя, и как с этим жить 21й век — неясно.

3. Небольшое Итого/ Fazit

Думаю, мне нужно было вырваться из московского беличьего колеса сюда. Я выехал из “колеи” в “лес”, расширил горизонты, а еще стал добрее. Москва с её темпами и достигаторством ожесточает — здесь же снова вспоминаешь, что вокруг люди и они важнее метрик и KPI. Но застрять здесь на много лет я бы все еще не хотел.
138👍32👏10🦄6🤔1
Мем с курящим траву Илоном Маском, поверх которого тут был наложен Ю.М. Лотман, плохо состарился (как и сам Илон Маск и все, что с ним связано), поэтому уберем его, наконец.. Пусть тут лучше сверкает мой еблет, так хотя бы вы знаете, что за каналом стоит (сидит, лежит) конкретный живой человек Даня Скоринкин
132❤‍🔥41👍37🔥17😁8
Как LLM помогают жить цифровому филологу? Маленький пример. Для предстоящего научпоп-выступления (кстати, заходите, кто в Берлине) понадобилось мне такая картинка: романы Толстого и Достоевского — в виде точек в трехмерном пространстве, где координаты X, Y и Z — это частотности самых частотных слов в этом небольшом наборе текстов (в данном случае это “И”, “ОН” и “В”). Частотности уже были, вопрос именно визуализации. Раньше я б минут 20 этот код писал и еще минут 40 отлаживал до нужного результата. А теперь один промт, один уточняющий промт — и готово!

P.S. Цель всего упражнения — показать, что уже начиная с 3-4 признаков частотности слов начинают потихоньку группировать тексты по автору (см. вторую картинку). Хотя казалось бы, что может сказать нам статистика слова “И”? А вот может. И такие быстрые демки делать ллм-ками — одно удовольствие
🔥4920👍5🤔2
Дата-журналистика на Волге этим летом

На мой взгляд, самые симпатичные формы образования в современной России — подпольные, независимые и катакомбные. Вот, например, Летняя школа. В этом году наш маленький, но гордый дижитал-медиа-балаган “Системный Блокъ” снова делает там мастерскую по дата-журналистике. Вместе с нами мастерскую делают крутейшая дата-художница Надя Андрианова, команда “Ночлежки”, команда “Если быть точным”, журнал Кот Шредингера, человек-оркестр Илья Воронцов, команда Центра научной коммуникации ИТМО… Всех и не перечислить. Подавайтеcь, приезжайте, сами увидите. Цифровым филологам, конечно, тоже рекомендуется!

Что будет:
Две недели, с 19 июля по 3 августа, участники мастерской будут жить в палатках на берегу Волги (между Дубной и Кимрами) и учиться создавать истории на основе данных.

Первая неделя — лекции про дата-журналистику, анализ данных, визуализацию и дата-арт. Вторая неделя — проектная работа, дата-материалы на основе реальных данных от партнёров (Ночлежки, Кота Шрёдингера и др.).

После школы тексты можно доработать и опубликовать (например, после ЛШ-2024 вышел спецпроект про школьную программу по литературе и её удивительные метаморфозы в 20-21 веках).

Еще на летней школе принято сидеть у костра, поражаться красоте волжских закатов и танцевать на дискотеках 🏕🌅🕺

Кого ждём: опытных и начинающих журналистов, программистов, визуализаторов и всех, кто хочет лучше разобраться в дата-журналистике.

Как попасть: до 18 мая подать заявку и выполнить тестовое задание.

Более подробно можно прочитать вот тут.
❤‍🔥3614🔥11👍4🎉3
«Тихий Дон» и стилометрия: что говорят о Шолохове количественные методы атрибуции авторства

Каждый раз, когда я рассказываю о стилометрии русскоязычной аудитории, первым прилетает один и тот же вопрос: «а что Шолохов? Писал он “Тихий Дон” или нет?». Даже в этом канале этот вопрос поднимали минимум трижды под разными постами. Я решил вспомнить историю применения статистических методов к «Шолоховскому вопросу» и суммировать то, что мы знаем из работ современных стилометристов по атрибуции авторства «Тихого Дона». А также еще разок воспроизвел их эксперименты сам.

Краткое содержание:

1-2. Введение в Шолохово-срач
Для тех, кто пропустил историю этого 100-летнего холивара 😅

3. Как к Шолохову пытались применять «точные методы»
И почему они не дали никакой точности ¯\_(ツ)_/¯

4. Что меняет (и чего не меняет) появление современной «универсальной» стилометрии и метода Delta
Спойлер: у стилометристов есть более-менее консенсус, но «Шолоховского вопроса» он не закрывает и вряд ли когда-нибудь закроет.

Полный текст с картинками, описанием выдающихся фейлов и воспроизведением стилометрических экспериментов — по ссылке: https://sysblok.ru/blog/blog_danil_skorinkin/tihij-don-i-stilometrija-chto-govorjat-o-sholohovskom-voprose-kolichestvennye-metody/
🔥62👍2218🤔5
Кстати о стилометрии: недавно я побывал на могиле человека, который придумал это слово. Могила находится в Кракове, куда я ездил участвовать в дигитально-филологической конференции Text Encoding Initiative. Надгробие, как можно увидеть на фото, необычное, и лежащий под ним человек был необычный. Философ-метафизик, большой фанат Платона, дипломированный химик, первый польский йог, а еще сотрудник полутора десятка университетов от Казани (из которой я пишу сейчас этот текст) и до Парижа... Все это — Винценты Лютославский. Читайте краткую летопись его жизни и приключений ниже ⬇️
45👀65🔥2
Жизнь и приключения стилометриста Лютославского

Винценты Лютославский прожил 91 год (как говорит Екатерина Михайловна Шульман, "мы очень любим, когда ученые живут долго"). Родился в 1863-м в Варшаве в тогдашнем Царстве Польском Российской Империи, а умер в 1954-м в Кракове в тогдашней социалистической Польше. Между этими датами уместились:

— Учеба в Дерптском (Тартуском) университете одновременно на философа и на химика (1883-1885)
— Женитьба на испанской писательнице Софии Казановой (1886)
— Переезд в Казань по приглашению знаменитого лингвиста Ивана Александровича Бодуэна де Куртене (вопреки своей фамилии, тоже поляка) и работа в Казанском университете (1889-1893). Недавно коллега Борис Валерьевич Орехов с сожалением отмечал, что Лютославский совсем чуть-чуть разминулся там с Лениным.
— Написание работы Principes de stylométrie (впервые 1890), где на французском излагалась идея подсчитывать частотность некоторых служебных слов и грамматических конструкций в текстах Платона для их датировки
— Написание более объемной англоязычной монографии о Платоне, где излагался "Method of Stylometry" все с той же целью датировки диалогов (1897)
— Защита диссертации по философии в Университете Хельсинки (1898); примечательно, сколько не-центральных университетов Российской империи есть в этой биографии.
— Краткий период преподавания в Кракове и уход из-за конфликта с австро-венгерскими властями (Лютославский довольно явно выступал за независимость Польши).
— Основание одной из организаций польского национального возрождения, которая была больше похожа на монашеский орден — там проповедовались аскетизм, воздержание, трезвость и т.д. (1903)
— Написание первой книги по йоге на польском (1904)
— Преподавание в University College London (1904-1906)
— Создание шелтера для поляков-эмигрантов в Швейцарии под названием Kuźnica ("Кузница") и преподавание в Университете Женевы (1912-1916)
— Участие в Парижской мирной конференции вместе с польской делегацией, в которой, как говорят, особенно ценили его свободный английский (1919)
— Преподавание и профессорство в Университете Стефана Батория в тогда еще польском Вильно (1919-1929)
— Переезд в Париж (1931)
— Окончательный переезд в Краков (1934), где Лютославский проведет оставшиеся 20 лет жизни.

После войны в 1946-48 годах он еще успел почитать лекции в Ягеллонском университете Кракова — том самом, из которого его выжили австро-венгерские власти за четыре десятилетия до этого. Но и новая администрация в послевоенной социалистической Польше видеть Лютославского в числе своей профессуры не захотела. Он умер в декабре 1954 года, формально в родной Польше, но фактически — в глубокой внутренней эмиграции. Впрочем, для такого вечного эмигранта и ученого-передвижника, каким был всю жизнь Лютославский, это как будто бы и органично.
🔥3928👏8👍4
Как меня взяли работать в европейский грант, а потом послали по причине “недостаточно хороший русский” (по версии эстонских спецслужб)
История личная, но имеющая отношение к цифровой филологии

Сегодня я должен был начать свой 5-летний контракт в проекте Digital Text Scholarship под руководством создателя Stylo Мацея Эдера. Проекте, в который меня сначала торжественно взяли в июле после многоступенчатого отбора (42 человека на 3 места), а потом не менее торжественно послали на хер в конце августа… потому что эстонская служба безопасности сказала, что у меня свежие статьи с русскими учеными ¯\_(ツ)_/¯

• Весной несколько человек скинули мне вакансию Research Fellow в проекте Digital Text Scholarship(DigiTS). Описание было 100% про меня: количественное литературоведение + компьютерная лингвистика. Команда обещала быть крутой — руководил всем автор Stylo Мацей Эдер, сильный ученый, с которым я был бы рад поработать.
• В июне я подался, подсобрав статьи, сделав презу и для надежности взяв отзыв у своего немецкого шефа, с которым Эдер знаком.
• В июле 11 кандидатов из “шортлиста” позвали на собеседование. Удачным образом ровно перед собесом я выступал на ивентах, где был будущий руководитель проекта, а за 2 дня до — играл в бильярд с профессоркой, которая была у них “внешним экспертом” (так вышло😅)
• На собеседовании чувствовалось, что мы друг другу понравились. Вижн руководителя и мои мечты совпадали: нам обоим хотелось приходить в Лабу, где сидят умные люди, и придумывать там интересные штуки. Еще я, начитавшись твиттера, спросил, как они видят успех проекта через 5 лет, и мне понравился ответ.
• Мои ответы, видимо, тоже понравились, т.к. через неделю пришло письмо со словами “We are happy to let you know the DigiTS team has chosen you as one of the three Digital Humanities Research Fellows” и т.д.
• Одновременно мне сказали, мол давай-ка сделаем с тобой отдельный зум, потому что мы в душé не знаем, как тебя нанимать с твоим паспортом. Администраторы проекта стали наводить справки с HR, а я — с миграционной службой Эстонии и с друзьями из Тарту.
• К созвону мы уже хорошо понимали, что на визу/ВНЖ надежды нет: их сейчас плохо дают даже тем россиянам, кто имеет в Эстонии семьи и живет там много лет.
• Но мы быстро придумали, что вообще-то и не нужно меня релоцировать: в Европе ученый, живущий в одной стране, а работающий в другой — не редкость (лично знаю профессора в Потсдаме, живущего в Риге, и профессора в Люксембурге, живущего в Берлине). Это чуть портило мечту “приходить в Лабу”, но не сильно, учитывая, что я был готов часто приезжать. К тому же еще один участник договорился жить так же, деля время между Тарту и Будапештом. Поэтому сложился план взять меня на 50% ставки, оставить мне 50% работы в Потсдаме и съесть таким путем всех рыбок 🎣
• В конце июля руководитель проекта торжественно представил нас всех друг другу. Одного человека я хорошо знал, поэтому написал что-то типа “ну бро я знал, что мы однажды поработаем вместе”. Как говорится, I couldn’t be more wrong😅
• В августе мне написали и попросили “a PDF from GosUslug”(sic!), а именно справку из СФР о местах работы. Мол, чтобы убедиться, что я сейчас не работаю в вузах РФ. Интересно, подумал я, Эстония принимает справки с российских “Госуслуг”…
• Но поудивляться я не успел, т.к. через неделю наступила развязка. Мне написал руководитель проекта. Письмо называлось “Bad news”, а внутри он писал, что ему запретили брать меня даже в part-time режиме из Германии. Дальше шла цитата из эйчаров: “The reason being he has a recent (2025) publication with someone from a Russian university. KAPO (Estonian Internal Security Service) as well as the university view it so that if we hire a researcher who is collaborating with a Russian university then = the University of Tartu is collaborating with a Russian university”.
• Конкретную публикацию мне не привели, но, видимо, это глава в Оксфордском сборнике про реализм, куда меня with someone from a Russian university (кстати подпишитесь на этого прекрасного someone!) позвали составители из Оксфорда.
• Морали не будет🙂
💔148🤡63😢27🤬1310😭10😱6😡4😁1🗿1
Из Москвы в Петербург, из Киева — в Париж: куда переехала русская литература в 19 веке?

Вернемся к настоящей цифровой филологии. Расскажу про ту самую работу, за которую меня признали “нехорошим русским” 😈 Там мы с Б.В. всячески тыкали цифровыми методами корпус из 500+ русских романов и повестей XIX века, условно поделив его на романтизм (1801–1840) и реализм (1845–1890). Моя любимая часть рисерча — географическая 🗺 Мы посмотрели, какие топонимы (города, страны и т.д.) резко растут/падают в относительной частотности при переходе из условного “романтизма” в условный “реализм”. Результаты примерно такие:

— Очень сильно подпрыгивает Петербург (было в 2.5 раза меньше Москвы, стало почти вровень)📈
— Очень сильно падает Украина (Киев, Днепр, Полтава, Запорожье), Польша (Варшава, Краков) и Балтика (Нарва)📉
— С ними же падает и “историческая” Россия (Новгород, Углич, ну и собственно Москва)📉
— Растет Западная Европа (города: Париж, Рим, Вена, Берлин; страны: Франция, Англия, Австрия, Швейцария)📈
— Растет восточная и южная “периферия” Российской империи: Сибирь, Казань, Астрахань, Урал, Одесса, Крым, Турция (последние 2 исключительно из-за Крымской войны) 📈

В общем, кажется, тут неплохо видно, как русская литература выходит из “исторической” колыбели в современность второй половины XIX века. Восточно-европейская топонимика в “романтическом” подкорпусе — это в основном исторические романы о Киевской Руси, о Смуте и польском вторжении, а также о войнах со шведами и ливонцами. Отсюда же и исторические русские города. Во второй половине XIX века удельный вес этой исторической прозы в русской литературе падает — важнее становится Санкт-Петербург как место действия современных героев (персонажей Достоевского, Гончарова, Толстого и прочих), Западная Европа (там персонажи тоже много бывают, теперь это несложно, есть поезда, пароходы и прочие достижения технического прогресса; а еще появились международная почта и телеграф), Причерноморье как место действия современных войн и некоторые точки нового военно-экономическго фронтира (Сибирь, Урал, Нижняя Волга).

P.S. Исследование было сделано быстро и с высокой степенью автоматизации, оно во многом “разведочное”, и у него есть слабые стороны. Во-первых, корпус 1801–1840 сильно меньше корпуса 1845–1890: 6 млн против 41 млн словоупотреблений. Мы считали относительные частотности, то есть нормировали на объем, но ясно, что общий размер корпуса всё равно влияет как минимум на разнообразие географии и полностью починить это сложно. Во-вторых, мы никак не учитываем функцию упоминания топонима: является ли он реальным местом действия или просто упоминается в духе знаменитого “острова Мадагаскар” в устах Наташи Ростовой в “Войне и мире”. Тут мы надеемся на то, что если действие реально происходит в месте [Х], то это сказывается на его частотности (судя по Петербургу, это так). В-третьих, вообще непонятно, остается ли тут смысл говорить про “романтизм” как направление, или мы просто сравнили корпус, где много исторических романов, с корпусом, где много романов реалистических… Есть и другие слабые стороны. Как написано на могиле Станислава Лема в Кракове, “Feci quod potui, faciant meliora potentes” 🤝

P.P.S. Не знаю почему этот пост нельзя комментировать 🤷 Пишите в чатик канала что ли.
23👍12🔥12👀2