Системный Блокъ
10.8K subscribers
241 photos
2 videos
1 file
845 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
Download Telegram
Пионеры нейросетей и глубинного обучения получили Нобелевскую премию по физике

Нобелевский комитет в Стокгольме объявил лауреатов Нобелевской премии 2024 года по физике. Ими стали «крестный отец диплернинга» Джеффри Хинтон и Джон Хопфилд, создатель нейронных «сетей Хопфилда». Оба исследователя занимались нейронными сетями с 1980-х годов. При этом нейросетевые алгоритмы десятилетиями оставались маргинальной областью машинного обучения, многие считали их тупиковым и бесперспективным направлением. Благодаря деятельности таких ученых, как Хинтон и Хопфилд, исследования нейросетей продолжались и привели к расцвету LLM в наши дни.

Хотя заслуги обоих исследователей в области искусственного интеллекта и компьютерных наук не вызывают сомнений, в научном сообществе уже идут горячие споры о том, уместно ли вручать за эти заслуги Нобелевскую премию по физике. Вероятно, решение комитета продиктовано тем, что исторически Нобелевская премия не имеет математической номинации, и физика была единственной номинацией, с которой получилось связать работу Хинтона и Хопфилда. В любом случае, мы как энтузиасты развития машинного обучения и искусственного интеллекта поздравляем всю эту область с таким признанием.

А если вам интересно, за что вообще дают “нобелевки”, где нужно родиться, в каком университете работать и до скольких лет ждать, чтобы получить признание Нобелевского комитета, то можете перечитать наше прошлогоднее дата-исследование:

https://sysblok.ru/visual/recept-nobelevskoj-premii-issleduem-otkrytye-dannye-o-laureatah/

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Все художественные тексты похожи друг на друга: как сюжетные тенденции выражаются на уровне слов 

Герой покидает дом в поисках чего-то ценного. Герой находит большую любовь в конце истории или, наоборот, трагически погибает. Таинственный незнакомец приносит вести, становящиеся фундаментом для завязки сюжета. Вы наверняка встречали такие ходы во множестве сюжетов. А как выглядит «усреднённая» история? Существуют ли слова, которые наиболее характерны для завязки или финала книги? Попробуем разобраться, используя методы цифровой гуманитаристики!

Кратко: о чем статья?

Вы наверняка слышали о формуле волшебной сказки от Владимира Проппа, четырех типах сюжетов Хорхе Борхеса или 36-ти драматических ситуациях Жоржа Польти. Все они изучали сходства сюжетов художественных произведений. 

Современные исследователи, Бен Шмидт и Дэвид Макклюр, задавались похожими вопросами, но применяли методы цифровой гуманитаристики. Мы решили последовать их примеру и изучить корпус русскоязычной художественной литературы, собранный в рамках проекта СОЦИОЛИТ, в котором можно найти тексты от Карамзина до Солженицына. 

Оказалось, что русскоязычные и англоязычные тексты очень во многом похожи: и те, и другие произведения чаще всего начинаются с описания «характеристик» героев, семейных обстоятельств и места жительства. Зато вероятность найти любовь или погибнуть заметно возрастает к концу текста. Удивительно, но даже на месте очень частотного русскоязычного «гостя» возникает англоязычный stranger. Это выглядит так, что в европейском лингвокультурном коде есть единое понимание того, что может являться завязкой сюжета и наиболее интересно читателю, а что тяготеет к драматичному финалу или развязке произведения.

Проследить за ходом исследования и посмотреть, в какой части текста чаще встречается «лошадь», а в какой – «Россия», можно благодаря полной версии материала.

Время чтения: 10 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Как делать большую науку в бесконечном бегстве: Роман Якобсон vs XX век

Сегодня день рождения Романа Якобсона — человека невероятной судьбы, одного из главных русских лингвистов XX века и настоящего гражданина мира. Постоянная вынужденная миграция не помешала Якобсону развивать фонологию, исследовать русский авангард, заниматься сербо-хорватским эпосом, изучать нейрофизиологические нарушения речи и создавать работы, которые окажут влияние на Леви-Стросса. Вспоминаем его биографию в нашей статье.

Кратко: о чем статья?

Якобсон родился в 1896 году и уже в 19 лет стал сооснователем Московского лингвистического кружка. В нём обсуждали проблемы теории и истории литературы, теории и истории языка, следили за всеми достижениями западноевропейской лингвистики.

В 1920-х годах Якобсон эмигрировал в Прагу и продолжил заниматься наукой там. В конце 1930-х, когда город был оккупирован нацистами, Якобсон пытался получить документы на выезд в Данию и писал, что хотел бы использовать месяцы в Копенгагене, чтобы закончить свою книгу о структуре и классификации фонем. В 1941 добрался до Нью-Йорка, где стал соучредителем… Нью-Йоркского лингвистического кружка. А затем преподавал в Гарвардском университете и Массачусетском технологическом институте.

Якобсон продолжал работать над исследованиями независимо от своего местоположения и проблем, которые ему преподносила история XX века. Подробнее о его работе и её обстоятельствах узнаете из полного текста материала.

Время чтения: 13 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Что изучают антропологи в интернете? Подборка материалов «Системного Блока»

Развитие интернета и цифровых технологий открыло новое поле исследований для антропологов. Учёные осознали, что в онлайн-среде формируются уникальные сообщества, культуры и практики, которые можно и нужно изучать. 

Публикуем подборку наших материалов о цифровой антропологии. Из неё вы узнаете, какие методы можно применить к исследованию интернет-пространства, как за последние 40 лет изменились интернет-интерфейсы и зачем собирать слухи в соцсетях?

Этнография в цифровую эпоху: от полей к потокам, от описаний к воздействию

Для начала погрузимся в общие проблемы цифровой антропологии и этнографии и почитаем статью профессора информационных наук Аннет Маркхам. Она специализируется на изучении цифровых пространств и предлагает исследователям новые понятия и методы для работы с онлайн-средой. Несмотря на доступность больших данных и популярность количественных исследований, она подчеркивает важность качественных методов и объясняет, как важно сохранить чувствительность к человеческим голосам и культурам в условиях цифровизации. Мы наблюдаем новые перспективы в цифровой этнографии, где традиционные подходы переплетаются с инновационными методами исследования, пишет Маркхам.

Интернет как способ существования и Big Data как угроза

Во второй части статьи профессор Аннет Маркхам углубляется в опасности, которые несет «датафикация» человеческого опыта. Хотя большие данные и полезны для анализа сложных социальных процессов, важно помнить о культурных и локализованных смыслах, которые могут ускользнуть при чрезмерном увлечении цифрами. Маркхам призывает учёных к социальной ответственности, особенно в тех случаях, когда исследователи консультируют индустрию IT. Ведь технологии могут не только улучшать, но и ограничивать нашу жизнь.

«Цифровой антрополог отличается от Data Scientist’а вниманием к деталям»


В интервью «Системному Блоку» заместитель руководителя Центра городской антропологии КБ «Стрелка» Дарья Радченко рассказывает, как пандемия COVID-19 изменила повседневные практики людей и оставила свои следы в цифровом пространстве. Используя данные из соцсетей, она показывает, как люди заново открыли для себя свои спальные районы во время самоизоляции, и размышляет над ограничениями Data Science в социальных исследованиях. 

Зачем фольклористы и социальные антропологи собирают слухи и считают репосты

В завершение подборки — интервью Александры Архиповой (признана иноагентом в РФ), в котором она раскрывает ещё одну грань цифровой антропологии — сбор слухов и исследование конспирологических теорий. Архипова объясняет, как цифровые базы данных помогают в исследовании фольклора и почему важно учитывать как количественные, так и качественные методы. Она приводит примеры из повседневной жизни: лозунги митингующих, народные рецепты лечения COVID-19 — и подчеркивает, насколько многослойными могут быть цифровые и социальные феномены. Этот материал позволяет взглянуть на антропологию через призму современной культуры и социальных изменений.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Знаете ли вы термины машинного обучения?

Проверяем вместе с сегодняшним опросом. В коротком описании мы заменили на Х один из ключевых терминов машинного обучения. Постарайтесь догадаться, что мы здесь зашифровали, а вечером мы расскажем не только об Х, но и о четырех других важных понятиях.

Описание:


Х — это набор данных, который используется для обучения или анализа модели. Х содержит входные данные и — опционально — выходные данные, которые модель должна предсказать. В случае, когда выходные данные присутствуют, их называют разметкой, а саму Х — размеченной. 

Примеры Х с разметкой: изображения цветов и их названия, песни и их жанры, аудиодорожки и их расшифровки.

Примеры Х без разметки: списки просмотренных видео пользователей YouTube, набор текстов одного писателя.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Какое слово мы спрятали под Х в посте выше?
Anonymous Quiz
3%
лемматизация
16%
генеральная совокупность
73%
выборка
8%
кластеризация
5 слов машинного обучения

Объясняем основные термины машинного обучения из глоссария «Системного Блока». Из первой части материала узнаете о языковых моделях, нейросетях и выборках, на которых их обучают.

Машинное обучение 

Машинное обучение — это набор методов, которые позволяют компьютеру решать задачи, не используя заранее заданный человеком алгоритм решения. Например, машинное обучение позволяет обучить компьютер отличать кошек от собак на фотографиях, хотя у компьютера нет конкретных инструкций, вроде «если есть острые уши и усы, то это кошка».

Вместо инструкций и правил компьютеру «показывают» много разных примеров с ответами. В случае с классификацией животных образцом будет изображение кошки или собаки с правильным названием объекта.

Когда компьютеру показывают примеры, он обучается извлекать из них не только все необходимые закономерности, но и информацию о том, как использовать эти закономерности для решения задачи. Машинное обучение изучает методы обучения. Набор примеров образует выборку, а результатом процесса обучения является обученная модель.

Модель

Модель — это математическое описание зависимости между входными данными и выходными. В задаче классификации кошек и собак входные данные — это изображение, а выходные данные — название животного на изображении. Другой пример: входные данные — дата, выходные данные — температура воздуха в этот день. 

Есть много способов описывать зависимости математически. Каждый способ имеет определённые свойства и подходит под определённый вид зависимости. Например, в экономике зачастую используют линейные модели, которые описывают пропорциональное изменение выходной величины (количество товара) при изменении входной величины (цены/спроса и т. д.).

Примеры других популярных моделей, помимо линейных: деревья решений, случайный лес, нейросети.

Выборка

Выборка — это набор данных, который используется для обучения или анализа модели. Она содержит входные данные и — опционально — выходные данные, которые модель должна предсказать. В случае, когда выходные данные присутствуют, их называют разметкой, а саму выборку — размеченной. 

Примеры выборок с разметкой: изображения цветов и их названия, песни и их жанры, аудиодорожки и их расшифровки.

Примеры выборок без разметки: списки просмотренных видео пользователей YouTube, набор текстов одного писателя.

Существует и более широкое определение выборки, о котором можно прочитать в другом нашем материале.

Нейросеть

Нейросеть — это один из видов моделей машинного обучения. Её отличительная черта — способность описывать самые разные зависимости, за счёт чего нейросети можно использовать в большом количестве задач.

Ещё нейросети можно дообучать на новых данных. Например, модель, которая умеет определять вид растений, можно относительно легно обучить распознавать новый вид.

Наконец, нейросети хорошо масштабируются: при правильном увеличении количества параметров и обучающих данных качество нейросети растёт.

Языковая модель

Языковая модель — модель машинного обучения, которая при данном ей контексте предсказывает для каждого слова в языке вероятность того, что оно является продолжением данного контекста. Простейший пример такой модели — это набор текста в смартфонах. 

Современные языковые модели (вроде GPT) могут не только оценивать вероятность продолжений, но и следовать инструкциям пользователя, например, кратко пересказывать текст и оценивать его эмоциональную окраску. Такие способности у модели появляются за счёт дополнительного дообучения на выборке из инструкций и соответствующих ответах. Такое обучение называют инструктивным.

Благодаря выразительной способности языка и инструктивному обучению языковые модели могут выполнять широкий спектр задач. Подробнее об этом можно узнать в нашем материале.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Гендерное неравенство в литературе: от персонажей до писательниц

Проблема гендерного неравенства заметна во всех сферах общества — в том числе в литературе. Писательниц было традиционно меньше, чем писателей, сюжетные линии между персонажами разного пола представлены неравномерно, а гендерные стереотипы касаются и героев, и героинь произведений.

В подборке материалов «Системного Блока» мы рассказываем о роли женщин в литературном процессе и о том, почему представители обоих полов по-разному воспринимаются как авторами, так и читателями.

Толстой и Пушкин — сексисты? 

В первой части корпусного исследования мы изучали, есть ли гендерное неравенство в русской классической литературе. Вы узнаете, как описывали мужчин и женщин Толстой, Достоевский и Пушкин. Например, что женщины не только чаще «устают», но и чаще «исчезают». А еще женщины и мужчины в русской лиетратуре зачастую по-разному говорят и любят: это помогли понять прилагательные и глаголы. Подробнее – здесь

Кстати, в этом исследовании мы не рассматривали «Повести покойного Ивана Петровича Белкина» и «Капитанскую дочка», но написали про них отдельный материал.

Набоков и Булгаков — сексисты? 

Это вторая часть корпусного исследования русской классики, но более поздней: в неё вошли тексты Владимира Набокова и Михаила Булгакова. Прочитав статью, вы узнаете, насколько сильно изменилось описание мужчин и женщин в русской литературе за столетие. К примеру, мужчины у Набокова стали более эмоциональными, а женщины в романах Булгакова чаще говорят и действуют. Это что, проблески равноправия?

А что в английской литературе?

В XX веке шла усиленная борьба за права женщин, и, казалось бы, за ней должны были последовать изменения и в литературном процессе: увеличение количества авторов-женщин и более достоверная репрезентация женщин в произведениях. Однако исследователи, применив методы машинного обучения на материале английской литературы, доказали обратное. О том, всегда ли были такие тенденции в книгах на английском языке, читайте в нашем материале.

Автор или авторка: влияет ли пол автора на восприятие произведения?

Важен ли пол автора для читателя? Оказывается, да! Чем отличаются произведения авторов-женщин от произведений авторов-мужчин? Как пол читателя влияет на оценку книг, написанных женщинами? Мы кратко описали эксперименты и результаты исследования Корнелии Кулен, автора (авторки?) книги Reading beyond the female: The relationship between perception of author gender and literary quality.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Тест: Угадайте произведение по частотным словам из Национального корпуса русского языка

С помощью НКРЯ можно выявить слова, которые чаще встречаются в каком-то одном произведении, чем во всём остальном корпусе. Некоторые из них могут быть совсем не примечательны (например, «улыбка» в «Войне и мире»), а некоторые сразу выдают текст (как «черномор» в «Руслане и Людмиле»). Мы постарались найти золотую середину и собрали для вас по пять слов из текстов школьной программы. Благодаря тесту вспомните (или узнаете):

🎁 где часто встречались «дар» и «друг»;

🪆 кто писал про «Русь» и «дрянь»;

🐸 какой классический текст можно определить по слову «лягушка»;

📚 и многое другое!

Пройти тест

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Проверяем знания по машинному обучению

Вновь предлагаем вам пройти небольшой тест. Как и в прошлый раз, в коротком описании мы заменили на Х один из терминов машинного обучения. Однако на этот раз задача посложнее: мы уже не используем базовые понятия, такие как «нейросеть» или «модель», а предлагаем проверить знания более глубокого уровня. Попробуйте догадаться, что скрывается под Х, а вечером мы расскажем не только об этом, но и о четырех новых терминах.

Описание:

Х — фактологические неверные ответы языковых моделей, ложность которых сложно распознать. Важная черта Х — правдоподобность.

Х может возникнуть из-за несовершенства обучающих данных, качество и достоверность которых могут значительно варьироваться.

Примеры Х: языковая модель может рассказать о несуществующем рассказе известного писателя, привести ложную статистику об обороте компании, дать неверный совет.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Какое слово мы спрятали под Х в посте выше?
Anonymous Quiz
14%
эмбеддинг
8%
иллюзия
14%
заблуждение
65%
галлюцинация
Еще 5 слов машинного обучения

Объясняем еще несколько терминов машинного обучения из глоссария «Системного Блока». Из материала узнаете о недообучении, переобучении и глубинном обучении, а также о галлюцинациях и эмбеддингах.

Недообучение

Недообучение модели — обучение, которое ограничено потенциалом модели, и/или обучающей выборки, и/или самой процедурой обучения. Оно приводит к плохому качеству модели как на обучающих данных, так и на тестовых. В таких случаях говорят, что модели не хватает выразительной способности.

Недообучение случается, когда модель слишком простая, чтобы аппроксимировать зависимость. Оно также может возникнуть, если объём данных слишком велик, и у модели не хватает параметров для их обработки. Или наоборот, если данных недостаточно для качественного обучения. Недообучение также может возникнуть при неверном подборе способа настройки параметров модели или недостаточном количестве шагов обучения.

Переобучение

Переобучением модели называют обучение модели, при котором итоговая модель хорошо работает на обучающих данных, но плохо — на тестовых. В таких случаях говорят, что модель обладает низкой обобщающей способностью.

Среди причин переобучения могут быть тип модели и количество её параметров, качество и объём обучающих данных, а также неправильная настройка процедуры обучения. Например, если обучающих данных значительно меньше, чем параметров модели, существует высокая вероятность, что модель «запишет» всю обучающую выборку в свои параметры, что приведёт к нулевой ошибке на обучающих данных, но высокой на тестовых.

Чтобы избежать переобучения, применяют техники регуляризации. Например, аугментацию данных — создание новых обучающих данных на основе исходных.

Глубинное обучение

Это подобласть машинного обучения, которая занимается изучением нейросетей с большим количеством параметров. Эти нейросети представляют особый интерес, так как увеличение числа параметров значительно улучшает качество их предсказаний и усиливает их способность к обобщению.

Галлюцинации

Галлюцинации — фактологические неверные ответы языковых моделей, ложность которых сложно распознать. Их важная черта — правдоподобность. Примеры галлюцинаций — это случаи, когда языковая модель говорит о несуществующем рассказе известного писателя, приводит ложную статистику об обороте компании, дает неверный совет.

Галлюцинации возникают из-за несовершенства большого массива обучающих данных, качество и достоверность которых могут значительно варьироваться. Кроме того, модель обучается на данных, собранных до определённого момента времени, поэтому она не способна отвечать на вопросы о событиях, произошедших после этого периода.

Для уменьшения количества галлюцинаций в моделях используется, например, метод Retrieval-Augmented Generation (RAG). ОН позволяет интегрировать внешние источники данных, такие как база с документацией компании, энциклопедии или интернет, в работу языковой модели, чтобы повысить точность ответов.

Эмбеддинги

Синоним эмбеддингов — векторное представление данных, которое обычно получают с помощью моделей машинного обучения. Это компактные наборы чисел фиксированной длины. Каждое число в таком наборе отвечает за определённую характеристику данных, а весь набор в целом описывает данные. Например, эмбеддинг слова может состоять из 128 чисел, где пятое число указывает на род слова, а 100-е — на принадлежность слова к категории, описывающей животных.

В виде эмбеддинга можно представить изображения, видео, тексты, аудио, а также более специфичные данные: профиль пользователя соцсети, товар в магазине или молекулы. Такие числовые наборы легко хранить в памяти компьютера, и он может оценивать степень их сходства. Благодаря этим свойствам эмбеддинги позволяют оперировать данными на уровне их смысла.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Нобелевские премии за нейросети, ИИ-функции в приложениях Adobe, новые модели от Mistral

Рассказываем, что произошло в мире ИИ за последнее время.

Нобелевская премия за ИИ?

Сразу две нобелевские премии получили исследователи в области машинного обучения.

Премией по физике были награждены Джон Хопфилд и Джеффри Хинтон (его также называют крёстным отцом ИИ) за «фундаментальные открытия и изобретения, которые сделали возможным машинное обучение с использованием нейронных сетей». Оба учёных использовали концепции из физики при разработке своих моделей: сетей Хопфилда и машины Больцмана.

Лауреатами премии по химии стали Дэвид Бейкер за «вычислительный дизайн белков», а также Демис Хассабис, руководитель Google DeepMind, и Джон Джампер — за «предсказание структур белков». Дэвид Бейкер одним из первых разработал вычислительные методы для дизайна новых белков. Демис Хассабис и Джон Джампер являются авторами метода AlphaFold, который способен по последовательности аминокислот, соответствующей белку, предсказывать его 3D-структуру. Ранее мы писали о выходе AlphaFold 3, а также об устройстве самого метода.

Обе награды вызвали неоднозначную реакцию в научном сообществе из-за косвенной связи работ с научными областями, в которых были номинированы учёные, — физикой и химией.

Генеративный ИИ в продуктах Adobe

На недавней презентации Adobe Max компания представила новые функции на базе нейросетей.

Photoshop получил функции Generative Fill и Generative Expand, с помощью которых пользователь может «расширить» изображения: например, дорисовать по бокам фото пейзажа. Помимо этого появилась функция Distraction Removal, позволяющая автоматически находить и убирать визуальный шум вроде проводов или прохожих.

Пользователи, работающие с видео, теперь могут сгенерировать в Premiere Pro несколько кадров в произвольном месте записи. Это может быть полезным в ситуациях, когда фрагмент резко обрывается или когда видеоряд нужно выровнять с аудиопотоком.

Новинки от Mistral

Французская компания Mistral выпустила две новые миниатюрные языковые модели Ministral с 3 и 8 млрд параметров. Модели подходят для локального запуска на мобильных устройствах. По показателям в основных тестах обе версии Ministral существенно опережают модели, сопоставимых размеров от Google и Meta*. Ministral выложен в открытый доступ для исследовательских целей, а для коммерческого использования компания предлагает платный API.

Mistral была основана выходцами из Meta*, которые работали над первой версией LLama, и стала известна после релиза Mistral 7B. Эта языковая модель превосходила по качеству LLama и при этом была доступна для коммерческого использования бесплатно, чем привлекла интерес со стороны ИИ-сообщества.

​​*Компания Meta признана экстремистской, а её деятельность запрещена на территории РФ

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
«Системный Блокъ» объявляет осенний набор участников!

«Системный Блокъ» расширяется и приглашает новых авторов, редакторов, менеджеров, дата-аналитиков. Мы — волонтерское издание. Нас объединяет интерес к науке и технологиям, а также желание вдохновлять людей интересными материалами, исследованиями, новостями, тестами и т. п. Среди нас есть филологи, программисты, менеджеры, историки, журналисты и аналитики — люди из совершенно разных сфер.

Ниже вы найдете набор ролей, которые могут быть интересны вам или вашим друзьям. Если что-то из этого вам близко, добро пожаловать к нам! Если вы хотите присоединиться, но идеальной роли нет, то все равно оставляйте заявку!

В посте — неполный перечень ролей, которые сейчас открыты, а в статье  — подробное описание задач и пожеланий к участникам.

1. Авторы в рубрики — ищем желающих писать для рубрик «Филология», «Общество», «Образование», «Биоинформатика», «Как это работает», «Тесты».
2. Кураторы рубрик «Археология», NLP, «Тесты»
3. Редакторы текстов
4. SMM-Lead / Менеджер отдела SMM
5. Выпускающие редакторы для соцсетей (SMM)
6. Продюсер дата-исследований
7. PR-менеджер
8. HR-менеджер
9. Менеджер студенческих практик
10. Продакт-менеджер и программист сайта
11. Дизайнер
12. Ивент-менеджер
13. Продакт/проджект-менеджер на новые проекты
14. Программист в команду «Пишу тебе»

Если вас заинтересовала одна из ролей – приглашаем
заполнить форму до 7 ноября. Проект полностью волонтерский, мы не платим денег. Зато у нас человечный менеджмент, отлаженные процессы и хорошая репутация в русском научпоп-сообществе. Присоединяйтесь!

upd. Продлили набор до 7 ноября

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Горький урок ABBYY: как лингвисты проиграли последнюю битву за NLP 

Недавно СМИ облетела новость об увольнении всех российских программистов из компании ABBYY (тоже в прошлом российской, а теперь уже совсем нет). Теперь, когда страсти вокруг обсуждения дискриминации сотрудников по паспорту улеглись, хочется поговорить о более глубокой истории. Закат ABBYY — это фиксация проигрыша последней битвы лингвистов за автоматическую обработку языка. Мир Data Science победил. Главный редактор «Системного Блока» Даниил Скоринкин, работавший ABBYY в 2013–2017, подводит итоги и пытается сформулировать уроки из этой истории.

Что за ABBYY и при чем тут лингвисты и NLP?

История ABBYY началась в 1989 году, когда студент МФТИ Давид Ян решил сделать электронный словарь для подготовки к экзамену. Так появились Lingvo, а затем — система распознавания символов FineReader. Продукты ABBYY развивались, и компания стала глобальным лидером оптического распознавания в 1990-е и 2000-е. Затем ABBYY двинулась покорять машинный перевод. 

На вооружение они взяли идеи известных лингвистов — в первую очередь Модели «Смысл ⇔ Текст» (прочитать о ней можно в нашем интервью с И. А. Мельчуком). Амбиция была в том, чтобы разобрать человеческие языки как формальные структуры на базе семантической иерархии. Но естественный язык устроен противоречиво и постоянно изменяется, подход оказался негибким и немасштабируемым

Что пошло не так?

В 2006-м появилась первая версия Google Translate. Она была несовершенной, но главное, что в ней был другой — статистический — подход. И масштабируемость. Для её улучшения не нужны были сотни лингвистов, только еще больше примеров перевода. В 2010-х стало ясно, что никаких шансов тягаться с Google Translate у ABBYY не было. С перевода ABBYY переключилась на задачи информационного поиска и извлечения информации из текста, но и там столкнулась с теми же проблемами: описания языка на базе лингвистической теории оказались немасштабируемыми, а решения уступали подходам на основе чистого машинного обучения. 

C новой проблемой компания столкнулась весной 2022 – им пришлось выехать из России, чтобы сохранить зарубежных клиентов. Следующим ударом стали большие языковые модели, который научились выполнять те же задачи, что и классические системы распознавания от ABBYY. Сейчас от компании осталась только вывеска, действующие продукты и небольшое количество менеджеров и специалистов по продажам.

Какие уроки мы извлекаем?


За 70 лет исследований ИИ стало ясно, что самые общие методы, опирающиеся на масштабирование вычислений, намного эффективнее всех остальных. А желание ABBYY сделать универсальную NLP-систему с опорой на лингвистическую теорию оказалось утопией. 

И всё-таки ABBYY успела сделать много важного: открывала кафедры на Физтехе и в РГГУ, оцифровывала наследия Льва Толстого и архива Большого театра. А еще благодаря ей появился «Системный Блокъ», ведь сооснователи издания познакомились именно там. И именно там вы сможете прочитать полную версию поста с мемами, фотографиями и более детальным описанием цифровой «Вавилонской башни», которую пыталась строить ABBYY.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Анализ и визуализация данных: отслеживаем мировую историю

История, записанная в текстовом формате или при помощи обычных карт, может быть трудна для восприятия. «Системный Блокъ» рассказывает, как масштабный анализ архивных документов и инструменты визуализации помогают исследовать историю международных конгрессов — предшественников ключевых мировых организаций.

Кратко: о чем статья?

Международные конгрессы — движение, начавшееся еще в 1840-х, которое предшествовало ключевым международным организациям — Лиге Наций, ООН и ВТО. Вокруг съездов и конгрессов со временем сформировались контролирующие их деятельность организации, например, Союз Международных Ассоциаций (СМА). Целью проекта «Mapping a century of International Congresses» стала визуализация огромного количества информации о более чем 8000 международных конгрессах 1840-1960 годов на основе ежегодных данных и документации СМА.

Анализ документации СМА позволил составить несколько важных визуализаций. Например, гистограммы (столбчатые диаграммы) распределения конгрессов по городам позволили выделить 12 ведущих стран, в разное время принимавших конгрессы. Для более простой визуализации информации был также выбран вариант, близкий к тепловым картам, где значения документации отображаются при помощи цвета или тона. Так, «тепловая карта» позволяет оценить расположение конгрессов по городам — это, например, «космополитический треугольник» Париж, Лондон, Брюссель, где конгрессмены собирались чаще всего.

Более подробно о том, как анализ и визуализация данных помогли выяснить, почему конгрессы больше всего распространялись на европейском континенте, а также о том, как тепловые карты помогли определить «периферийные столицы», читайте в полной версии статьи.

Время чтения: 5,5 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Две правды и одна ложь: изучаем DH-портал

Digital Humanities (Цифровые методы в гуманитарных науках) — одна из главных тем для «Системного Блока». Мы часто рассказываем о том, как цифровые инструменты помогают в изучении истории, литературы и искусства. 

Чтобы вы могли узнать об этом больше и быстрее ориентироваться в гуманитарных исследованиях, в которых используются количественные методы, мы создали точку входа в DH. 

Там вы найдете блоги, глоссарий, наши статьи по теме и информацию о том, где можно обучаться DH. А ещё — ответ на вопрос ниже. Впрочем, можете, конечно, попробовать не искать, а просто угадать, какое из трех утверждений в викторине — ложное.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Kali Novskaya
🌸Про ABBYY и будущее лингвистики🌸
#nlp #про_nlp

По тг разошёлся текст Системного Блока про ABBYY, да и правда, после истории массовых увольнений очень хотелось подвести какую-то черту. Напишу свои 5 копеек, потому что можно сказать, что вокруг ABBYY начиналась моя карьера.

ABBYY долгое время считалась самой лучшей компанией, куда мог бы устроиться лингвист.
Когда я только поступала на ОТиПЛ, туда шли работать лучшие выпускники. При этом ходило мнение, что вот, дескать, интеллектуальная эксплуатация — забирают лучших выпускников, которые могли бы быть успешными учёными, и фуллтайм заставляют писать правила на Compreno. (Ну и правда, в 2012 году там 40-60к платили, а в академии меньше.)

Помимо прочего, ABBYY оранизовывала самую большую NLP конференцию — Диалог, а также создала интернет-корпус русского языка, спонсировала кучу NLP-соревнований и shared tasks, которые распаляли многих проверить свои гипотезы на практике.

🟣Что же теперь делать лингвистике?
Лингвистика разберётся!
Я думаю, текущий вызов даже не самый серьёзный за историю существования кафедры. Да, последние годы приходилось работать под давлением общественного мнения, хайпом LLM...ну так он пройдёт.

Аналитическая, теоретическая лингвистика нужна самой себе и другим наукам:
— как понять и описать происхождение языка,
— как определить биологические ограничения, повлиявшие на язык
— как язык влияет на мышление и обратно,
— как смоделировать максимально общую теоретическую модель языка, описывающую процессы в языках мира,
— как проверить и описать, что находится в корпусе.

Все эти вопросы остаются нужны, и остаются ключевыми вопросами лингвистики.

А языковые модели и NLP потихоньку поглощают уже другие науки:
— OpenAI нанимает филдсевских лауреатов в т ч для составления SFT датасета по математике
— они же нанимают PhD в разных дисциплинах для разметки и валидации данных.

Так что в жернова ИИ пойдут уже выпускники других специальностей. А лингвистика будет заниматься делом.
Please open Telegram to view this post
VIEW IN TELEGRAM
Большие данные Большого террора

Сегодня день памяти жертв политических репрессий. Репрессивная система СССР опиралась на массивную бюрократию, поэтому память о жертвах репрессий хранят расстрельные списки, архивы с уголовными делами, посмертные справки о реабилитации. Теперь эта память стала цифровой — и открытой для исследований. Вспоминаем, какие базы жертв репрессий существуют.

Жертвы политического террора

Сбором и оцифровкой данных о репрессиях занимается «Международный Мемориал»*: cегодня их база содержит более 3 миллионов записей с информацией о дате и месте рождения, месте проживания и работы, дате ареста и приговоре. 

Это прямо здесь

География репрессий волнует многих исследователей, поэтому на основе данных «Мемориала» созданы несколько ресурсов с геопривязкой. Самый известный — московский «Это прямо здесь». Здесь можно обнаружить места массовых расстрелов, здания тюрем, лагерей и лагпунктов, захоронения расстрелянных. Всего — свыше 830 объектов.

Не только жертвы, не только репрессий

Информация есть не только о жертвах системы, но и о тех, кто в ней работал – в отдельной базе данных собрано почти 50 тысяч имен сотрудников органов государственной безопасности СССР с 1935 по 1939 годы.

Еще одна крупная база посвящена остарбайтерам — жителям оккупированных территорий СССР, перемещенных для работы в Германию и возвратившихся после войны.
Узнать подробнее об этих базах данных и о том, какие сложности возникают при их создании и дальнейшей стандартизацией информации, можно из полной версии статьи. А если вы знаете о других проектах и базах данных, которые помогают изучать тему Большого террора — расскажите о них в комментариях.

🤖 «Системный Блокъ» @sysblok

*Международный Мемориал ликвидирован решением ВС РФ 28 февраля 2022 года
Please open Telegram to view this post
VIEW IN TELEGRAM