Системный Блокъ
10.8K subscribers
241 photos
2 videos
1 file
845 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
Download Telegram
Косинусная близость: как компьютер сравнивает объекты

Рассказываем, как онлайн-кинотеатры определяют, какой фильм вам порекомендовать, маркетплейсы — какой похожий товар предложить, а интернет-поисковики находят темы, которые отвечают теме запроса. И всё это — с помощью косинуса угла между векторами.

Кратко: о чем статья?

Прежде чем сравнивать объекты, компьютер должен представить их в виде векторов — упорядоченных наборов чисел, которые формализуют свойства каждого объекта. Каждое число вектора характеризует какой-то признак объекта, например, цвет и размер товара, тональность текста, жанр и длительность фильма. Чем больше признаков у объекта, тем больше чисел в векторе (эти числа называют координатами вектора).

Между двумя векторами можно измерять расстояние и угол. Чтобы не измерять угол в градусах, его удобнее выражать через косинус. Косинус — это одна из тригонометрических функций, которая на вход принимает угол и сопоставляет ему число из диапазона от -1 до 1. Чем меньше угол между векторами, тем более схожи соответствующие объекты, и наоборот. Поэтому косинус между векторами также называют косинусной близостью.

Например, объекты, у которых соответствующие им векторы направлены одинаково (угол между ними 0 градусов), имеют с точки зрения косинуса максимальную близость, равную единице. A объекты, векторы которых указывают в противоположные направления (угол между ними 180 градусов), максимально удалены — у них косинус равен -1. Так, если на плоскости изобразить векторы, соответствующие трем рюкзакам (при этом их объем и количество отделений будут координатами по горизонтали и вертикали соответственно), то при подсчете косинусной близости между ними выяснится, что рюкзак объемом 2 литра с 6 отделениями более схож с рюкзаком объемом 1 литр и с 2 отделениями, нежели чем с рюкзаком, объем которого — 4 литра, а количество отделений — 2 штуки.

Чтобы узнать о том, как рассчитать косинус с помощью математических формул или компьютера, а также найти ссылку на проект в Google Colab, где вы можете попробовать рассчитать косинусную близость между разными словами, читайте полную версию статьи.

Время чтения: 7 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
A real area: что такое ареальная типология и как её изучают цифровыми методами

В мире почти 7000 языков, и они очень разные. Лингвисты-типологи изучают, насколько языки мира похожи друг на друга и какие лингвистические явления в них вообще встречаются. Поскольку делать это вручную —  задача трудоёмкая и полная неоднозначностей, на помощь исследователям приходят вычислительные методы. Рассказываем подробнее.

1️⃣ Какой подход нужно выбрать лингвисту, желающему описать всё многообразие языков?

Языковые явления можно разбить на условные уровни: морфологический, синтаксический и другие. Наиболее осязаемый из них — фонетический, поскольку звуки удобно описывать в биологических и акустических терминах. Уже на этом уровне мы можем обнаружить разительные отличия между языками мира. Скажем, в языках Южной Африки присутствуют особые звуки — кликсы, «щёлкающие» звуки (например, такие), которых нет в большинстве других языков.

2️⃣ Чем занимаются ареальные типологи?

Эти лингвисты ищут языковые ареалы — группы расположенных рядом языков, которые обладают схожими явлениями на различных уровнях языка. Эти ареалы выделяются по совокупности признаков, а не одному конкретному (скажем, только наличия кликс будет недостаточно). Из-за этого вопросы о границах и количестве общих черт, которое необходимо, чтобы точно говорить об образовании ареала, нередко становятся предметами дискуссий.

3️⃣ Как что-то посчитать в ареальной типологии?

Исследователи строят общую картину на основе данных, чтобы затем было понятнее, в какие аспекты стоит углубиться (это сравнимо с дальним чтением в Digital Humanities). Информацию можно представить в форме вектора: составить список вопросов о языке, на которые можно ответить «да» или «нет», чтобы заменить ответы на 1 и 0 соответственно. К полученным векторам несложно применить алгоритмы кластеризации.

4️⃣ Как помогает NLP?

Некоторые исследователи обращаются к методам Natural Language Processing (NLP, обработка естественного языка), чтобы ускорить процесс создания базы и покрыть большую выборку языков. Существует много техник извлечения информации из текста, так называемого семантического парсинга. 

Разумеется, алгоритмы не всегда будут идеальны, но они упрощают решение многих задач для ученых. Об одной из таких задач, а также о морфологической типологии и карте World Atlas of Linguistic Structures мы подробнее рассказали в новом материале.

Время чтения: 15 минут.


🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Новинки от OpenAI, новая LLM от Google, модель для генерации изображений от лаборатории Маска

Рассказываем, что произошло в мире ИИ за последнее время.

Адвент-календарь от OpenAI

С 5 декабря OpenAI ежедневно по будням анонсирует новые разработки и обновления своих продуктов.

Первым стал анонс подписки ChatGPT Pro стоимостью $200 в месяц. Она предоставляет неограниченный доступ ко всем языковым моделям компании, включая o1-pro (версия модели o1, которая рассуждает больше обычной версии), а также содержит все опции базовой подписки ChatGPT Plus за $20 в месяц.

Наиболее значимым событием стал публичный запуск Sora — модели для генерации видео (мы писали о ней ранее). Пользователи с подпиской Plus могут создавать до 50 видео в разрешении 480p или меньшее количество в 720p. Владельцам Pro-подписки доступно в 10 раз больше генераций.

Стала доступна интеграция ChatGPT с Apple Intelligence — системой искусственного интеллекта в последней версии iOS. Когда встроенный ассистент Siri не может ответить на запрос пользователя, система предлагает перенаправить его в ChatGPT.

OpenAI также представила возможность дообучать модель o1 на собственных данных, пока эта функция доступна ограниченному кругу пользователей.

Остальные обновления касаются сервисов компании:

- представлен новый режим Canvas для эффективной совместной работы над текстовыми документами и программным кодом. ChatGPT может предлагать правки, изменять стиль текста, комментировать код и помогать находить ошибки;

- в классическом интерфейсе ChatGPT добавлена возможность создавать проекты (папки) для группировки тематически связанных диалогов с общим контекстом;

- добавлена поддержка работы с видеопотоками: пользователи могут транслировать видео с камеры телефона и одновременно обсуждать происходящее с GPT голосом.

Крупное обновление языковой модели Google

Корпорация Google представила обновлённую версию своей языковой модели — Gemini 2 Flash. По результатам основных тестов новая модель превосходит предыдущую флагманскую версию и работает в полтора раза быстрее.

Gemini 2 Flash способна не только обрабатывать аудио, видео и изображения, но и генерировать их в качестве ответа. Например, при игре в крестики-нолики пользователь может отправить фотографию своего хода, а нейросеть ответит, добавив свой ход прямо на полученное изображение, то есть ответом будет не текст, а изображение.

В обновлении особое внимание уделено развитию агентных способностей модели — возможности выполнять различные задачи в разных средах (например, забронировать столик в ресторане или работать с компьютерными программами). Gemini 2 Flash демонстрирует улучшенные навыки планирования действий и запоминания истории взаимодействий. Кроме того, модель может эффективно работать с внешними инструментами, такими как Google Поиск и Google Maps.

Нейросеть для генерации изображений от xAI

Лаборатория xAI, принадлежащая Илону Маску, представила новую модель Aurora для генерации изображений на основе текстовых описаний.

В отличие от существующих решений, таких как Midjourney, Stable Diffusion и DALL-E, Aurora использует принципиально иной подход к созданию изображений. Она работает подобно языковым моделям, в то время как механизм генерации других систем построен совершенно иначе: как именно, можно прочитать в нашем материале.

Благодаря схожести с языковыми моделями, Aurora может использовать все существующие методы их оптимизации, однако уже для ускорения генерации изображений. Кроме того, модель демонстрирует более высокое качество работы с текстом, особенно при редактировании существующих изображений на основе текстовых инструкций.

Aurora доступна для тестирования в социальной сети X, но только для пользователей из ограниченного числа стран.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Бешеный принтер 2020–2022: как плодятся «чрезвычайные» законы

Чрезвычайные события, такие как пандемия или военные действия, порождают ограничительные законы. При этом многие законодательные изменения, изначально принимавшиеся как «чрезвычайные», оказываются долгосрочными и становятся нормой. Рассказываем, как статистика законотворчества позволяет проследить за этим трендом на примере массива законопроектов, рассматривавшихся и принимавшихся Государственной Думой в период весенней сессии 2020, 2021 и 2022 гг.

Кратко: что выяснилось?

Первое, что мы увидели – повышение так называемой «законотворческой эффективности» парламента во время кризиса. При сравнительно одинаковом количестве внесённых на рассмотрение законопроектов увеличивается число принятых законов и скорость их рассмотрения.

Помимо тренда на ускорение законотворческого процесса в РФ, заметна «регионализация» — расширение полномочий глав субъектов РФ. Для преодоления чрезвычайных ситуаций также создаются отдельные координационные структуры внутри государственной машины.  Например, в период пандемии ключевым органомом принятия решений стал Координационный совет при Правительстве РФ, чьи решения определяли основные ограничительные меры.

Наконец, исследование показало, что структуры, создаваемые для «ручного контроля» за чрезвычайными ситуациями, стремятся к превращению в регулярно действующие. Для них окончание действия чрезвычайной ситуации означает их собственное исчезновение. 

Узнать подробнее о тенденциях, связанных с «чрезвычайными» законами последних лет, можно из полной версии статьи.

Время чтения: 6,5 минут


🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
От Роулинг до Лермонтова: как провести анализ тональности текста

Анализ тональности текста (Sentiment Analysis) — это процесс автоматического определения эмоциональной окраски содержания текста. Но как зафиксировать тонкие и динамичные изменения не в коммуникации, а в больших произведениях? Как формально визуализировать эмоциональное содержание текста, превратив его в график? Рассказываем в нашем новом материале!

📕 К истории сентимент-анализа

Первые задачи анализа тональности решались с использованием заранее размеченных словарей, например, таких как kartaslovsent, где каждому слову соответствовала определённая эмоциональная оценка. С развитием технологий нейронных сетей появились более точные методы, основанные на эмбеддингах. Современные модели используют предобученные нейросети-энкодеры, такие как BERT, которые способны учитывать контекст и взаимосвязь между словами.

📗 Гарри Поттер и кривая эмоциональной тональности

Эндрю Рейган и его коллеги из Вермонтского университета создали одну из первых работ, описывающих изменение эмоциональной тональности на практике. Их исследование было посвящено книге «Гарри Поттер и Дары Смерти», самая счастливая точка которой приходится на первую четверть книги.

📘 Герой нашего времени

Мы решили повторить эксперимент Рейгана, но на примере романа М. Ю. Лермонтова. Для этого мы обратились к нейросети RuBERT и разбили текст на атомарные единицы. В случае книг для этого лучше всего использовать предложения – они  достаточно маленькие по размеру, но выражают законченную мысль.

Высшей точкой нашей кривой эмоциональной тональности оказалась глава о княжне Мэри, а низшей – дуэль с Грушницким. Правда, путь к красивому графику оказался тернистым. 

Если вы хотите узнать о сложностях, с которыми мы столкнулись, визуализируя эмоции в тексте Лермонтова, или изучить, как меняется эмоциональная окраска в вашем любимом (или нелюбимом!) тексте, переходите к нашему гайду.

Время чтения: 13 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Пробей крепостную стену: как понять науку через симуляторы

Хотите смоделировать процесс эволюции или работу человеческого глаза? Не можете разобраться в баллистике? Тогда воспользуйтесь интерактивным симулятором. Мы собрали самые интересные и рассказали, как они делают науку понятней и ближе.

👾 Что за симуляторы?

Интерактивные симуляторы — это цифровые инструменты, моделирующие реальные научные ситуации. Например, вы хотите провести эксперимент и увидеть, как двигаются молекулы и атомы, или какое воздействие на вещество оказывает тепло, но у вас нет лаборатории и инструментов. В таком случае используются виртуальные симуляторы. 

Интерактивные симуляторы возникли вместе с развитием систем электронного обучения. Со временем они стали доступны не только в виде программного обеспечения, но и в браузерах, а сегодня можно делиться ими в соцсетях и встраивать в собственные сайты.

🕺🏻 Травольтаж

Все желающие разобраться в физических законах могут изучить электростатику и электрическое напряжение в симуляторе «Травольтаж» (John Travoltage). Для этого совсем необязательно разбираться в физике — симуляторы очень понятны и наглядны, поэтому, играя, вы одновременно понимаете сложные вещи. В «Травольтаже», например, можно наэлектризовать об ковёр ногу Джона Траволты (отсюда и название: соединение английского voltage и фамилии актёра) и увидеть, как электрический заряд передается металлической дверной ручке.

🦎 Эволюция: 10,000

Если вас интересует вопрос, почему в ходе эволюции одни виды выжили, а другие нет, обратитесь к симулятору Evolution: 10,000, с помощью которого можно проследить эволюцию вымышленной популяции за 10 тыс. лет. После каждой тысячи лет ресурс будет сообщать о произошедших изменениях.

👁️ Наследственность: цвет глаз и ушные раковины

Чтобы узнать, почему у вас один цвет глаз, а у вашего знакомого другой, смоделируйте наследственность в симуляторе Heredity IV: Eye Color and Pinna. Вы можете тестировать один признак за раз или оба — цвет глаз и наличие ушной раковины. В последнем случае можно смоделировать дигибридное скрещивание.

О других симуляторах, которые помогают лучше понять физику, химию, биологию и другие науки — в том числе создавая собственные метательные аппараты и пробивая крепостные стены — мы рассказали в полной версии статьи.

Время чтения: 16 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Возраст несчастья: когда он наступает?

В новом материале «Системный Блокъ» рассказывает о состоянии несчастья с опорой на исследование Unhappiness and age. Изучаем компоненты неблагополучия, исследуем график невзгод и, конечно, показываем статистику, которая поможет разобраться в особенностях этого состояния.

Кратко: о чем статья?


Несчастье — это особое состояние человека, которое противопоставляется состоянию счастья и считается в первую очередь проблемой, связанной с ментальным здоровьем. Исследователь по фамилии Бланчфлауэр вывел переменные несчастья, которые можно разделить на четыре группы: связанные с психическим здоровьем, социальным взаимодействием, физическим самочувствием и национальным благополучием.

Изучение этих факторов показало, что кривая неблагополучия всегда представляет собой холм с пиком в возрасте 45–54 лет в среднем. По всему миру люди 45–54 лет чаще других испытывают тревогу и проблемы со сном, начинают жаловаться на хронические боли. Во многих странах на этот же возраст приходится максимальное количество самоубийств и смертей от передозировки наркотическими веществами или злоупотребления алкоголем.

Исследование Unhappiness and age дополняет другую работу, Is happiness U-shaped everywhere?, про уровень счастья и его график. Оказалось, что кривые счастья и несчастья зеркально отражают друг друга. Их минимум и максимум приходятся на промежуток 45–50 лет соответственно.

Посмотреть на визуализацию статистики и увидеть, на какой возраст приходится пик счастья и в какой момент графики сходятся в одной точке, можно благодаря полной версии статьи.

Время чтения: 6,5 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейросети и доисторические рисунки: как исследовать петроглифы с оленями

Петроглифы — небольшие древние наскальные изображения — часто сложно датировать и атрибутировать. Помимо интерпретации сюжетов, дающих нам представление о быте и поверьях северных охотников, о способах ловли оленей и медведей, ученых интересует атрибуция: когда и какими культурами были оставлены эти изображения. Рассказываем, как можно классифицировать произведения древних людей при помощи нейросети.

Кратко: о чем статья?

Признаки доисторических изображений делят на содержательные, отвечающие на вопрос «что изображено?», и стилистические — «как изображено?». Именно стиль позволяет объединять изображения по «манере», «школе» и атрибутировать их. 

Особенно удобно изучать особенности стиля, сравнивая, как нарисованы одни и те же объекты. Например, Н.Н. Диков в 1971-м году предложил целую классификацию для сотен оленей, высеченных на скалах у чукотской реки Пегтымель древними жителями этих берегов (обязательно на них взгляните!). Диков выделял более реалистичных и схематичных оленей по пропорциям и стилю изображения 

Сегодня на помощь исследователям приходят нейросети. В 2017 году Йельский центр Digital Humanities создал открытый инструмент Pixplot для классификации и визуализации больших массивов изображений. А в 2020-2021 студенты магистратуры Digital Humanities в Вышке кластеризовали с его помощью петроглифы с чукотскими оленями. 

Полученная благодаря нейросетям визуализация отразила распределение петроглифов по технике исполнения: грубая и редкая или плавная и полная. Этот признак был связан с инструментом нанесения рисунка. Изображения, выполненные камнем, отличаются грубым исполнением, а сделанные с помощью металлического орудия — более четкими очертаниями. Причем и те, и другие кластеры изображений включали в себя как реалистичные, так и схематичные рисунки, так что деление, предложенное в 1970-е оказалось скорее субъективным и потому не вполне актуальным.

Узнать больше о кластеризации петроглифов и о том, какие промежуточные этапы предполагало исследование, сможете благодаря полной версии статьи.

Время чтения: 15 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Визуализируя воспоминания: как AR и VR-технологии погружают в прошлое

История памяти изучает, как в обществе возникают, живут и передаются знания о прошлом. История памяти — не о фактах и датах, а о восприятии и образах событий прошлого, бытовавших у людей. Сегодня изучать их помогают цифровые технологии, включая элементы виртуальной реальности. Рассказываем подробнее в новой статье.

Монологи «детей войны»

Пример такого использования AR (augmented reality, дополненная реальность) – немецкий проект 2018 года War Children: Using AR in a Documentary Context. Его создатели разработали приложение, которое знакомило пользователей с личными историями трех женщин из разных стран — России, Великобритании, Германии. Контент, дополненный различными визуальными элементами (искрами, снегом, дымом, самолетами), был привязан к среде пользователя. Повествование также дополнялось архивными фото и видеоматериалами. 

Память о Холокосте

Одна из постоянных экспозиций Иллинойского музея Холокоста (США), The Journey Back, использует технологии виртуальной реальности (VR). Помимо VR-фильмов, рассказывающих истории переживших холокост, в музее действует голографический театр. Посетителей встречают голограммы, которые могут вести диалог с аудиторией, создавая эффект живого общения благодаря технологии распознавания голоса.

Узнать об этих проектах больше можно из полной версии статьи.

Время чтения: 7 минут
Новые рассуждающие модели от OpenAI и Google, open-source-конкурент GPT и Claude

Рассказываем, что произошло в мире ИИ за последнее время.

Вторая версия модели o1

OpenAI представила обновление языковой модели o1, которая способна выстраивать логические рассуждения перед ответом. Новая версия получила название o3, поскольку название o2 уже используется британским оператором связи.

o3 превосходит все существующие модели в тестах на программирование и решение математических задач. В одном из самых сложных математических тестов предыдущая лучшая модель решила лишь 2% задач, тогда как o3 справилась с 25%. Кроме того, o3 стала первой моделью, сумевшей решить большую часть задач из бенчмарка ARC-AGI, который проверяет способность находить закономерности в данных, отсутствовавших в обучающей выборке. В этом тесте o3 решила 75,7% задач (против 53,6% у предыдущего лучшего метода), а при использовании более длинных цепочек рассуждений результат достиг 87,5%. Для сравнения: GPT-3 не способна решить ни одной задачи, а GPT-4 справляется лишь с 5%.

В «экономном» режиме на решение одной задачи o3 расходует вычислительные ресурсы стоимостью около 20 долларов, а при использовании более длинных рассуждений требуется примерно в 172 раза больше вычислительных ресурсов.

Авторы ARC-AGI отметили, что, несмотря на высокий результат, модель всё ещё не может решить множество простых задач. Вторая, более сложная версия бенчмарка должна выйти в следующем году.

Обновление пока не доступно для публичного использования.

Google выпустила первую рассуждающую модель

Корпорация Google представила модель Gemini 2.0 Flash Thinking. Эта версия является модификацией недавно выпущенной Gemini 2.0 Flash и в отличие от базовой версии способна генерировать рассуждения, что повышает качество ответов и позволяет модели решать более сложные задачи.

Новая модель заняла первое место в рейтинге Chatbot Arena, основанном на оценках пользователей. Предыдущим лидером была GPT-4o. Модель уже доступна для использования через API.

Всё больше лабораторий и компаний выпускают рассуждающие модели. В частности, мы также рассказывали об открытых моделях QwQ и DeepSeek-R1.

DeepSeek 3 – новый открытый конкурент лучших LLM

Китайская компания DeepSeek представила третью версию своей языковой модели. DeepSeek 3 содержит 671 млрд параметров. Модель использует архитектуру Mixture of Experts, что означает использование только небольшой доли параметров во время генерации ответа на запрос: DeepSeek 3 задействует лишь 5,5% от общего числа параметров. Набор используемых параметров зависит от конкретного запроса.

В основных тестах модель показывает результаты на уровне или выше лидирующих коммерческих и открытых LLM, включая GPT-4o, Claude Sonnet 3.6LLama 3 и Qwen2.5. На обучение модели было затрачено около 5 млн долларов, что на порядки меньше затрат лидирующих компаний.

DeepSeek 3 и техническая документация по её разработке находятся в открытом доступе. Модель также доступна через API.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
«Системный Блокъ»: лучшее за 2024 год

По традиции 31 декабря «Системный Блокъ» публикует подборку лучших материалов уходящего года. 

Дата-исследование года

«Классное чтение» — исследование школьных программ по литературе с 1919 по 2022 годы. Мы выяснили, какие авторы и произведения входят в школьный литературный канон, как за сто лет изменилось изучение зарубежной и региональной литературы, и удостоверились, что Пушкин наше все во все времена (а еще Шекспир, Лев Толстой,  Горький и другие).

Интервью года

Игорь Мельчук о нетрадиционной лингвистике и машинном переводе. В 2024 году «Системный Блокъ» выпустил девять интервью. Наши собеседники рассказывали об оцифровке дневников, нейролингвистических исследованиях, истории интернета, клиодинамике, искусственном интеллекте. Но особенно мы гордимся интервью с лингвистом Игорем Мельчуком, одним из основоположников российской математической лингвистики и Московской семантической школы. Он рассказывает, как в 1950-е годы в Советском союзе начинался машинный перевод и как была создана теория «Смысл Текст».

Погружение года

На сайте «Системного Блока» появился раздел «DH: точка входа». На одной странице мы собрали все, что нужно знать начинающему цифровому гуманитарию: методы DH, основные понятия, список экспертов, полезное чтение и образовательные программы.

Филологическое исследование года

Как поймать всех животных в тексте? Пересказываем исследование Кирилла Маслинский, научного сотрудника Пушкинского дома, который на материале корпуса детской литературы изучил закономерности упоминания в текстах животных. Теперь мы знаем, в каких жанрах преобладают птицы, а в каких — обитатели подводного мира. 

Дайджест года 

Мы сделали регулярным дайджест новостей из мира нейросетей и искусственного интеллекта. С марта вышло 18 выпусков, в которых мы рассказываем о новых больших языковых моделях, продуктах и сервисах с использованием ИИ. 

Партнерство года

Вместе с благотворительной организацией «Ночлежка», Благотворительной больницей и платформой «Если быть точным» мы проанализировали, что влияет на причины смертности бездомных женщин и мужчин. 

Гайд года

Как сделать исследование с помощью Voyant Tools? Мы выпустили самый подробный гайд на русском языке по использованию популярного инструмента для корпусного анализа текстов Voyant Tools. Здесь в все - от подготовки корпуса до визуализации. 

Техноистория года

В материале о развитии перфокарт мы рассказывали, что общего у ткацкого станка и первых вычислительных машин, какой вклад гомеопатия внесла в историю технологий и какое наследие перфокарт сохранилось до сих пор. 

Тесты года 

Мы продолжаем делать для вас веселые и познавательные тесты. Например, угадывали птиц по фотографиям, изучали ругательства в НКРЯ и разбирались в значении эмодзи. Выбрать одного фаворита из этой рубрики слишком сложно!

Больше о наших главных материалах 2024 можно узнать из подробных итогов года на сайте, а если какие-то тексты особенно запомнились вам – расскажите о них в комментариях! 

С Новым годом 🎄

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Тест: Путин или ChatGPT? Угадайте, какое новогоднее обращение действительно принадлежит президенту, а какое сгенерировала нейросеть

Цифровые методы можно использовать с разными текстами: длинными и не очень, принадлежащими одному автору или нескольким, написанными за короткий срок или на протяжении длительного периода времени. Мы решили изучить цифровыми методами новогодние обращения Владимира Путина и заодно проверить, насколько хорошо справляются с написанием подобных речей современные языковые модели.

Для нового теста мы сделали тематическое моделирование корпуса текстов с помощью программы Mallet, построили кривые эмоциональной тональности текста с помощью Python и RuBERT и выяснили, как менялась длина новогодних обращений с 2000 по 2023 годы.

Проходите тест и узнаете, удалось ли ChatGPT сгенерировать предновогодние речи и какая лексика попала в облако слов новогодних обращений (спойлер: долг, испытание и дело вы там точно найдёте)

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Что такое датасет?

Одной из ключевых составляющих машинного обучения являются датасеты — наборы данных. «Системный Блокъ» рассказывает, какие датасеты используются для обучения моделей и где их найти.

Кратко: о чем статья?

Датасет (англ. dataset), или выборка, — это структурированный набор данных, который используется для обучения и тестирования моделей машинного обучения. С помощью датасетов модели «учатся» на примерах, чтобы потом применять полученные знания для решения реальных задач.

Датасет может состоять из данных разных типов (например, текстов, изображений, аудио- или видеоматериалов), а также разметки. Она опциональна и является дополнительной информацией для описания и классификации данных. Например, датасет ImageNet содержит 14 млн изображений, каждое сопровождается меткой класса (например, указана порода собаки или название растения на фото).

Хороший датасет — репрезентативный, то есть точный и полный, поэтому при его формировании важно учитывать разнообразие, количество и качество данных. Например, в случае изображений важны разные погодные условия и освещение, для любых данных нужно проверять их достоверность и соответствие поставленной задаче.

Для обучения моделей датасеты обычно делят на три части: тренировочную (train), валидационную (validation) и тестовую (test). На первой модель обучается, с помощью второй можно реализовать валидацию разных параметров обучения и настроек модели, а третью используют для тестирования финальной версии модели. Датасеты можно собирать и делить самостоятельно, а можно найти уже готовые для обучения наборы данных на Kaggle, HuggingFace или UCI Machine Learning Repository, а также в разных исследовательских проектах.

Подробнее о том, какие еще типы датасетов бывают, как модель определяет, кто выживет на «Титанике», и к каким еще источникам данных можно обратиться читайте в полной версии статьи.

Время чтения: 9 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Что такое гражданская наука?

Гражданская наука (Citizen science), или научное волонтёрство, — это направление, где непрофессионалы активно участвуют в научных исследованиях и помогают ученым собирать и анализировать данные. И хотя само понятие появилось сравнительно недавно, идея участия общественности в научной деятельности не нова. Рассказываем о прошлом, настоящем и будущем гражданской науки.

Первые энтузиасты

C началом великих географических открытий моряки могли исследовать новую для них флору и фауну, а с появлением телескопов (1609 год) астрономы-любители начали активно менять научную картину мира.

Например, ещё во времена кругосветных плаваний Джеймса Кука (1768–1771 годы), английский рыцарь и натуралист-любитель Джозеф Бэнкс сделал первое научное описание бугенвиллеи (лат. Bougainvillea). А археолог-самоучка Генрих Шлиман проводил раскопки на месте античной Трои и стал первооткрывателем микенской культуры.

Цели и тенденции

Цель гражданской науки — привлечение широкого круга людей для сбора научно полезной информации. Главные задачи гражданской науки сегодня —  мониторинг биоразнообразия, сбор информации об экологической обстановке и поддержка научных баз данных.

Примеры проектов

Международные платформы, такие как iNaturalist и eBird, объединяют миллионы людей, которые делятся снимками животных, растений и грибов, помогая ученым собирать ценные данные о природе. А Гербарий МГУ — поддерживает цифровую платформу для сбора и оцифровки данных о растениях с помощью волонтеров.

Совсем другой пример – цифровой корпус почтовых открыток «Пишу тебе» @pishuteberu. Его участники собрали, оцифровали и разметили уже 70 000 открыток. Помимо этого волонтеры проекта занимаются обучением нейросетей для автоматической разметки и расшифровки открыток, а также программированием инструментов для работы с базой.  Присоединиться к «Пишу тебе» может любой желающий, заполнив анкету.

Другие примеры гражданских научных проектов, которые позволяют превратить наблюдения за птицами в научные данные или поучаствовать в мониторинге загрязнения воздуха, найдете в полной версии материала. Там же мы рассказали о том, как стать гражданским ученым (спойлер: очень просто!)

Время чтения: 5,5 минут


🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Думать или делать: исследуем глаголы в английской литературе

Что помогает нам лучше узнать персонажа – речь или действия? Что, если действия персонажа могут говорить даже больше, чем его слова и мысли, обычно находящиеся в центре повествования? Как выбор глаголов отражает индивидуальность героя? Рассказываем о недавнем исследовании глаголов в художественной литературе, которое дает ответы на эти (и не только) вопросы.

Кратко: что за исследование?

Недавно канадский профессор в области литературоведения и Digital Humanities Эндрю Пайпер решил изучить, чем заняты персонажи книг и как их действия помогают в создании цельного образа. Для этого он взял два датасета: CONLIT, состоящий из 2 754 текстов английской прозы (художественной и нехудожественной) в двенадцати разных жанрах, и HATHI1M, который содержит коллекцию из 1 671 370 случайно отобранных страниц английских текстов, опубликованных между 1800 и 2000 годами.

В качестве основного рабочего инструмента использовался инструмент BookNLP, который может находить упоминания персонажей, включая разные формы имени героев и связанные с ними местоимения.

Как обнаружилось, самые частые глаголы в характеристиках персонажей относятся к актам коммуникации, за ними следуют движение и познание. Причем в нехудожественных текстах больше когнитивных действий, а в художественных – физически воплощенных, телесных. Более того, тенденция к выражению личной агентности именно через тело (а не через сознание, как привычно считать) усиливается с течением времени. 

Узнать, как глаголы распределены по текстам разных жанров, как это исследование связано с Theory of Mind (теорией сознания) и понятием агентонсти, и каким еще выводам пришел Пайпер, можно из полной версии статьи.

Время чтения: 10 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
История диалоговых систем

Мы взаимодействуем с диалоговыми системами повсюду: когда бронируем столик в кафе, записываемся к врачу или звоним в поддержку. Все более похожие на человека чат-боты приобретают голос и эмоции, приносят пользу бизнесу и обычным пользователям. «Системный Блокъ» рассказывает, когда чат-боты стали повсеместными, как они учились и как воспроизводят естественный разговор.

Кратко: о чем статья?

Дизайн диалоговых интерфейсов — это индустрия создания систем, имитирующих человеческое общение. Одна из основных ее задач — сделать общение с ботом естественным, эффективным и не трудозатратным. Диалоговые системы понимают и устную, и письменную речь, а успешность их работы и распознавания напрямую зависит от доступных технологий.

История чат-ботов началась в 1952 году, когда американская корпорация создала Audrey — голосовой интерфейс, способный превратить голос в текст. Машина могла распознавать только цифры от 0 до 9 и заходила в тупик, слыша новый голос.

Создание в 1960-х годах в Массачусетском технологическом институте чат-бота ELIZA стало историческим. Она как бы исполняла роль психотерапевта, задавая вопросы из заранее составленного списка в ответ на текстовое сообщение. Например, если собеседник говорил, что ему грустно, Элиза уточняла: «Почему тебе грустно?»

В 1995 году была создана ALICE, вдохновленная Элизой. Она научилась делать логические выводы из текста пользователя, учитывать грамматику предложений и контекст предыдущего разговора.

Большой прорыв в диалоговых системах случился в 2011 году, когда Apple разработали Siri, в которой объединились голосовые команды и чат-бот-система. Siri стала первым виртуальным ассистентом, который можно взять с собой куда угодно, а список ее возможностей для своего времени был внушительным: найти ответ в Интернете, начать звонок, подсказать дорогу, отправить сообщение и т. д.

Хотя сегодня возможности диалоговых достигли небывалых высот, им есть куда стремиться. Чат-боты все еще вынуждают пользователей подстраиваться под себя, а многие диалоговые системы говорят только на английском.

Более подробно об истории создания чат-ботов и грани между людьми и говорящими машинами, читайте в полной версии статьи.

Время чтения: 10 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Играем по-серьёзному: как Serious Games меняют подход к обучению

Идея геймификации образования восходит ещё к эпохе Ренессанса, однако совершенно новым подходом стали серьёзные игры. Их основная цель— решение конкретных задач из реальной жизни, а также обучение или развитие навыков, а не развлечение или веселье. Рассказываем об особенностях такого подхода к образованию и его эффективности.

Что за серьезные игры?

Внешне Serious Games напоминают классические: с соревновательностью, аналогичным игровым процессом и интерфейсом. Но при этом в них вшиты образовательные цели, которые как бы скрыты от пользователя. Кроме того, серьёзные игры отличаются научной обоснованностью: рецензируемый научный журнал The International Journal of Serious Games ежеквартально выпускает статьи, посвящённые теоретическим, экспериментальным и прикладным аспектам разработки, внедрения и оценки таких игр.

Серьёзные игры во многом эффективны потому, что их механика, нарратив и дизайн включают в себя конкретные задачи — обучать, вдохновлять и приводить к образовательным результатам. Кроме того, они позволяют моделировать ситуации, которые в реальной жизни требуют значительных ресурсов или времени.

Duolingo

Один из самых известных примеров таких игр — Duolingo. Чтобы мотивировать пользователей учить языки, приложение использует игровые механики: дерево навыков, очки опыта и виртуальную валюту.

Foldit

Foldit — игра-головоломка, которая предсказывает структуру белков. Это одна из самых сложных задач в биологии. Созданная Центром игровых наук и кафедрой биохимии Университета Вашингтона, игра привлекла внимание широкой публики благодаря своей инновационной концепции: исследователи анализируют полученные игроками лучшие решения и применяют их для изучения болезней, разработки новых лекарств и биологических технологий.

Evolution of Trust

Ещё один пример — The Evolution of Trust, созданная педагогом и гейм-дизайнером Ники Кейзом. Эта игра объясняет, как возникают и разрушаются доверительные отношения, а также почему это важно для общества и как мы можем «изменить правила игры» для улучшения взаимодействий. The Evolution of Trust моделирует простую ситуацию: два игрока принимают решения в рамках вариации дилеммы заключённого. Весь процесс прохождения занимает около 30 минут, что идеально подходит для образовательных целей или кратких тренингов.

Ещё больше примеров серьезных игр  в сферах экономики, менеджмента, культуры, политики и даже генетики, найдете в полной версии статьи. Из нее же можно узнать больше о преимуществах и недостатках этого метода обучения.

Время чтения: 17 минут

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM
Больше, чем энциклопедия: Википедии 24 года!

Почему Википедия — сообщество с иерархией? У кого она стала ассоциироваться с либеральными идеями? И в каких отношениях «свободная энциклопедия» находится с большими корпорациями? Вспоминаем материал «Системного Блока» к Дню рождения Википедии. 

🖥️ Утопия и реальность

В 2001 году Википедию создавали как утопический проект, который бросал вызов самой каноничной на тот момент энциклопедии — «Британнике». Постепенно проект обзавелся редакторами и нашел партнеров среди университетов, музеев и библиотек. Так начал утверждаться авторитет Википедии, которая к началу 2010-х приобрела статус фактической энциклопедии интернета, войдя в топ-15 популярнейших веб-сайтов.

⌨️ Три уровня свободы

Хотя изначально писать и редактировать статьи мог любой желающий, руководство Википедии скоро устало от «троллей» и «вандалов», портящих статьи с анонимизированных IP-адресов Tor. Это привело к большой дискуссии о критериях «запретов» и «блокировок». В итоге википедисты разделили сообщество на три класса. Первый, имевший меньше всего привилегий, — те, кто назывался по своему IP-адресу. Второй — участники, имевшие свои личные аккаунты и известные под своими именами. Они могли добавлять и редактировать страницы с незначительными ограничениями. Третий — администраторы.

👨🏻‍💻 Ресурс для больших корпораций

Хотя природа Википедии — некоммерческая, такие корпорации, как Amazon, Apple и Google используют данные проекта для повышения ценности собственных продуктов. Даже модель GPT-3 частично обучалась на массиве данных Википедии. Поэтому сайт можно рассматривать как ресурс, который добывается и используется в качестве корпоративного товара.

О том, как это влияет на саму Википедию, а также об аналогах энциклопедии и предпосылках к их появлению, узнаете из полной версии статьи.

Время чтения: 15 минут.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM