Как думаете, к какой категории в разметке CONLL/OntoNotes принадлежат «школа», «музей», «театр» или «библиотека»?
Anonymous Quiz
18%
LOC — это локации, то есть названия мест. В школе уж точно много всего происходит!
29%
ORG — организации. И в театре, и в музее наверняка есть своя структура.
53%
FAC — от слова facility, потому что это не просто какие-то места, а учреждения, построенные людьми.
Дата-центры стоимостью 500 млрд долларов, ИИ-агенты и открытый конкурент OpenAI o1
Рассказываем, что произошло в мире ИИ за последнее время.
Полтриллиона долларов на дата-центры
Президент США Дональд Трамп совместно с CEO OpenAI Сэмом Альтманом и главой SoftBank Масаёси Соном анонсировали запуск проекта Stargate. Инициатива предполагает инвестиции в размере 500 млрд долларов на строительство серии дата-центров в США для развития и исследования искусственного интеллекта в течение четырех лет. По заявлению организаторов, первые 100 млрд уже инвестированы, началось строительство первого объекта в Техасе. Этому анонсу предшествовали длительные слухи о разработке беспрецедентно дорогого суперкомпьютера совместными усилиями OpenAI и Microsoft.
Основными спонсорами проекта выступают SoftBank, OpenAI, Oracle и MGX, где SoftBank отвечает за финансирование, а OpenAI — за операционное управление. К технологическому партнерству присоединились Arm, Microsoft, NVIDIA и Oracle. В ходе запуска проекта также стало известно о пересмотре договора между Microsoft и OpenAI, ранее ограничивающего OpenAI использованием только ресурсов Microsoft.
Илон Маск, владелец конкурирующей лаборатории xAI, раскритиковал проект Stargate, усомнившись в том, что 100 млрд долларов действительно выделены. Ранее мы рассказывали о конфликте Маска и OpenAI.
ИИ-агенты от OpenAI, ByteDance и Perplexity
Сразу несколько компаний выпустили ИИ-агентов — компьютерные программы, использующие нейросети для автономного выполнения задач на компьютере. Например, такого агента можно попросить найти и добавить в корзину онлайн-магазина продукты для приготовления блюда или объединить несколько документов и отправить их по почте коллеге.
В качестве входных данных агенты получают текстовое описание задачи. Далее на каждом шаге программа анализирует скриншот текущего экрана и, основываясь на нем и предыдущих действиях (клики мыши, ввод с клавиатуры, скролл страницы и т. д.), планирует следующий шаг.
Ранее мы рассказывали об ИИ-агенте от Anthropic. Теперь OpenAI представила агента Operator, который умеет решать задачи на различных веб-сайтах. Пользователь вводит задачу на сайте Operator, после чего модель ИИ выполняет ее в виртуальном окружении. За процессом можно следить и при необходимости вмешиваться — например, вводить данные для входа. По основным тестам Operator превосходит предыдущие лучшие решения. На данный момент Operator доступен только в США. Первые пользователи отмечают, что система недоработанная: Operator часто ошибается и работает относительно медленно.
ByteDance, компания-владелец TikTok, выложила в открытый доступ агента UI-TARS (названного в честь робота TARS из фильма «Интерстеллар»), который способен взаимодействовать с интерфейсами компьютерных программ.
Компания Perplexity, разрабатывающая поисковую систему на базе LLM, выпустила ассистента для Android-телефонов, способного искать информацию и выполнять задачи в мобильных приложениях.
DeepSeek R1 в открытом доступе
Китайская лаборатория DeepSeek выложила в открытый доступ модель Deepseek R1 вместе с описанием метода ее обучения спустя два месяца после релиза. На данный момент это первая открытая модель, сопоставимая по метрикам с Open o1 — самой передовой моделью, использующей рассуждения для решения математических, логических задач и задач программирования.
Deepseek R1 содержит 671 млрд параметров, из которых во время работы задействуется только 5,5%. Конкретные используемые параметры определяются входными данными. Модель обучена с помощью методов обучения с подкреплением. В техническом отчете авторы также продемонстрировали возможность обучения намного более компактных моделей на данных, сгенерированных R1.
Открытый доступ к R1 и документации по ее созданию уравнял шансы open-source-сообщества в конкуренции с технологическими гигантами вроде OpenAI и Google.
🤖 «Системный Блокъ» @sysblok
Рассказываем, что произошло в мире ИИ за последнее время.
Полтриллиона долларов на дата-центры
Президент США Дональд Трамп совместно с CEO OpenAI Сэмом Альтманом и главой SoftBank Масаёси Соном анонсировали запуск проекта Stargate. Инициатива предполагает инвестиции в размере 500 млрд долларов на строительство серии дата-центров в США для развития и исследования искусственного интеллекта в течение четырех лет. По заявлению организаторов, первые 100 млрд уже инвестированы, началось строительство первого объекта в Техасе. Этому анонсу предшествовали длительные слухи о разработке беспрецедентно дорогого суперкомпьютера совместными усилиями OpenAI и Microsoft.
Основными спонсорами проекта выступают SoftBank, OpenAI, Oracle и MGX, где SoftBank отвечает за финансирование, а OpenAI — за операционное управление. К технологическому партнерству присоединились Arm, Microsoft, NVIDIA и Oracle. В ходе запуска проекта также стало известно о пересмотре договора между Microsoft и OpenAI, ранее ограничивающего OpenAI использованием только ресурсов Microsoft.
Илон Маск, владелец конкурирующей лаборатории xAI, раскритиковал проект Stargate, усомнившись в том, что 100 млрд долларов действительно выделены. Ранее мы рассказывали о конфликте Маска и OpenAI.
ИИ-агенты от OpenAI, ByteDance и Perplexity
Сразу несколько компаний выпустили ИИ-агентов — компьютерные программы, использующие нейросети для автономного выполнения задач на компьютере. Например, такого агента можно попросить найти и добавить в корзину онлайн-магазина продукты для приготовления блюда или объединить несколько документов и отправить их по почте коллеге.
В качестве входных данных агенты получают текстовое описание задачи. Далее на каждом шаге программа анализирует скриншот текущего экрана и, основываясь на нем и предыдущих действиях (клики мыши, ввод с клавиатуры, скролл страницы и т. д.), планирует следующий шаг.
Ранее мы рассказывали об ИИ-агенте от Anthropic. Теперь OpenAI представила агента Operator, который умеет решать задачи на различных веб-сайтах. Пользователь вводит задачу на сайте Operator, после чего модель ИИ выполняет ее в виртуальном окружении. За процессом можно следить и при необходимости вмешиваться — например, вводить данные для входа. По основным тестам Operator превосходит предыдущие лучшие решения. На данный момент Operator доступен только в США. Первые пользователи отмечают, что система недоработанная: Operator часто ошибается и работает относительно медленно.
ByteDance, компания-владелец TikTok, выложила в открытый доступ агента UI-TARS (названного в честь робота TARS из фильма «Интерстеллар»), который способен взаимодействовать с интерфейсами компьютерных программ.
Компания Perplexity, разрабатывающая поисковую систему на базе LLM, выпустила ассистента для Android-телефонов, способного искать информацию и выполнять задачи в мобильных приложениях.
DeepSeek R1 в открытом доступе
Китайская лаборатория DeepSeek выложила в открытый доступ модель Deepseek R1 вместе с описанием метода ее обучения спустя два месяца после релиза. На данный момент это первая открытая модель, сопоставимая по метрикам с Open o1 — самой передовой моделью, использующей рассуждения для решения математических, логических задач и задач программирования.
Deepseek R1 содержит 671 млрд параметров, из которых во время работы задействуется только 5,5%. Конкретные используемые параметры определяются входными данными. Модель обучена с помощью методов обучения с подкреплением. В техническом отчете авторы также продемонстрировали возможность обучения намного более компактных моделей на данных, сгенерированных R1.
Открытый доступ к R1 и документации по ее созданию уравнял шансы open-source-сообщества в конкуренции с технологическими гигантами вроде OpenAI и Google.
Please open Telegram to view this post
VIEW IN TELEGRAM
Zoom после 55: как устроено цифровое образование для старших возрастов
Некоторые думают, что жизнь после 55 замедляется и становится менее интересной. Однако это точно не так для тех, кто в этом возрасте вновь садится за парту. «Системный Блокъ» рассказывает, чему в сфере цифрового образования могут научиться самые старшие.
Кратко: о чем статья?
Обычно слово «студент» в первую очередь ассоциируется с молодыми людьми. Тем не менее, согласно статистике интернет-портала «Компании для всех возрастов», онлайн-формат обучения предпринимательству примерно одинаково актуален как молодым (младше 30 лет), так и самым старшим (60 и более лет).
После ухода на пенсию люди вновь начинают учиться в основном по двум причинам: из собственного желания и для будущего трудоустройства. Пенсионерам интересны самые разные сферы: финансовая и компьютерная грамотность, искусство, языки и многое другое. Одни курсы помогают освоиться в современном мире, другие дают возможность найти круг общения по интересам.
Сегодня пенсионеры получают цифровое образование благодаря университетам, социальным организациям и даже банкам. Например, на онлайн-платформе «Университет третьего возраста» можно научиться творческой фотографии или финансовой безопасности, а курс от «Ростелеком» и Социального фонда России расскажет о компьютерной грамотности.
В сфере онлайн-обучения для людей 50+ кроме множества возможностей существуют и некоторые трудности. Так, пожилым людям часто нужна помощь с выходом в онлайн и подробные инструкции. Но возраст не является препятствием в получении образования, а сама учеба помогает замедлить старение, особенно в сфере когнитивных функций.
Подробнее о том, какие сферы интересно изучать людям 50+ и где они могут научиться новому, читайте в полной версии статьи.
Время чтения: 15 минут
🤖 «Системный Блокъ» @sysblok
Некоторые думают, что жизнь после 55 замедляется и становится менее интересной. Однако это точно не так для тех, кто в этом возрасте вновь садится за парту. «Системный Блокъ» рассказывает, чему в сфере цифрового образования могут научиться самые старшие.
Кратко: о чем статья?
Обычно слово «студент» в первую очередь ассоциируется с молодыми людьми. Тем не менее, согласно статистике интернет-портала «Компании для всех возрастов», онлайн-формат обучения предпринимательству примерно одинаково актуален как молодым (младше 30 лет), так и самым старшим (60 и более лет).
После ухода на пенсию люди вновь начинают учиться в основном по двум причинам: из собственного желания и для будущего трудоустройства. Пенсионерам интересны самые разные сферы: финансовая и компьютерная грамотность, искусство, языки и многое другое. Одни курсы помогают освоиться в современном мире, другие дают возможность найти круг общения по интересам.
Сегодня пенсионеры получают цифровое образование благодаря университетам, социальным организациям и даже банкам. Например, на онлайн-платформе «Университет третьего возраста» можно научиться творческой фотографии или финансовой безопасности, а курс от «Ростелеком» и Социального фонда России расскажет о компьютерной грамотности.
В сфере онлайн-обучения для людей 50+ кроме множества возможностей существуют и некоторые трудности. Так, пожилым людям часто нужна помощь с выходом в онлайн и подробные инструкции. Но возраст не является препятствием в получении образования, а сама учеба помогает замедлить старение, особенно в сфере когнитивных функций.
Подробнее о том, какие сферы интересно изучать людям 50+ и где они могут научиться новому, читайте в полной версии статьи.
Время чтения: 15 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Курсы для пенсионеров бесплатно, но с регистрацией: как устроено образование для самых старших
«Системный Блокъ» рассказывает, как устроено цифровое образование для пенсионеров. Рассматриваем проекты «Московское долголетие», «Активное долголетие» и многие другие.
Коэволюция и кооперация: как биологи и лингвисты изучают эволюцию языка
Историческая лингвистика и эволюционная биология изучают схожие процессы: развитие языков и эволюцию живых организмов. Иногда их интересы пересекаются напрямую: реконструируя эволюцию языков и генов, лингвисты и биологи помогают археологам воссоздать картину древних миграций и распространения культур. Неудивительно, что исследователи перенимают друг у друга идеи и методы. Какие именно — рассказываем далее.
От Сократа до санскрита
Люди задумывались об эволюции языка еще со времен Сократа (он жаловался, что язык портится, сопоставляя современную ему версию греческого с более древними). Правда, самостоятельное направление, изучающее эволюцию языков, — сравнительно-историческое языкознание, или компаративистика, — оформилось гораздо позже. Это произошло благодаря Уильяму Джонсу, который в 1786 году указал на связь санскрита с греческим, латинским, кельтским, готским и древнеперсидским.
Мутации и дрейф (языковых) генов
Наблюдения Джонса подтолкнули других ученых продолжить сопоставление языков. Немецкий лингвист Август Шлейхер, например, сравнивал языки с живыми организмами, поскольку они так же подчиняются законам изменчивости и борьбы за существование. И хотя его идеи активно критиковали, некоторые параллели всё же можно провести. Так, мы можем наблюдать в языках своеобразный дрейф генов, когда одно слово по чистой случайности становится «вирусным», а его менее удачливый синоним совсем выходит из употребления. А ещё ошибки в произношении или написании слов могут со временем закрепляться, как мутации в биологии.
Природа неправильных глаголов
Современные исследователи тоже работают с параллелями, которые видят в лингвистике и биологии. В 2007 году журнал Nature опубликовал сразу две работы о языках, написанные учеными-биологами. Исследователи описали закономерность эволюции языка, которую хорошо знали по своему предмету: то, что часто используется, редко изменяется. Скажем, вероятность превращения неправильного глагола в правильный тем меньше, чем чаще используется глагол.
Поиск языковых предков
Впрочем, наиболее тесно лингвисты и биологи сотрудничают при изучении древних миграций и распространения языков и культур: именно здесь результаты их исследований уточняют и дополняют друг друга. Наглядный пример объединения усилий — поиски родины индоевропейских языков (спойлер: лидирует гипотеза о том, что протоиндоевропейский язык мог возникнуть в Закавказье, откуда потом распространился севернее, в степи ).
Подробнее о поиске родины языков и других направлениях, в которых лингвисты и биологи работают совместно, узнаете из полной версии статьи.
Время чтения: 13 минут
🤖 «Системный Блокъ» @sysblok
Историческая лингвистика и эволюционная биология изучают схожие процессы: развитие языков и эволюцию живых организмов. Иногда их интересы пересекаются напрямую: реконструируя эволюцию языков и генов, лингвисты и биологи помогают археологам воссоздать картину древних миграций и распространения культур. Неудивительно, что исследователи перенимают друг у друга идеи и методы. Какие именно — рассказываем далее.
От Сократа до санскрита
Люди задумывались об эволюции языка еще со времен Сократа (он жаловался, что язык портится, сопоставляя современную ему версию греческого с более древними). Правда, самостоятельное направление, изучающее эволюцию языков, — сравнительно-историческое языкознание, или компаративистика, — оформилось гораздо позже. Это произошло благодаря Уильяму Джонсу, который в 1786 году указал на связь санскрита с греческим, латинским, кельтским, готским и древнеперсидским.
Мутации и дрейф (языковых) генов
Наблюдения Джонса подтолкнули других ученых продолжить сопоставление языков. Немецкий лингвист Август Шлейхер, например, сравнивал языки с живыми организмами, поскольку они так же подчиняются законам изменчивости и борьбы за существование. И хотя его идеи активно критиковали, некоторые параллели всё же можно провести. Так, мы можем наблюдать в языках своеобразный дрейф генов, когда одно слово по чистой случайности становится «вирусным», а его менее удачливый синоним совсем выходит из употребления. А ещё ошибки в произношении или написании слов могут со временем закрепляться, как мутации в биологии.
Природа неправильных глаголов
Современные исследователи тоже работают с параллелями, которые видят в лингвистике и биологии. В 2007 году журнал Nature опубликовал сразу две работы о языках, написанные учеными-биологами. Исследователи описали закономерность эволюции языка, которую хорошо знали по своему предмету: то, что часто используется, редко изменяется. Скажем, вероятность превращения неправильного глагола в правильный тем меньше, чем чаще используется глагол.
Поиск языковых предков
Впрочем, наиболее тесно лингвисты и биологи сотрудничают при изучении древних миграций и распространения языков и культур: именно здесь результаты их исследований уточняют и дополняют друг друга. Наглядный пример объединения усилий — поиски родины индоевропейских языков (спойлер:
Подробнее о поиске родины языков и других направлениях, в которых лингвисты и биологи работают совместно, узнаете из полной версии статьи.
Время чтения: 13 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как биологи и лингвисты вместе изучают эволюцию языков
Язык распространяется, развивается и даже мутирует, подчиняясь законам естественных наук. Рассказываем, как с его помощью реконструировать эволюцию человечества и какой вклад в языкознание внес Чарльз Дарвин.
Языки программирования vs естественный язык: сходства и отличия
Почему Python, Java и даже C++ гораздо ближе к естественным языкам, чем принято считать? Чем языки программирования отличаются от машинного кода, который на самом деле исполняет процессор? Какие языки программирования особенно близки к человеку? Разбираемся с Борисом Ореховым, который написал об этом пост и записал видеоролик 🎞
Что происходит под капотом компьютера?
Компьютеры не думают на языках программирования. Все вычислительные операции происходят с помощью очень формализованных инструкций процессора, которые называются машинным кодом. Выглядит это, например, так:
Эти коды заставляют процессор выполнять арифметические операции — взять число, прибавить к нему другое, умножить число и т.п. Обычный пользователь не знает или быстро забывает об этом: если на экране открыт мессенджер или текстовый редактор, мы считаем, что работаем с текстом, а не с числами. Но процессор в конечном счете всегда оперирует числами, даже когда вы смотрите видео с Борисом Ореховым на ютубе 🙂
Что же такое языки программирования?
Языки программирования придуманы, чтобы обобщать куски машинного кода в инструкции, которыми может оперировать человек. То есть сделаны людьми и для людей. В языках программирования, в отличие от машинного кода, есть слова — обычно из английского (run, do, for, in, while…), хотя и не всегда. И уже под этими — понятными человеку — словами скрываются (через множество дополнительных прослоек) наборы команд машинного кода.
Какие языки программирования особенно близки к человеческим?
Языков программирования много и они все разные. Например, некоторые называются языками низкого уровня, а некоторые — высокого. Это не значит, что одни для крестьян, а другие для аристократов. За этим стоит самовлюбленное представление человека о том, что он находится наверху пищевой цепи, а компьютер — внизу. Если язык в этой схеме ближе к компьютеру, ориентируется на схемы описания задачи по-компьютерному, требует детализации каждого шага — откуда взять число, как его сложить с другим числом, то такой язык внизу, низкого уровня. А если язык ориентирован на человека, не закапывается в мелочах, и человек с помощью этого языка может просто написать что-то вроде «сделай мне красиво, а как ты это сделаешь, меня не волнует», то язык этот — высокого уровня. Типичный пример — Python, о котором часто говорят, что с его помощью можно «программировать на английском», настолько он близок к естественному языку (но, конечно, только на фоне других языков программирования).
В чем сходства языков программирования с естественными?
В языках программирования тоже есть аналог слов, причем это не только имена переменных, это и операторы, и числа. Плюс, больше или равно — тоже слова. В языках обоих типов есть грамматика, правила соединения слов вместе. Языки программирования, как и естественные языки, нужны для коммуникации, в которой участвует человек.
А в чем отличия?
Естественные языки универсальны: на них можно высказываться о мире, описывать несуществующие вещи, создавать совершенно новые фантастические миры, говорить о психологии, религии, философии и т.п. Языки программирования гораздо более узкие и приземленные: все, что на них можно сказать, должно в итоге быть конвертируемо в команды машинного кода процессора, ведь они имеют конкретную цель — отдавать приказы компьютеру. Несмотря на это, отдельные люди пытаются применять языки программирования для литературного творчества, например, писали на них стихи.
Подробнее читайте в блоге Бориса Орехова или смотрите его видео
🤖 «Системный Блокъ» @sysblok
Почему Python, Java и даже C++ гораздо ближе к естественным языкам, чем принято считать? Чем языки программирования отличаются от машинного кода, который на самом деле исполняет процессор? Какие языки программирования особенно близки к человеку? Разбираемся с Борисом Ореховым, который написал об этом пост и записал видеоролик 🎞
Что происходит под капотом компьютера?
Компьютеры не думают на языках программирования. Все вычислительные операции происходят с помощью очень формализованных инструкций процессора, которые называются машинным кодом. Выглядит это, например, так:
BB 11 01 B9 0D 00 B4 0E 8A
Эти коды заставляют процессор выполнять арифметические операции — взять число, прибавить к нему другое, умножить число и т.п. Обычный пользователь не знает или быстро забывает об этом: если на экране открыт мессенджер или текстовый редактор, мы считаем, что работаем с текстом, а не с числами. Но процессор в конечном счете всегда оперирует числами, даже когда вы смотрите видео с Борисом Ореховым на ютубе 🙂
Что же такое языки программирования?
Языки программирования придуманы, чтобы обобщать куски машинного кода в инструкции, которыми может оперировать человек. То есть сделаны людьми и для людей. В языках программирования, в отличие от машинного кода, есть слова — обычно из английского (run, do, for, in, while…), хотя и не всегда. И уже под этими — понятными человеку — словами скрываются (через множество дополнительных прослоек) наборы команд машинного кода.
Какие языки программирования особенно близки к человеческим?
Языков программирования много и они все разные. Например, некоторые называются языками низкого уровня, а некоторые — высокого. Это не значит, что одни для крестьян, а другие для аристократов. За этим стоит самовлюбленное представление человека о том, что он находится наверху пищевой цепи, а компьютер — внизу. Если язык в этой схеме ближе к компьютеру, ориентируется на схемы описания задачи по-компьютерному, требует детализации каждого шага — откуда взять число, как его сложить с другим числом, то такой язык внизу, низкого уровня. А если язык ориентирован на человека, не закапывается в мелочах, и человек с помощью этого языка может просто написать что-то вроде «сделай мне красиво, а как ты это сделаешь, меня не волнует», то язык этот — высокого уровня. Типичный пример — Python, о котором часто говорят, что с его помощью можно «программировать на английском», настолько он близок к естественному языку (но, конечно, только на фоне других языков программирования).
В чем сходства языков программирования с естественными?
В языках программирования тоже есть аналог слов, причем это не только имена переменных, это и операторы, и числа. Плюс, больше или равно — тоже слова. В языках обоих типов есть грамматика, правила соединения слов вместе. Языки программирования, как и естественные языки, нужны для коммуникации, в которой участвует человек.
А в чем отличия?
Естественные языки универсальны: на них можно высказываться о мире, описывать несуществующие вещи, создавать совершенно новые фантастические миры, говорить о психологии, религии, философии и т.п. Языки программирования гораздо более узкие и приземленные: все, что на них можно сказать, должно в итоге быть конвертируемо в команды машинного кода процессора, ведь они имеют конкретную цель — отдавать приказы компьютеру. Несмотря на это, отдельные люди пытаются применять языки программирования для литературного творчества, например, писали на них стихи.
Подробнее читайте в блоге Бориса Орехова или смотрите его видео
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Языки машин и людей - Системный Блокъ
Языки программирования и естественные языки — и те и другие языки? И что будет, если их сравнить? И те и другие облегчают коммуникацию, но у них разные выразительные возможности. Разбираемся, какие.
Наперекор всему. Как выживают правосторонние шрифты в цифровом пространстве?
Сегодня многие цифровые инструменты работают с иероглифами, арабской вязью или еврейским письмом совсем не так хорошо, как с латиницей. Как их адаптировать и «сломать» Word или VS Code, смешав текст на латинице и арабице? И почему крупные разработчики ПО не обращают внимание на эту проблему?
Кратко: о чем статья?
За примерами сложностей при работе с RTL (системы письменности right-to-left, т.е. справа налево) далеко ходить не надо: уже в Word начнутся трудности при попытке вставить пример на арабском в русский или английчский текст. Хотя с самим по себе арабским языком в Word вполне комфортно работать: он поддерживает даже дополнительные настройки и шрифты, но ровно до тех пор, пока пользователь не захочет вставить слово на латинице в свой стройный арабский текст. Похожая история случается во всех популярных текстовых редакторах.
Более того, из-за специфики арабских шрифтов при визуализации или выводе результатов арабский текст зачастую разбивается на отдельные буквы, а в исследованиях возникают ситуации, когда конечные результаты могут частично искажаться из-за ситуативных проблем с обработкой RTL языков. Это ставит вызов перед исследователями Востока, ведь зачастую нельзя взять для своего проекта уже готовый инструмент.
К счастью, со многими трудностями люди, постоянно занимающиеся, например, арабским языком, уже научились справляться. Постепенно адаптируются к RTL языкам и сами инструменты. Популярный корпусный менеджер Voyant Tools минимизирует риск возникновения ошибок, а Web scraper успешно справляется с парсингом RTL текстов.
Серьезный научный интерес к этому вопросу растет как со стороны историков, так и со стороны специалистов по Digital Humanities, но реальное развитие, похоже, идет медленно. Так что сегодня цифровое пространство по-прежнему ориентировано в первую очередь на LTR (left-to-right) пользователей.
О том, почему внедрение новых инструментов идет настолько сложно и медленно, а также о тех исследованиях и исследователях, которые работают над решением проблемы и привлечением к ней внимания, узнаете из полной версии статьи.
Время чтения: 10 минут
🤖 «Системный Блокъ» @sysblok
Сегодня многие цифровые инструменты работают с иероглифами, арабской вязью или еврейским письмом совсем не так хорошо, как с латиницей. Как их адаптировать и «сломать» Word или VS Code, смешав текст на латинице и арабице? И почему крупные разработчики ПО не обращают внимание на эту проблему?
Кратко: о чем статья?
За примерами сложностей при работе с RTL (системы письменности right-to-left, т.е. справа налево) далеко ходить не надо: уже в Word начнутся трудности при попытке вставить пример на арабском в русский или английчский текст. Хотя с самим по себе арабским языком в Word вполне комфортно работать: он поддерживает даже дополнительные настройки и шрифты, но ровно до тех пор, пока пользователь не захочет вставить слово на латинице в свой стройный арабский текст. Похожая история случается во всех популярных текстовых редакторах.
Более того, из-за специфики арабских шрифтов при визуализации или выводе результатов арабский текст зачастую разбивается на отдельные буквы, а в исследованиях возникают ситуации, когда конечные результаты могут частично искажаться из-за ситуативных проблем с обработкой RTL языков. Это ставит вызов перед исследователями Востока, ведь зачастую нельзя взять для своего проекта уже готовый инструмент.
К счастью, со многими трудностями люди, постоянно занимающиеся, например, арабским языком, уже научились справляться. Постепенно адаптируются к RTL языкам и сами инструменты. Популярный корпусный менеджер Voyant Tools минимизирует риск возникновения ошибок, а Web scraper успешно справляется с парсингом RTL текстов.
Серьезный научный интерес к этому вопросу растет как со стороны историков, так и со стороны специалистов по Digital Humanities, но реальное развитие, похоже, идет медленно. Так что сегодня цифровое пространство по-прежнему ориентировано в первую очередь на LTR (left-to-right) пользователей.
О том, почему внедрение новых инструментов идет настолько сложно и медленно, а также о тех исследованиях и исследователях, которые работают над решением проблемы и привлечением к ней внимания, узнаете из полной версии статьи.
Время чтения: 10 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Адаптация арабского письма: цифровые инструменты для правосторонних шрифтов
Как оптимизировать использование языков справа налево в программировании? С какими сложностями может столкнуться пользователь, используя арабскую письменность вместе с латиницей? Ответы на эти вопросы ищите в материале «Системного Блока».
«Дисциплинировать литературоведческую мысль может только рациональный метод»: научное завещание Бориса Ярхо
Борис Исаакович Ярхо (1889–1942) — один из самых оригинальных филологов, теоретиков и историков литературы первой половины XX века. Он работал с античными, средневековыми и современными ему текстами на двух десятках языков и к концу жизни выработал концепцию «точного литературоведения» — одну из первых попыток взглянуть на литературу как на массив данных, в котором можно выделить признаки объектов и провести количественный анализ. Увы, главный труд Ярхо — «Методология точного литературоведения» – был полностью опубликован только через 64 года после его смерти, в 2006 году. Чтобы немного восстановить справедливость, «Системный Блокъ» подготовил «посмертное интервью» с ученым на основе его главной книги.
Кратко: о чем не-интервью?
План книги о точном литературоведении Ярхо начал набрасывать в 1935 году в ссылке. Он стремился положить начало новому литературоведению, которое было бы лишено «неясности и расплывчатости» и опиралось бы на статистику и эксперимент, как естественные науки. В первую очередь Ярхо ориентировался на биологию. «Литературоведение (я не уставал это повторять) есть такая же “наука о жизни”, и у нее нет причин отставать от биологии, — говорил ученый. — а между тем, оно отстает по многим основным пунктам».
Чем, по мнению Ярхо, плохо современное ему «традиционное» литературоведение?
Ярхо жаловался на отсутствие однозначной терминологии, «неумение недвусмысленно выражаться», предлагая учиться этому у физиков. Во многих областях филологической науки Ярхо видел «обывательщину», сетовал, что «литературоведы всех стран бросаются безответственными определениями». Дисциплинировать литературоведение, по мнению Ярхо, должен «рациональный метод». Тогда можно будет с цифрами на руках сказать, чем именно отличается поэзия чинквеченто от вдохновивших её текстов Петрарки, произведения трубадуров — от творчества труверов, и т.д.
Какие примеры статистических и экспериментальных исследований приводит Ярхо?
Ярхо много занимался количественным разграничением разных форм драмы. Так, он показал, что число говорящих в каждом явлении пьесы распределено по-разному в античной трагедии, в пьесах французского классического театра и в романтических пьесах (в последних допустимо гораздо большее число персонажей). Также у Ярхо немало работ с подсчетами лексики различных типов в эпических поэмах, есть статистическое исследование того, какие типы синтаксических связей чаще разрывает перенос стихотворной строки и др. Экспериментально при участии студентов Ярхо проверял некоторые закономерности стихосложения — например, предпочтение анафоры перед другими приемами в стихосложении.
При этом в своей книге ученый приводит и задумки куда более масштабных исследований, осуществить которые не удалось. Ярхо, по его собственным словам, был готов обеспечить работой целый научный институт на 100 лет вперед. Компьютеров в его время не было, поэтому любые количественные подходы были заведомо очень трудоёмкими.
Подробнее об опытах, подсчетах и экспериментах Ярхо, а также о том, какие шаги в количественной филологии ещё до Ярхо предпринимали Чернышевский, Андрей Белый и другие, узнаете из полной версии статьи.
🤖 «Системный Блокъ» @sysblok
Борис Исаакович Ярхо (1889–1942) — один из самых оригинальных филологов, теоретиков и историков литературы первой половины XX века. Он работал с античными, средневековыми и современными ему текстами на двух десятках языков и к концу жизни выработал концепцию «точного литературоведения» — одну из первых попыток взглянуть на литературу как на массив данных, в котором можно выделить признаки объектов и провести количественный анализ. Увы, главный труд Ярхо — «Методология точного литературоведения» – был полностью опубликован только через 64 года после его смерти, в 2006 году. Чтобы немного восстановить справедливость, «Системный Блокъ» подготовил «посмертное интервью» с ученым на основе его главной книги.
Кратко: о чем не-интервью?
План книги о точном литературоведении Ярхо начал набрасывать в 1935 году в ссылке. Он стремился положить начало новому литературоведению, которое было бы лишено «неясности и расплывчатости» и опиралось бы на статистику и эксперимент, как естественные науки. В первую очередь Ярхо ориентировался на биологию. «Литературоведение (я не уставал это повторять) есть такая же “наука о жизни”, и у нее нет причин отставать от биологии, — говорил ученый. — а между тем, оно отстает по многим основным пунктам».
Чем, по мнению Ярхо, плохо современное ему «традиционное» литературоведение?
Ярхо жаловался на отсутствие однозначной терминологии, «неумение недвусмысленно выражаться», предлагая учиться этому у физиков. Во многих областях филологической науки Ярхо видел «обывательщину», сетовал, что «литературоведы всех стран бросаются безответственными определениями». Дисциплинировать литературоведение, по мнению Ярхо, должен «рациональный метод». Тогда можно будет с цифрами на руках сказать, чем именно отличается поэзия чинквеченто от вдохновивших её текстов Петрарки, произведения трубадуров — от творчества труверов, и т.д.
Какие примеры статистических и экспериментальных исследований приводит Ярхо?
Ярхо много занимался количественным разграничением разных форм драмы. Так, он показал, что число говорящих в каждом явлении пьесы распределено по-разному в античной трагедии, в пьесах французского классического театра и в романтических пьесах (в последних допустимо гораздо большее число персонажей). Также у Ярхо немало работ с подсчетами лексики различных типов в эпических поэмах, есть статистическое исследование того, какие типы синтаксических связей чаще разрывает перенос стихотворной строки и др. Экспериментально при участии студентов Ярхо проверял некоторые закономерности стихосложения — например, предпочтение анафоры перед другими приемами в стихосложении.
При этом в своей книге ученый приводит и задумки куда более масштабных исследований, осуществить которые не удалось. Ярхо, по его собственным словам, был готов обеспечить работой целый научный институт на 100 лет вперед. Компьютеров в его время не было, поэтому любые количественные подходы были заведомо очень трудоёмкими.
Подробнее об опытах, подсчетах и экспериментах Ярхо, а также о том, какие шаги в количественной филологии ещё до Ярхо предпринимали Чернышевский, Андрей Белый и другие, узнаете из полной версии статьи.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
«Методология точного литературоведения». Научное завещание Бориса Ярхо
Борис Ярхо (1889–1942) — один из самых оригинальных филологов, теоретиков и историков литературы первой половины XX века. Ярхо оставался неизвестен на Западе и малоизвестен в России вплоть до начала XXI века, когда его пионерские работы по количественному…
«Гипотеза Поллианны»: насколько позитивна детская зарубежная литература?
В 1969 году Дж. Баучер и Ч. Э. Осгуд представили и обосновали идею о том, что «люди склонны видеть (и обсуждать) светлую сторону жизни». Эту тенденцию назвали «гипотезой Поллианны» в честь главной героини романа «Поллианна», жизнерадостной сироты, которая пытается найти что-то хорошее в любой ситуации. В материале рассказываем о том, как исследователи провели сентимент-анализ корпусов детской литературы, чтобы проверить эту гипотезу.
Что и как исследовали?
Чтобы провести анализ тональности детских и юношеских текстов, ученые взяли 372 англоязычные и 500 немецкоязычных книг. В качестве инструмента для исследования был выбран SentiArt, в основе которого – векторная модель, а не списки слов. У этого метода есть свои недостатки, но ученые убедились, что он всё же эффективнее альтернатив.
Что с английским корпусом?
Посмотрев на соотношение положительных и отрицательных слов в предложении, исследователи увидели, что в среднем в предложениях было больше позитивно окрашенной лексики. Среди эмоций и чувств в корпусе преобладали удивление, страх и счастье, на второй план отошли печаль, гнев и отвращение.
А что с немецким?
Книги в немецкоязычном корпусе, который был более разнообразным и репрезентативным, тоже соответствовали «принципу Поллианны». В англоязычный корпус вошли только произведения, опубликованные только до 1952 года. Немецкий же содержал в том числе более поздние книги, включая переводы всех частей Гарри Поттера и Антуана де Сент-Экзюпери.
А есть ли различия?
Основываясь на результатах сентимент-анализа и полученных данных, исследователи пришли к выводу, что англоязычный корпус имеет более выраженный позитивный уклон, чем немецкоязычный. Более того, анализ немецкоязычных текстов показал: чем современнее произведение, тем меньше там выражена позитивность.
Узнать о результатах и процессе работы подробнее, а также выяснить, подтверждает ли «гипотезу Поллианны» сама «Поллианна», можно из полной версии статьи.
Время чтения: 8,5 минут
🤖 «Системный Блокъ» @sysblok
В 1969 году Дж. Баучер и Ч. Э. Осгуд представили и обосновали идею о том, что «люди склонны видеть (и обсуждать) светлую сторону жизни». Эту тенденцию назвали «гипотезой Поллианны» в честь главной героини романа «Поллианна», жизнерадостной сироты, которая пытается найти что-то хорошее в любой ситуации. В материале рассказываем о том, как исследователи провели сентимент-анализ корпусов детской литературы, чтобы проверить эту гипотезу.
Что и как исследовали?
Чтобы провести анализ тональности детских и юношеских текстов, ученые взяли 372 англоязычные и 500 немецкоязычных книг. В качестве инструмента для исследования был выбран SentiArt, в основе которого – векторная модель, а не списки слов. У этого метода есть свои недостатки, но ученые убедились, что он всё же эффективнее альтернатив.
Что с английским корпусом?
Посмотрев на соотношение положительных и отрицательных слов в предложении, исследователи увидели, что в среднем в предложениях было больше позитивно окрашенной лексики. Среди эмоций и чувств в корпусе преобладали удивление, страх и счастье, на второй план отошли печаль, гнев и отвращение.
А что с немецким?
Книги в немецкоязычном корпусе, который был более разнообразным и репрезентативным, тоже соответствовали «принципу Поллианны». В англоязычный корпус вошли только произведения, опубликованные только до 1952 года. Немецкий же содержал в том числе более поздние книги, включая переводы всех частей Гарри Поттера и Антуана де Сент-Экзюпери.
А есть ли различия?
Основываясь на результатах сентимент-анализа и полученных данных, исследователи пришли к выводу, что англоязычный корпус имеет более выраженный позитивный уклон, чем немецкоязычный. Более того, анализ немецкоязычных текстов показал: чем современнее произведение, тем меньше там выражена позитивность.
Узнать о результатах и процессе работы подробнее, а также выяснить, подтверждает ли «гипотезу Поллианны» сама «Поллианна», можно из полной версии статьи.
Время чтения: 8,5 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Насколько позитивна детская зарубежная литература?
Как «принцип Поллианны» проявляется в зарубежной литературе для детей и подростков? Рассказываем, как при помощи сентимент-анализа и векторных моделей проверяли эту теорию.
Шум вокруг DeepSeek, «глубокий ресерч» от OpenAI, новые LLM от Google
Рассказываем, что произошло в мире ИИ за последнее время.
Шум вокруг DeepSeek
Публикация языковых моделей DeepSeek-V3 и DeepSeek-R1 произвела фурор на рынке ИИ. Ранее мы рассказывали, что стоимость обучения третьей версии LLM от DeepSeek, по заявлениям компании, в десятки раз ниже, чем у конкурирующих компаний, включая OpenAI, Meta* и Anthropic. При этом модель DeepSeek-R1 не только сопоставима с лучшими решениями по основным метрикам, но и доступна для коммерческого использования всем желающим. После выпуска приложение DeepSeek быстро заняло первое место в App Store, обогнав приложение ChatGPT.
Выход DeepSeek-R1, способной генерировать развернутые рассуждения для улучшения качества итоговых ответов, вместе с техническим описанием процесса ее разработки существенно сократил разрыв между open-source-моделями и разработками крупных технологических компаний.
Низкая стоимость и эффективность обучения DeepSeek-V3 поставили под сомнение необходимость наращивания вычислительных мощностей для создания новых моделей. Это привело к резкому падению акций компаний, разрабатывающих чипы для обучения нейросетей. В частности, к 28 января акции производителя видеокарт (GPU, на которых обучают нейросети) Nvidia упали на 17%.
На фоне ускорения гонки ИИ, отмеченной анонсом проекта Stargate и успехом китайского DeepSeek, Франция и ОАЭ объявили о совместных инвестициях 30–50 млрд евро в разработку нового дата-центра.
Автономный исследователь от OpenAI
OpenAI представила Deep Research — агента, способного самостоятельно проводить комплексные исследования по заданным темам. Сервис, работающий на основе нейросетей, может анализировать рынки, обрабатывать научные запросы, помогать в поиске книг и фильмов по описанию, а также подбирать товары по заданным параметрам.
Пользователи могут делать разнообразные запросы: от анализа аудитории мобильных приложений определенной тематики с формированием сводных таблиц до подбора сноуборда с конкретными характеристиками в определенном ценовом диапазоне. Используя поисковую систему и рассуждающую языковую модель GPT o3, сервис проводит исследование в течение 5–30 минут и предоставляет структурированный отчет с результатами.
Сейчас Deep Research доступен только пользователям с подпиской ChatGPT Pro, а со следующего месяца станет доступен и владельцам ChatGPT Plus.
Google обновила модель Gemini
Google представила вторую версию семейства языковых моделей Gemini, включающую три варианта:
1. Gemini 2.0 Pro — флагманская модель премиум-класса, у которой лучшие показатели в семействе в задачах генерации кода и решении сложных логических и математических задач. В настоящее время находится в стадии Preview.
2.Gemini 2.0 Flash — модель общего назначения для массового пользователя с более доступной ценой: 10 центов за 1 млн токенов (частей слов или целых слов).
3. Gemini 2.0 Flash-Lite — наиболее экономичная версия с ценой 7,5 центов за 1 млн токенов.
Все модели, кроме Flash-Lite, способны работать с внешними инструментами (поисковиками, средами выполнения кода, браузерами) и генерировать не только текстовый контент, но также изображения и аудио.
Ранее мы рассказывали о релизе рассуждающей модели Gemini 2.0 Flash Thinking.
🤖 «Системный Блокъ» @sysblok
*Meta признана в РФ экстремистской организацией
Рассказываем, что произошло в мире ИИ за последнее время.
Шум вокруг DeepSeek
Публикация языковых моделей DeepSeek-V3 и DeepSeek-R1 произвела фурор на рынке ИИ. Ранее мы рассказывали, что стоимость обучения третьей версии LLM от DeepSeek, по заявлениям компании, в десятки раз ниже, чем у конкурирующих компаний, включая OpenAI, Meta* и Anthropic. При этом модель DeepSeek-R1 не только сопоставима с лучшими решениями по основным метрикам, но и доступна для коммерческого использования всем желающим. После выпуска приложение DeepSeek быстро заняло первое место в App Store, обогнав приложение ChatGPT.
Выход DeepSeek-R1, способной генерировать развернутые рассуждения для улучшения качества итоговых ответов, вместе с техническим описанием процесса ее разработки существенно сократил разрыв между open-source-моделями и разработками крупных технологических компаний.
Низкая стоимость и эффективность обучения DeepSeek-V3 поставили под сомнение необходимость наращивания вычислительных мощностей для создания новых моделей. Это привело к резкому падению акций компаний, разрабатывающих чипы для обучения нейросетей. В частности, к 28 января акции производителя видеокарт (GPU, на которых обучают нейросети) Nvidia упали на 17%.
На фоне ускорения гонки ИИ, отмеченной анонсом проекта Stargate и успехом китайского DeepSeek, Франция и ОАЭ объявили о совместных инвестициях 30–50 млрд евро в разработку нового дата-центра.
Автономный исследователь от OpenAI
OpenAI представила Deep Research — агента, способного самостоятельно проводить комплексные исследования по заданным темам. Сервис, работающий на основе нейросетей, может анализировать рынки, обрабатывать научные запросы, помогать в поиске книг и фильмов по описанию, а также подбирать товары по заданным параметрам.
Пользователи могут делать разнообразные запросы: от анализа аудитории мобильных приложений определенной тематики с формированием сводных таблиц до подбора сноуборда с конкретными характеристиками в определенном ценовом диапазоне. Используя поисковую систему и рассуждающую языковую модель GPT o3, сервис проводит исследование в течение 5–30 минут и предоставляет структурированный отчет с результатами.
Сейчас Deep Research доступен только пользователям с подпиской ChatGPT Pro, а со следующего месяца станет доступен и владельцам ChatGPT Plus.
Google обновила модель Gemini
Google представила вторую версию семейства языковых моделей Gemini, включающую три варианта:
1. Gemini 2.0 Pro — флагманская модель премиум-класса, у которой лучшие показатели в семействе в задачах генерации кода и решении сложных логических и математических задач. В настоящее время находится в стадии Preview.
2.Gemini 2.0 Flash — модель общего назначения для массового пользователя с более доступной ценой: 10 центов за 1 млн токенов (частей слов или целых слов).
3. Gemini 2.0 Flash-Lite — наиболее экономичная версия с ценой 7,5 центов за 1 млн токенов.
Все модели, кроме Flash-Lite, способны работать с внешними инструментами (поисковиками, средами выполнения кода, браузерами) и генерировать не только текстовый контент, но также изображения и аудио.
Ранее мы рассказывали о релизе рассуждающей модели Gemini 2.0 Flash Thinking.
*Meta признана в РФ экстремистской организацией
Please open Telegram to view this post
VIEW IN TELEGRAM
Как можно улучшить ответы языковых моделей? Гайд по промтам
Сегодня качество ответов языковых моделей напрямую зависит от того, как сформулирован запрос. Новейшие LLM (large language model, большая языковая модель) уже неплохо справляются с неточными формулировками, но в большинстве случаев для успешной коммуникации с нейросетями всё ещё необходимы специальные методы и качественные промты. О том, как сформулировать запросы для языковых моделей, рассказываем в новом гайде.
👌🏻 Zero-shot prompting
Простые и короткие запросы к моделям приведут к выдаче простых и стандартных ответы. Например, есть запрос без примеров (zero-shot prompting): в этом случае мы рассчитываем на качество модели, на ее системные установки. Такие запросы хорошо работают для популярных запросов, для которых обучали модель (например, суммаризация текста или предварительный анализ данных).
✌🏻 One/few shot prompting
Если вы хотите получить от модели более развернутый и глубокий ответ в определенном формате/стиле, то при помощи одного или нескольких примеров (подсказок) необходимо явно показать, чего вы от нее ждете. Такой метод формулирования запросов называется one/few shot prompting. Примеры актуализирует в контексте модели более глубокие связи, которые были построены ею в процессе обучения, что в итоге помогает добиться ответа, который точнее соответствует запросу.
🙌🏻 Chain-of-Thought
Для решения сложных логических или математических задач используется техника chain-of-thought, или цепочка рассуждений (мы уже рассказывали о ней здесь). Простейший способ задействовать эту технику — прямо обозначить ее в запросе, используя выражения-маркеры вроде: «Давай думать шаг за шагом». В более сложных случаях можно задать для модели логику рассуждения, последовательность действий и этапы проверки.
Сравнить ответы языковой модели на одни и те же запросы, сформулированные с помощью разных методов, и узнать, что мотивировало ChatGPT-4o написать в обращении письма «Многоуважаемый и всечестнейший Профессор», можно, перейдя к полной версии статьи.
🤖 «Системный Блокъ» @sysblok
Сегодня качество ответов языковых моделей напрямую зависит от того, как сформулирован запрос. Новейшие LLM (large language model, большая языковая модель) уже неплохо справляются с неточными формулировками, но в большинстве случаев для успешной коммуникации с нейросетями всё ещё необходимы специальные методы и качественные промты. О том, как сформулировать запросы для языковых моделей, рассказываем в новом гайде.
👌🏻 Zero-shot prompting
Простые и короткие запросы к моделям приведут к выдаче простых и стандартных ответы. Например, есть запрос без примеров (zero-shot prompting): в этом случае мы рассчитываем на качество модели, на ее системные установки. Такие запросы хорошо работают для популярных запросов, для которых обучали модель (например, суммаризация текста или предварительный анализ данных).
✌🏻 One/few shot prompting
Если вы хотите получить от модели более развернутый и глубокий ответ в определенном формате/стиле, то при помощи одного или нескольких примеров (подсказок) необходимо явно показать, чего вы от нее ждете. Такой метод формулирования запросов называется one/few shot prompting. Примеры актуализирует в контексте модели более глубокие связи, которые были построены ею в процессе обучения, что в итоге помогает добиться ответа, который точнее соответствует запросу.
🙌🏻 Chain-of-Thought
Для решения сложных логических или математических задач используется техника chain-of-thought, или цепочка рассуждений (мы уже рассказывали о ней здесь). Простейший способ задействовать эту технику — прямо обозначить ее в запросе, используя выражения-маркеры вроде: «Давай думать шаг за шагом». В более сложных случаях можно задать для модели логику рассуждения, последовательность действий и этапы проверки.
Сравнить ответы языковой модели на одни и те же запросы, сформулированные с помощью разных методов, и узнать, что мотивировало ChatGPT-4o написать в обращении письма «Многоуважаемый и всечестнейший Профессор», можно, перейдя к полной версии статьи.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Промты для нейросетей: как писать идеальные запросы к LLM
Рассказываем в нашем гайде про промт-инжиниринг и о том, как писать промты для нейросетей (LLM). Можно ли повысить качество ответов языковых моделей с помощью промтов? Как сделать так, чтобы их ответы следовали определенному формату? Как заставить модели…
Их Римская империя: жизнь и связи древних римлян в просопографических базах данных
Просопография — это историческая дисциплина, которая собирает, структурирует и исследует данные о людях, живших в конкретный исторический период в конкретном регионе. «Системный Блокъ» на примере проекта Romans 1by1 рассказывает о создании просопрографических баз данных и какие драматические истории они могут скрывать
Кратко: о чем статья?
Изначально составители просопографий интересовались людьми более-менее известными, а спустя время просопографические базы данных стали рассказывать и об обычных людях с их повседневной жизнью. Например, классическая «Просопография поздней Римской империи» содержит сведения о государственных и военных служащих Рима, врачах, юристах или философах. А более поздняя Prosopography of the Byzantine World включает данные о торговцах, пекарях или пиратах.
Просопография Romans One by One — реляционная база данных, в ней все организовано по табличному принципу. Например, таблица Personal Data содержит информацию об имени и когномене человека (индивидуальном прозвище), его происхождении, роде занятий и многом другом. Такую базу данных можно представить в виде графовой модели — схематического изображения сетей связей и отношений.
Графовые модели легко адаптировать под разные исследовательские задачи, они позволяют увидеть связи человека, сообщества, к которым он принадлежал, или его индивидуальные перемещения в конкретном регионе. Например, в городе Напока графовая модель позволила «выявить» династию выходцев из Малой Азии, а у римского проконсула Гая Овиния Тертуллия не оказалось никаких социальных связей вообще, зато множество достижений в строительстве дорог.
Более подробно о том, какие исследовательские задачи можно решать с просопографическими базами данных, а также о других интересных историях, которые они содержат, читайте в полной версии статьи.
Время чтения: 12 минут.
🤖 «Системный Блокъ» @sysblok
Просопография — это историческая дисциплина, которая собирает, структурирует и исследует данные о людях, живших в конкретный исторический период в конкретном регионе. «Системный Блокъ» на примере проекта Romans 1by1 рассказывает о создании просопрографических баз данных и какие драматические истории они могут скрывать
Кратко: о чем статья?
Изначально составители просопографий интересовались людьми более-менее известными, а спустя время просопографические базы данных стали рассказывать и об обычных людях с их повседневной жизнью. Например, классическая «Просопография поздней Римской империи» содержит сведения о государственных и военных служащих Рима, врачах, юристах или философах. А более поздняя Prosopography of the Byzantine World включает данные о торговцах, пекарях или пиратах.
Просопография Romans One by One — реляционная база данных, в ней все организовано по табличному принципу. Например, таблица Personal Data содержит информацию об имени и когномене человека (индивидуальном прозвище), его происхождении, роде занятий и многом другом. Такую базу данных можно представить в виде графовой модели — схематического изображения сетей связей и отношений.
Графовые модели легко адаптировать под разные исследовательские задачи, они позволяют увидеть связи человека, сообщества, к которым он принадлежал, или его индивидуальные перемещения в конкретном регионе. Например, в городе Напока графовая модель позволила «выявить» династию выходцев из Малой Азии, а у римского проконсула Гая Овиния Тертуллия не оказалось никаких социальных связей вообще, зато множество достижений в строительстве дорог.
Более подробно о том, какие исследовательские задачи можно решать с просопографическими базами данных, а также о других интересных историях, которые они содержат, читайте в полной версии статьи.
Время чтения: 12 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Жизнь и связи древних римлян: о чем могут рассказать просопографические базы данных?
Просопография занимается тем, что собирает данные о жизни и связях людей прошлого. Оцифрованные просопографические базы могут много рассказать о круге общения или перемещениях целых социальных групп или классов. На примере проекта Romans One by One рассказываем…
Какие языковые модели (LLM) хорошо пересказывают истории
Способны ли LLM пересказать и проинтерпретировать художественный текст без ошибок? Ведь повествование в произведении может быть нелинейным и недостоверным — от ненадежного рассказчика, язык — меняющимся, а детали — важными и второстепенными. Ученые Колумбийского университета провели эксперимент по суммаризации рассказов, а мы делимся с вами его результатами!
Что за эксперимент?
Суммаризация — это автоматическое составление краткого пересказа. Она бывает двух видов: экстрактивная и абстрактивная. В первом случае из текста извлекаются наиболее важные отрывки в неизменном виде, во втором — генерируется новый текст на основе заданного.
Чтобы узнать, как с задачей суммаризации справятся LLM, ученые решили взять тексты, которые модели точно никогда не видели. В этом помогли реальные писатели, предоставившие свои еще не выложенные онлайн и никем не обсуждавшиеся публично произведения. Так, 25 текстов девяти авторов предложили пересказать GPT-4, Llama-2-70B-chat* и Claude-2.1.
Как тестировали модели?
Для Claude и GPT-4 использовался одинаковый промпт (текстовая затравка), поскольку их контекстное окно позволяет обрабатывать каждый из рассказов целиком. Интересно, что Claude отказалась суммаризовать два произведения: они содержали неэтичный (по ее настройкам) контент.
Llama* же принимает более короткие тексты, поэтому средние и длинные рассказы делились на несколько отрывков по разделам или параграфам. Сначала модель пересказывала каждый из фрагментов, а затем генерировала финальный вариант по соединенным промежуточным саммари. Затем каждый пересказ оценивался по четырем критериям:
- охват — упоминание важных сюжетных точек.
- достоверность — наличие несуществующих в исходном тексте деталей или искажение истории;
- связность текста;
- анализ — наличие верной интерпретации главного посыла или темы рассказа
Какие результаты?
GPT-4 и Claude смогли предоставить идеальные саммари, но только в половине случаев. Кроме того, пересказы первой модели лидировали по всем параметрам. А вот Llama по всем критериям проиграла.
Кстати, оценивали получившиеся пересказы не только авторы рассказов, но и… сами модели! Узнать, справились ли LLM со своей задачей по собственному мнению (спойлер: конечно, они завысили себе оценки), можно из полного текста материала.
Время чтения: 11,5 минут
*Компания Meta признана экстремистской и запрещенной на территории РФ.
🤖 «Системный Блокъ» @sysblok
Способны ли LLM пересказать и проинтерпретировать художественный текст без ошибок? Ведь повествование в произведении может быть нелинейным и недостоверным — от ненадежного рассказчика, язык — меняющимся, а детали — важными и второстепенными. Ученые Колумбийского университета провели эксперимент по суммаризации рассказов, а мы делимся с вами его результатами!
Что за эксперимент?
Суммаризация — это автоматическое составление краткого пересказа. Она бывает двух видов: экстрактивная и абстрактивная. В первом случае из текста извлекаются наиболее важные отрывки в неизменном виде, во втором — генерируется новый текст на основе заданного.
Чтобы узнать, как с задачей суммаризации справятся LLM, ученые решили взять тексты, которые модели точно никогда не видели. В этом помогли реальные писатели, предоставившие свои еще не выложенные онлайн и никем не обсуждавшиеся публично произведения. Так, 25 текстов девяти авторов предложили пересказать GPT-4, Llama-2-70B-chat* и Claude-2.1.
Как тестировали модели?
Для Claude и GPT-4 использовался одинаковый промпт (текстовая затравка), поскольку их контекстное окно позволяет обрабатывать каждый из рассказов целиком. Интересно, что Claude отказалась суммаризовать два произведения: они содержали неэтичный (по ее настройкам) контент.
Llama* же принимает более короткие тексты, поэтому средние и длинные рассказы делились на несколько отрывков по разделам или параграфам. Сначала модель пересказывала каждый из фрагментов, а затем генерировала финальный вариант по соединенным промежуточным саммари. Затем каждый пересказ оценивался по четырем критериям:
- охват — упоминание важных сюжетных точек.
- достоверность — наличие несуществующих в исходном тексте деталей или искажение истории;
- связность текста;
- анализ — наличие верной интерпретации главного посыла или темы рассказа
Какие результаты?
GPT-4 и Claude смогли предоставить идеальные саммари, но только в половине случаев. Кроме того, пересказы первой модели лидировали по всем параметрам. А вот Llama по всем критериям проиграла.
Кстати, оценивали получившиеся пересказы не только авторы рассказов, но и… сами модели! Узнать, справились ли LLM со своей задачей по собственному мнению (спойлер: конечно, они завысили себе оценки), можно из полного текста материала.
Время чтения: 11,5 минут
*Компания Meta признана экстремистской и запрещенной на территории РФ.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как большие языковые модели справляются с суммаризацией художественных произведений?
Может ли искусственный интеллект составить саммари произведения? Насколько точен пересказ, сделанный ChatGPT, и чем может быть полезен ИИ для писателей?
Пушкин цифровой: два века работы в одном интерактивном издании
Александр Пушкин — один из самых изученных писателей. Есть тысячи работ, посвященных ему и его текстам. Исследователи из Пушкинского Дома подсчитали, что только для прочтения всего объема пушкинистики потребуется около 58 лет. А чтобы проанализировать этот объем вручную, нужно еще больше времени. Пушкин ⟨цифровой⟩ (@pushkin_digital) решает эту проблему: цифровые методы обработки текстов и поиска связей между ними помогают быстро и эффективно работать с текстами как самого Пушкина, так и его исследователей.
Кратко: что это за проект?
Пушкин ⟨цифровой⟩ — уже третье семантическое издание текстов и персоналий «большой литературы» в русскоязычном веб-пространстве (есть ещё «Слово Толстого» от команды Tolstoy Digital и Chekhov Digital, о котором «Системный Блокъ» писал здесь и здесь). Над созданием проекта о Пушкине параллельно работают Институт русской литературы (Пушкинский Дом) и Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, а DH-центр ИТМО разрабатывает интерфейсы для навигации, чтения и изучения материалов.
На сайте проекта можно найти основные тексты произведений Пушкина, его рукописи и материалы академического пушкиноведения с середины XIX века и до наших дней. В отдельном разделе представлены тексты-путеводители, которые помогут современному читателю лучше понять контекст произведений. Там, например, можно выяснить, что в стихотворении «Я помню чудное мгновенье…» Пушкин позаимствовал у Жуковского, Баратынского и Батюшкова, а также какой была в жизни вдохновившая это стихотворение Анна Керн.
Путеводители раскрывают культурный контекст, биографию людей пушкинского круга и поэтику текстов. Они параллельны и связаны одновременно. Каждый можно прочесть отдельно как лонгрид (на странице даже указано время чтения), а можно изучать все три слоя одновременно, листая само произведение и переходя по ссылкам.
Узнать, какие возможности открывает работа с порталом, как она устроена и какие дальнейшие планы есть у создателей проекта, можно из полной версии статьи.
Время чтения: 10,5 минут
🤖 «Системный Блокъ» @sysblok
Александр Пушкин — один из самых изученных писателей. Есть тысячи работ, посвященных ему и его текстам. Исследователи из Пушкинского Дома подсчитали, что только для прочтения всего объема пушкинистики потребуется около 58 лет. А чтобы проанализировать этот объем вручную, нужно еще больше времени. Пушкин ⟨цифровой⟩ (@pushkin_digital) решает эту проблему: цифровые методы обработки текстов и поиска связей между ними помогают быстро и эффективно работать с текстами как самого Пушкина, так и его исследователей.
Кратко: что это за проект?
Пушкин ⟨цифровой⟩ — уже третье семантическое издание текстов и персоналий «большой литературы» в русскоязычном веб-пространстве (есть ещё «Слово Толстого» от команды Tolstoy Digital и Chekhov Digital, о котором «Системный Блокъ» писал здесь и здесь). Над созданием проекта о Пушкине параллельно работают Институт русской литературы (Пушкинский Дом) и Санкт-Петербургский Федеральный исследовательский центр Российской академии наук, а DH-центр ИТМО разрабатывает интерфейсы для навигации, чтения и изучения материалов.
На сайте проекта можно найти основные тексты произведений Пушкина, его рукописи и материалы академического пушкиноведения с середины XIX века и до наших дней. В отдельном разделе представлены тексты-путеводители, которые помогут современному читателю лучше понять контекст произведений. Там, например, можно выяснить, что в стихотворении «Я помню чудное мгновенье…» Пушкин позаимствовал у Жуковского, Баратынского и Батюшкова, а также какой была в жизни вдохновившая это стихотворение Анна Керн.
Путеводители раскрывают культурный контекст, биографию людей пушкинского круга и поэтику текстов. Они параллельны и связаны одновременно. Каждый можно прочесть отдельно как лонгрид (на странице даже указано время чтения), а можно изучать все три слоя одновременно, листая само произведение и переходя по ссылкам.
Узнать, какие возможности открывает работа с порталом, как она устроена и какие дальнейшие планы есть у создателей проекта, можно из полной версии статьи.
Время чтения: 10,5 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Пушкин цифровой: два века работы в одном интерактивном издании
Возможно ли собрать двухсотлетнее наследие Пушкина и пушкинистики в единую систему? Ответ — в статье. Рассказываем о проекте, который сэкономит фанатам поэта 58 лет чтения.
DeepSeek-V3: коротко о главном
Если вы следите за новостями из мира ИИ, то точно слышали о DeepSeek-V3 — новой версии языковой модели, которая стремительно набирает популярность у пользователей по всему миру.
DeepSeek-V3 — аналог GPT-4o от китайской компании DeepSeek. Сейчас это модель «по умолчанию» в приложении DeepSeek, если не переключаться на более новую R1. По качеству текстовых ответов DeepSeek-V3 сопоставима с моделью от OpenAI, но гораздо дешевле в использовании.
В отличие от большинства других LLM модель обучали предсказывать не один следующий токен (часть слова или целое слово), а сразу несколько подряд идущих. Это позволяет ускорить генерацию ответа на запросы пользователей.
Еще одна особенность архитектуры — использование подхода Mixture-of-Experts (MoE). Модель задействует только небольшую часть своих параметров во время генерации ответа на запрос, что делает ее экономичнее в потреблении вычислительных ресурсов.
Чтобы вы могли максимально быстро разобраться, что это за нейросеть и где её используют, мы обновили наш каталог и добавили туда карточку с краткой информацией о DeepSeek-V3.
Кстати, а что вы уже о ней знаете? Предлагаем проверить в нашей небольшой викторине.
🤖 «Системный Блокъ» @sysblok
Если вы следите за новостями из мира ИИ, то точно слышали о DeepSeek-V3 — новой версии языковой модели, которая стремительно набирает популярность у пользователей по всему миру.
DeepSeek-V3 — аналог GPT-4o от китайской компании DeepSeek. Сейчас это модель «по умолчанию» в приложении DeepSeek, если не переключаться на более новую R1. По качеству текстовых ответов DeepSeek-V3 сопоставима с моделью от OpenAI, но гораздо дешевле в использовании.
В отличие от большинства других LLM модель обучали предсказывать не один следующий токен (часть слова или целое слово), а сразу несколько подряд идущих. Это позволяет ускорить генерацию ответа на запросы пользователей.
Еще одна особенность архитектуры — использование подхода Mixture-of-Experts (MoE). Модель задействует только небольшую часть своих параметров во время генерации ответа на запрос, что делает ее экономичнее в потреблении вычислительных ресурсов.
Чтобы вы могли максимально быстро разобраться, что это за нейросеть и где её используют, мы обновили наш каталог и добавили туда карточку с краткой информацией о DeepSeek-V3.
Кстати, а что вы уже о ней знаете? Предлагаем проверить в нашей небольшой викторине.
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейролингвистика и Альцгеймер: ИИ учится диагностировать болезнь по речи
Болезнь Альцгеймера (БА) — заболевание, которое вызывает гибель клеток головного мозга. Со временем когнитивные способности человека начинают ухудшаться: появляются провалы в памяти, проблемы с речью и трудности с ориентированием в пространстве. Традиционные методы диагностики этого заболевания недостаточно эффективны. Рассказываем, как с этой задачей учится справляться искусственный интеллект.
Кратко: о чем статья?
Методы выявления болезни Альцгеймера (БА) можно разделить на две группы: дорогостоящие и сложные, но дающие точный результат, и более доступные и простые, но менее достоверные. В первую категорию входят методы нейровизуализации — позитронно-эмиссионная томография (ПЭТ) и магнитно-резонансная томография (МРТ). Во вторую — опросники для оценки когнитивных функций и нейропсихологические тесты.
При этом исследования последних лет показали, что на ранних стадиях болезни Альцгеймера можно заметить небольшие речевые нарушения, которые возникают за много лет до того, как появятся другие когнитивные ухудшения. Например, аномия — затруднение в подборе конкретных слов, вроде использования «фрукт» вместо «яблоко». Отследить такие изменения врачам сложно, но с ними должны помочь методы обработки естественного языка (NLP) и распознавания речи.
Для обучения машинных моделей применяются наборы данных, созданные специально для выявления когнитивных нарушений, связанных с БА. Уже сейчас точность распознавания болезни по речи с помощью нейронных сетей составляет не менее 70,7%. А наивысшую точность классификации — 97,18% — продемонстрировала нейросеть-трансформер BERT, дообученная на автоматически расшифрованных записях речи.
И всё же автоматическая диагностика не идеальна. Во-первых, большая часть датасетов составлена на английском, так что для неанглоязычных пациентов модель будет работать плохо. Во-вторых, на данный момент датасеты имеют небольшие размеры.
Подробнее об обучении моделей, о значимости ранней диагоностике БА и о других методах распознавания болезни на разных стадиях узнаете из полной версии статьи.
Время чтения: 11 минут
🤖 «Системный Блокъ» @sysblok
Болезнь Альцгеймера (БА) — заболевание, которое вызывает гибель клеток головного мозга. Со временем когнитивные способности человека начинают ухудшаться: появляются провалы в памяти, проблемы с речью и трудности с ориентированием в пространстве. Традиционные методы диагностики этого заболевания недостаточно эффективны. Рассказываем, как с этой задачей учится справляться искусственный интеллект.
Кратко: о чем статья?
Методы выявления болезни Альцгеймера (БА) можно разделить на две группы: дорогостоящие и сложные, но дающие точный результат, и более доступные и простые, но менее достоверные. В первую категорию входят методы нейровизуализации — позитронно-эмиссионная томография (ПЭТ) и магнитно-резонансная томография (МРТ). Во вторую — опросники для оценки когнитивных функций и нейропсихологические тесты.
При этом исследования последних лет показали, что на ранних стадиях болезни Альцгеймера можно заметить небольшие речевые нарушения, которые возникают за много лет до того, как появятся другие когнитивные ухудшения. Например, аномия — затруднение в подборе конкретных слов, вроде использования «фрукт» вместо «яблоко». Отследить такие изменения врачам сложно, но с ними должны помочь методы обработки естественного языка (NLP) и распознавания речи.
Для обучения машинных моделей применяются наборы данных, созданные специально для выявления когнитивных нарушений, связанных с БА. Уже сейчас точность распознавания болезни по речи с помощью нейронных сетей составляет не менее 70,7%. А наивысшую точность классификации — 97,18% — продемонстрировала нейросеть-трансформер BERT, дообученная на автоматически расшифрованных записях речи.
И всё же автоматическая диагностика не идеальна. Во-первых, большая часть датасетов составлена на английском, так что для неанглоязычных пациентов модель будет работать плохо. Во-вторых, на данный момент датасеты имеют небольшие размеры.
Подробнее об обучении моделей, о значимости ранней диагоностике БА и о других методах распознавания болезни на разных стадиях узнаете из полной версии статьи.
Время чтения: 11 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Анализ речи: как ИИ выявляет ранние признаки болезни Альцгеймера
Как искусственный интеллект помогает в ранней диагностике болезни Альцгеймера? Может ли анализ речи выявить первые симптомы нейродегенеративных заболеваний? И какие цифровые инструменты улучшат точность диагностики? Ответы на эти и другие вопросы ищите в…
Новая LLM от Маска, генератор видео от Google стал доступен, стартап от бывшей техдиректрисы OpenAI
Рассказываем, что произошло в мире ИИ за последнее время.
Grok 3 — новая LLM от xAI
Лаборатория xAI Илона Маска представила обновленную языковую модель Grok 3. Ключевое улучшение — появление режима «рассуждений». Как и другие современные модели (OpenAI o1/o3, DeepSeek-R1, Gemini 2 Flash Thinking), Grok 3 использует цепочки логических построений для повышения качества ответов. По результатам основных тестов новая версия не уступает ведущим аналогам.
Компания также запустила сервис DeepSearch, формирующий развернутые отчеты по результатам поиска на заданную тему. Подобных автономных исследовательских агентов ранее представили OpenAI (Deep Research) и Perplexity.
Доступ к Grok 3 открыт для подписчиков X Premium и X Premium+. Расширенная подписка включает режим рассуждений и DeepSearch. В дальнейшем эти функции планируется сделать доступными и для базовых подписчиков.
Нейросеть для генерации видео от Google
На платформе fal стала доступна модель Veo 2 от Google DeepMind, позволяющая создавать видеоролики на основе текстовых описаний. Генерация 5-секундного видео обойдется в $2,5, с доплатой $0,5 за каждую дополнительную секунду.
Первая версия Veo была выпущена летом 2024 года в качестве ответа OpenAI Sora, но была доступна лишь ограниченному числу пользователей. В декабре того же года вышла значительно усовершенствованная вторая версия, которая на сегодняшний день превосходит конкурентов по реалистичности создаваемого контента.
Недавно Veo 2 стала доступна при редактировании YouTube Shots — с помощью модели можно по текстовому описанию сгенерировать фон для видео.
Гибкий и полезный ИИ от бывшей техдиректрисы OpenAI
Бывшая техническая директриса OpenAI Мира Мурати анонсировала запуск своего стартапа Thinking Machines.
По ее словам, сегодня существует значительный разрыв между возможностями ИИ-систем и пониманием их внутренних механизмов. Также информация о деталях создания продвинутых ИИ-систем остается только внутри нескольких ведущих компаний, что затрудняет восприятие этих нейросетей обществом и ограничивает эффективность применения. Thinking Machines намерена преодолеть этот барьер, сделав ИИ более прозрачным и доступным для пользователей.
Ключевые направления деятельности компании:
• регулярная публикация технической документации, научных исследований и программного кода,
• разработка набора специализированных ИИ-систем для совместной работы с человеком вместо создания единой автономной универсальной платформы,
• расширение сферы применения ИИ за пределы решения задач по математике и программированию.
В команду Thinking Machines вошли специалисты из ведущих технологических компаний: Джон Шульман (бывший сооснователь и ведущий исследователь OpenAI), экс-руководитель серверной инфраструктуры Meta, бывшая глава отдела мультимодальных ИИ-систем Mistral, а также много других именитых людей.
🤖 «Системный Блокъ» @sysblok
Рассказываем, что произошло в мире ИИ за последнее время.
Grok 3 — новая LLM от xAI
Лаборатория xAI Илона Маска представила обновленную языковую модель Grok 3. Ключевое улучшение — появление режима «рассуждений». Как и другие современные модели (OpenAI o1/o3, DeepSeek-R1, Gemini 2 Flash Thinking), Grok 3 использует цепочки логических построений для повышения качества ответов. По результатам основных тестов новая версия не уступает ведущим аналогам.
Компания также запустила сервис DeepSearch, формирующий развернутые отчеты по результатам поиска на заданную тему. Подобных автономных исследовательских агентов ранее представили OpenAI (Deep Research) и Perplexity.
Доступ к Grok 3 открыт для подписчиков X Premium и X Premium+. Расширенная подписка включает режим рассуждений и DeepSearch. В дальнейшем эти функции планируется сделать доступными и для базовых подписчиков.
Нейросеть для генерации видео от Google
На платформе fal стала доступна модель Veo 2 от Google DeepMind, позволяющая создавать видеоролики на основе текстовых описаний. Генерация 5-секундного видео обойдется в $2,5, с доплатой $0,5 за каждую дополнительную секунду.
Первая версия Veo была выпущена летом 2024 года в качестве ответа OpenAI Sora, но была доступна лишь ограниченному числу пользователей. В декабре того же года вышла значительно усовершенствованная вторая версия, которая на сегодняшний день превосходит конкурентов по реалистичности создаваемого контента.
Недавно Veo 2 стала доступна при редактировании YouTube Shots — с помощью модели можно по текстовому описанию сгенерировать фон для видео.
Гибкий и полезный ИИ от бывшей техдиректрисы OpenAI
Бывшая техническая директриса OpenAI Мира Мурати анонсировала запуск своего стартапа Thinking Machines.
По ее словам, сегодня существует значительный разрыв между возможностями ИИ-систем и пониманием их внутренних механизмов. Также информация о деталях создания продвинутых ИИ-систем остается только внутри нескольких ведущих компаний, что затрудняет восприятие этих нейросетей обществом и ограничивает эффективность применения. Thinking Machines намерена преодолеть этот барьер, сделав ИИ более прозрачным и доступным для пользователей.
Ключевые направления деятельности компании:
• регулярная публикация технической документации, научных исследований и программного кода,
• разработка набора специализированных ИИ-систем для совместной работы с человеком вместо создания единой автономной универсальной платформы,
• расширение сферы применения ИИ за пределы решения задач по математике и программированию.
В команду Thinking Machines вошли специалисты из ведущих технологических компаний: Джон Шульман (бывший сооснователь и ведущий исследователь OpenAI), экс-руководитель серверной инфраструктуры Meta, бывшая глава отдела мультимодальных ИИ-систем Mistral, а также много других именитых людей.
Please open Telegram to view this post
VIEW IN TELEGRAM
От периодики до личных документов: как работает контент-анализ исторических источников?
Контент-анализ — один из основных методов работы с данными на основе компьютерных вычислений. Его суть заключается в том, что информация из качественной переводится в количественную, а результаты подсчитываются. Но как возможно трансформировать воспоминания, публикации в газете или анекдоты в цифры? Рассказываем в новом материале,
Кратко: о чем статья?
Применяя метод контент-анализа к историческим документам, исследователи выделяют из массива информации повторяющиеся элементы — это могут быть словосочетания, имена, географические названия. Благодаря такому подходу можно больше узнать, например, о характере исторических личностей и даже о повседневной жизни… в советском трудовом лагере. Если для решения первой задачи можно обратиться к мемуарам и перепискам, то для второй отлично подойдет периодика.
К. А. Зингис изучила газету «Новые Соловки», которая издавалась заключенными во второй половине 1920-х гг. Для начала она выделила смысловые категории, описывающие будни заключенных: «работа», «культура», «санитария», «наука», «любовь», «женщины в лагере», «монастырь» и т. д. После – отобразила перемены в содержании газеты с помощью облака тегов, отражающего наиболее характерные (то есть часто используемые) для каждого периода слова. Это позволило наглядно проследить, как газета из пространства для творческой самореализации превратилась в инструмент идеологического воздействия.
Контент-анализ позволяет также проводить сравнительные исследования. Например, Е. А. Еремеева решила сопоставить образы, характерные для официального и неофициального юмора в советский период. Для этого она изучила советские журналы и анекдоты и выяснила, что через юмор осуществлялся диалог между народом и властью. В официальном журнале «Перец» преобладала категория «советские граждане», а неофициальный юмор чаще всего затрагивал тему «советское руководство».
О других примерах применения контент-анализа для изучении истории и о том, остается ли в таких исследованиях фактор субъективности, узнаете из полной версии статьи.
Время чтения: 7,5 минут
🤖 «Системный Блокъ» @sysblok
Контент-анализ — один из основных методов работы с данными на основе компьютерных вычислений. Его суть заключается в том, что информация из качественной переводится в количественную, а результаты подсчитываются. Но как возможно трансформировать воспоминания, публикации в газете или анекдоты в цифры? Рассказываем в новом материале,
Кратко: о чем статья?
Применяя метод контент-анализа к историческим документам, исследователи выделяют из массива информации повторяющиеся элементы — это могут быть словосочетания, имена, географические названия. Благодаря такому подходу можно больше узнать, например, о характере исторических личностей и даже о повседневной жизни… в советском трудовом лагере. Если для решения первой задачи можно обратиться к мемуарам и перепискам, то для второй отлично подойдет периодика.
К. А. Зингис изучила газету «Новые Соловки», которая издавалась заключенными во второй половине 1920-х гг. Для начала она выделила смысловые категории, описывающие будни заключенных: «работа», «культура», «санитария», «наука», «любовь», «женщины в лагере», «монастырь» и т. д. После – отобразила перемены в содержании газеты с помощью облака тегов, отражающего наиболее характерные (то есть часто используемые) для каждого периода слова. Это позволило наглядно проследить, как газета из пространства для творческой самореализации превратилась в инструмент идеологического воздействия.
Контент-анализ позволяет также проводить сравнительные исследования. Например, Е. А. Еремеева решила сопоставить образы, характерные для официального и неофициального юмора в советский период. Для этого она изучила советские журналы и анекдоты и выяснила, что через юмор осуществлялся диалог между народом и властью. В официальном журнале «Перец» преобладала категория «советские граждане», а неофициальный юмор чаще всего затрагивал тему «советское руководство».
О других примерах применения контент-анализа для изучении истории и о том, остается ли в таких исследованиях фактор субъективности, узнаете из полной версии статьи.
Время чтения: 7,5 минут
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Контент-анализ в истории: примеры исследований
Рассказываем, как историки применяют цифровые методы, а именно контент-анализ. Изучение анекдотов, визуализация текстовых данных в новостях и другие исторические исследования — в материале «Системного Блока».
Нагугли мелодию: поисковики для музыкантов
Бывает ли у вас, что в голове засела знакомая мелодия, а название ускользает? Не беда! Рассказываем про поисковики, в которых можно сыграть фрагмент на виртуальной клавиатуре, напеть мелодию или настучать ритм!
🎹 IncipitSearch
IncipitSearch — это метапоисковик, который ищет информацию по нотным текстам, доступным в открытых базах данных. Сейчас он подключен к нескольким крупным музыкальным хранилищам, которые позволяют пользователям найти произведения классической музыки по небольшим фрагментам. Правда, придется наиграть мелодию на виртуальной клавиатуре, но хватит и совсем небольшого отрывка. Например, по девяти нотам ми-фа-соль-соль-соль-до-до-си-си поисковик легко обнаружит арию Орфея из оперы Глюка.
🎤 Musipedia
Если вы не можете наиграть произведение, попробуйте найти его в Musipedia: здесь есть целых пять вариантов поиска, включая возможность напеть или насвистеть мелодию в микрофон и настучать её ритм на клавиатуре. Плюс, спектр композиций здесь значительно шире: от сонат Бетховена до The Rolling Stones. Подробнее о Musipedia мы, кстати, писали здесь.
🤖 «Системный Блокъ» @sysblok
Бывает ли у вас, что в голове засела знакомая мелодия, а название ускользает? Не беда! Рассказываем про поисковики, в которых можно сыграть фрагмент на виртуальной клавиатуре, напеть мелодию или настучать ритм!
🎹 IncipitSearch
IncipitSearch — это метапоисковик, который ищет информацию по нотным текстам, доступным в открытых базах данных. Сейчас он подключен к нескольким крупным музыкальным хранилищам, которые позволяют пользователям найти произведения классической музыки по небольшим фрагментам. Правда, придется наиграть мелодию на виртуальной клавиатуре, но хватит и совсем небольшого отрывка. Например, по девяти нотам ми-фа-соль-соль-соль-до-до-си-си поисковик легко обнаружит арию Орфея из оперы Глюка.
🎤 Musipedia
Если вы не можете наиграть произведение, попробуйте найти его в Musipedia: здесь есть целых пять вариантов поиска, включая возможность напеть или насвистеть мелодию в микрофон и настучать её ритм на клавиатуре. Плюс, спектр композиций здесь значительно шире: от сонат Бетховена до The Rolling Stones. Подробнее о Musipedia мы, кстати, писали здесь.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Нагугли мелодию: поисковик для музыкантов — «Системный Блокъ»
Как найти музыкальное произведение по нескольким первым нотам? Теперь его можно наиграть прямо в браузере.
Как это будет по-русски? Цифровые технологии для изучения русского как иностранного
20 декабря 2024 года Совет Федерации одобрил закон, согласно которому дети мигрантов, не владеющие русским языком, не смогут быть зачислены в школы. Теперь иностранным ученикам нужно не только иметь документы, подтверждающие их легальное пребывание в России, но и сдавать тест на знание русского. Рассказываем, как сделать изучение изучение РКИ (русского как иностранного) интереснее и продуктивнее с помощью цифровых инструментов.
🎤 Буквы и звуки
Изучение любого языка начинается со знакомства с алфавитом и правилами чтения. Познакомиться с русским алфавитом, произношением и написанием букв поможет интерактивная таблица от проекта Russian For Everyone. В таблице к каждой букве добавлен пример со словом с выделенной ударной гласной, а также картинка, позволяющая лучше запомнить слово.
📖 Лексика и чтение
Большое значение в изучении языка имеет расширение словарного запаса, регулярное повторение выученных слов и навык чтения. Для развития этих навыков и предназначена онлайн-платформа Readlang, а сайт RussianGram облегчит понимание и чтение текста, расставив в нем все ударения.
📝 Письмо
Сайт Tobemum предлагает онлайн-генератор, где учителя и родители могут создавать прописи, адаптированные под потребности и уровень подготовки учащегося. Ученикам постарше для проверки орфографии, пунктуации, грамматики и стилистики текстов поможет онлайн-сервис Орфограммка. Программа не только выделяет ошибки, но и дает пояснения к каждой.
🎧 Аудирование
Еще один важный навык — умение воспринимать речь на слух. Сформировать его помогут подкасты от проекта Very Much Russian, слушая которые, можно одновременно учить разные слова, поговорки, шутки и песни.
☑️ Создание заданий и тестов
Одна из самых полезных программ для создания заданий и тестов — Hot Potatoes, позволяющая создавать задания в виде кроссвордов, с заполнением пропусков, тесты на установление соответствий или с выбором альтернативных и коротких ответов и упражнения с перепутанными предложениями. А создать анимированные уроки можно с помощью Animaker — это онлайн-платформа для создания видео с простым интерфейсом и возможностью конструировать своих персонажей.
Ещё больше цифровых инструментов для развития и тренировки разных языковых компетенций, а также для того, чтобы сделать уроки разнообразнее и увлекательнее, найдете в полной версии подборки.
🤖 «Системный Блокъ» @sysblok
20 декабря 2024 года Совет Федерации одобрил закон, согласно которому дети мигрантов, не владеющие русским языком, не смогут быть зачислены в школы. Теперь иностранным ученикам нужно не только иметь документы, подтверждающие их легальное пребывание в России, но и сдавать тест на знание русского. Рассказываем, как сделать изучение изучение РКИ (русского как иностранного) интереснее и продуктивнее с помощью цифровых инструментов.
🎤 Буквы и звуки
Изучение любого языка начинается со знакомства с алфавитом и правилами чтения. Познакомиться с русским алфавитом, произношением и написанием букв поможет интерактивная таблица от проекта Russian For Everyone. В таблице к каждой букве добавлен пример со словом с выделенной ударной гласной, а также картинка, позволяющая лучше запомнить слово.
📖 Лексика и чтение
Большое значение в изучении языка имеет расширение словарного запаса, регулярное повторение выученных слов и навык чтения. Для развития этих навыков и предназначена онлайн-платформа Readlang, а сайт RussianGram облегчит понимание и чтение текста, расставив в нем все ударения.
📝 Письмо
Сайт Tobemum предлагает онлайн-генератор, где учителя и родители могут создавать прописи, адаптированные под потребности и уровень подготовки учащегося. Ученикам постарше для проверки орфографии, пунктуации, грамматики и стилистики текстов поможет онлайн-сервис Орфограммка. Программа не только выделяет ошибки, но и дает пояснения к каждой.
🎧 Аудирование
Еще один важный навык — умение воспринимать речь на слух. Сформировать его помогут подкасты от проекта Very Much Russian, слушая которые, можно одновременно учить разные слова, поговорки, шутки и песни.
☑️ Создание заданий и тестов
Одна из самых полезных программ для создания заданий и тестов — Hot Potatoes, позволяющая создавать задания в виде кроссвордов, с заполнением пропусков, тесты на установление соответствий или с выбором альтернативных и коротких ответов и упражнения с перепутанными предложениями. А создать анимированные уроки можно с помощью Animaker — это онлайн-платформа для создания видео с простым интерфейсом и возможностью конструировать своих персонажей.
Ещё больше цифровых инструментов для развития и тренировки разных языковых компетенций, а также для того, чтобы сделать уроки разнообразнее и увлекательнее, найдете в полной версии подборки.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как учить иностранцев русскому: цифровые технологии для РКИ
Как учить иностранцев русскому языку? Как перестать путать звуки [ы] и [и], если русский для вас не родной? Как технологии помогают понять Толстого и Достоевского в оригинале? В статье собрали основные цифровые инструменты для изучения русского языка как…