Системный Блокъ

Алфавит «‎Системного Блока»: с чем справляются и не справляются нейросети

Вы наверняка уже видели картинки с алфавитными таблицами, сгенерированными нейросетями: на букву З они рисуют нечто среднее между рыбой и петухом, а для алфавита «‎Смешариков» создают персонажа по имени Акакий. Мы решили выяснить, что нейросеть предложит, если попросить её создать алфавит для «‎Системного Блока» и… результат вы видите на картинке.

К счастью, хоть с этим запросом ChatGPT и DeepSeek пока справляются плохо, они точно смогут помочь со многими другими задачами. От генерации плана урока, который может пригодиться учителю, до удаления лишних символов из субтитров, что облегчает жизнь переводчикам.

Если вы пока не знаете, как и какие нейросети могут облегчить работу вам, мы сделали спецпроект с ИИ-лайфхаками для разных профессий! Переходите по ссылке, чтобы узнать о них больше.

А пока поделитесь в комментариях своими любимыми алфавитами в исполнении нейросетей!

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

❤37🔥19😁15👍4⚡1🙈1

6.62K views13:33

Системный Блокъ

Маршрут перестроен: как распалась Римская империя и при чем тут логистика и сетевой анализ

Почему Карфаген следовало разрушить? Ищем неочевидный ответ на этот вопрос с помощью сетевого анализа и цифровой модели ORBIS от Стэнфордского университета. Этот проект позволяет взглянуть на Римскую империю не как на политическую карту, а как на гигантскую транспортную сеть: с портами, дорогами и речными маршрутами. Рассказываем, что можно узнать благодаря такому взгляду на историю.

Что за проект?

Сетевой анализ, как можно догадаться из названия, позволяет представить данные в виде сети, состоящей из вершин и связывающих их ребер. Получившаяся система может рассказать больше и о знакомствах Владимира Маяковского, и о диалогах в «‎Войне и мире», и о древних городах. А ученые из Стэнфорда решили использовать этот инструмент для изучения Римской Империи, создав проект ORBIS.

Благодаря ГИСам (геоинформационным системам, о которых мы писали тут) исследователям удалось перенести на карту более 600 объектов (в основном городов и портов), более 85 тысяч км дорог, пустынных троп и горных перевалов и еще почти 30 тысяч км судоходных рек. Это позволило строить маршруты между любыми двумя точками с учетом особенностей времен года. А ещё можно было выбрать самый быстрый, самый дешевый и самый короткий пути (спойлер: совпадали они далеко не всегда).

Что мы узнали о Карфагене?

Благодаря ORBIS исследователям удалось выяснить, что Карфаген следовало разрушить в том числе и потому, что он был слишком «близок» к Риму: хоть они и были разделены морем, путь между этими городами был коротким, дешевым и надежным, особенно в летние месяцы.

Что мы узнали о… Риме?

Рим оказался далеко не самым «‎центральным» городом сети: он проигрывал, например, Константинополю, а также некоторым узлам на стыке провинций, включая Милан и Аквилею. Это связано с многочисленными кризисами, которые заставили римских императоров начиная с III века н. э. искать другие места, где могла бы расположиться администрация.

Подробнее об особенностях торговых и военных маршрутов в Римской империи, а также о том, какой факт Плутарх, вероятно, исказил в биографии Цезаря, узнаете из полной версии статьи.

Время чтения: 15,5 минут

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Почему рухнула Римская империя? Сетевой анализ и проект ORBIS дают ответ

Как выглядела транспортная система Римской империи и почему одни города стали ключевыми, а другие исчезли? Проект ORBIS от Стэнфордского университета с помощью сетевого анализа воссоздает древние маршруты — от сухопутных до морских. Узнайте, как дороги, ветра…

❤‍🔥29🏆9🔥8🥰6🙏3👏2❤1

3.37K views17:21

Системный Блокъ

Новая LLM от Маска, агент от OpenAI, самая большая open-source LLM

Рассказываем, что произошло в мире ИИ за последнее время.

Теперь у некоторых новостей появился раздел «Почему это важно? 🤔», в котором вы можете узнать, почему мы считаем выбранные новости важными или примечательными.

Grok 4 от Илона Маска

Лаборатория Илона Маска xAI представила четвертую версию своей языковой модели Grok.

Модель доступна в двух вариациях — базовой и продвинутой Grok 4 Heavy. Обе модели в основных тестах показывают результаты выше или сопоставимые с лидерами рынка. Grok 4 опередила OpenAI o3, Google Gemini 2.5 Pro, Anthropic Claude 4 в одном из самых сложных на данный момент тесте Humanity’s Last Exam. Экзамен содержит 2500 вопросов из разных сфер знаний, составленных профессорами и исследователями. Эти вопросы публичны и могут использоваться разработчиками для обучения своих моделей. Тестирование проводится на недоступных в интернете вопросах — это снижает риск утечки данных в обучающую выборку и делает оценку моделей объективнее. Grok 4 и Grok 4 Heavy доступны владельцам платной подписки xAI, а также через API.

Почему это важно? 🤔

В отличие от других крупных ИИ-лабораторий, xAI уделяет меньше внимания безопасности своих моделей. Обычно перед релизом языковые модели обучают не генерировать потенциально опасные или оскорбительные ответы — например, рецепты биологического оружия, наркотических веществ или неполиткорректные высказывания о расовой дискриминации. А также выпускают подробные отчеты о способностях моделей нарушать эти ограничения — пример отчета для Claude 4.

Такое отношение к цензуре продиктовано желанием Илона Маска создать «объективную» модель, не подверженную влиянию левой woke-культуры. Последствия подобной политики проявились в недавнем скандале с Grok 3, интегрированной в соцсеть X (бывший Twitter). На некоторое время модель стала считать себя персонажем игры Wolfenstein 3D — MechaHitler — и генерировала антисемитские высказывания. Также она оскорбила премьер-министра Польши. После жалоб пользователей разработчики временно отключили модель, а через четыре дня компания извинилась и вернула в работу исправленную версию.

🤖 «Системный Блокъ» @sysblok

🔥10❤7🤯5

2.7K viewsedited 17:23

Системный Блокъ

Агент от OpenAI

Компания OpenAI представила ИИ-агента ChatGPT Agent — систему, использующую модели искусственного интеллекта для автономного выполнения задач на компьютере. Агент способен составлять детальные планы путешествий с учетом бюджета, интересов и предпочтений пользователя, анализировать финансовые отчеты и формировать итоговые таблицы, создавать презентации на заданные темы и выполнять множество других задач.

ChatGPT Agent объединяет возможности двух ранее представленных продуктов компании — Operator и Deep Research. Operator умеет взаимодействовать с интерфейсами компьютерных программ (кликать, вводить текст, прокручивать экран) и автоматизировать выполнение различных задач. Deep Research специализируется на поиске, агрегации и анализе информации из интернета. Комбинация этих возможностей позволяет новому агенту более эффективно справляться с поставленными задачами.

Кроме того, агент может взаимодействовать с внешними сервисами (Gmail, Google Calendar, Notion и другими) через протокол MCP, который унифицирует доступ языковых моделей к различным платформам. Подробнее об MCP мы писали здесь.

В тестировании агент продемонстрировал лучший результат в Humanity’s Last Exam и превзошел модели o3 и o4 в тестах на автоматизацию задач. В одном из внутренних тестов агент выполнил половину набора «экономически значимых» задач лучше экспертов-людей.

ChatGPT Agent станет доступен владельцам подписки в ближайшие недели.

Почему это важно? 🤔

Агентные системы с использованием языковых моделей — главный тренд 2024–2025 годов. Постоянно улучшающиеся способности моделей позволяют (полу-)автоматизировать все большее количество рутинных задач. Одним из примеров относительно успешного внедрения агентов является сфера разработки ПО — здесь ИИ существенно повышает продуктивность программистов. Генеральный директор Microsoft заявляет, что 30% кода в компании сейчас пишет искусственный интеллект. А глава Shopify объявил использование ИИ для разработки новым обязательным требованием к сотрудникам.

Независимые исследователи считают развитие агентов важным этапом в прогрессе ИИ, поскольку они смогут продемонстрировать политикам экономическую выгоду от искусственного интеллекта. Это приведет к более глубокой интеграции ИИ в рабочие процессы и увеличению инвестиций.

В то же время многие опасаются кризиса на рынке труда из-за потенциальной замены людей ИИ-системами. Сообщества иллюстраторов и художников в большинстве своем выступают против инструментов для генерации изображений и видео, считая, что искусственный интеллект не должен замещать человека в творческих сферах.

🤖 «Системный Блокъ» @sysblok

❤14🔥8👾1

2.64K viewsedited 17:23

Системный Блокъ

Kimi K2 — самая большая языковая модель в open-source

Китайская лаборатория MoonshotAI опубликовала языковую модель Kimi K2 с 1 триллионом параметров. Это первая модель такого размера в открытом доступе.

LLM использует архитектуру Mixture of Experts: во время генерации ответа модель задействует лишь часть всех параметров (их называют активными). Какие именно параметры используются, зависит от конкретного запроса пользователя. Всего у модели 32 млрд активных параметров — 3,2% от общего числа. Вместе с моделью лаборатория выпустила технический отчет. До выхода Kimi K2 самой большой открытой моделью была DeepSeek V3, которая в 1,5 раза меньше.

Модель не способна генерировать цепочки рассуждений. В сравнении с моделями без режима рассуждений Kimi K2 либо сопоставима, либо существенно превосходит конкурентов — особенно в задачах программирования.

Модель доступна для тестирования на официальном сайте или через API.

Почему это важно? 🤔

На рынке языковых моделей существуют проприетарные решения, разрабатываемые крупными лабораториями и корпорациями, и открытые модели, чаще (но не всегда) создаваемые независимыми компаниями.

Из-за высокой конкуренции создатели проприетарных LLM не раскрывают технические подробности своих моделей — в частности, не публикуют детальные технические отчеты и статьи. Разработчики открытых решений, напротив, раскрывают технические детали, публикуют сами модели и иногда код для их обучения, что особенно важно из-за инженерной сложности обучения моделей такого масштаба.

Open-source сообщество вносит большой вклад в развитие всей области — зачастую проприетарные компании используют его разработки. Также оно создает серьезную конкуренцию коммерческим решениям, поскольку пользователи и бизнес могут разворачивать открытые модели на собственных серверах.

Обучение больших языковых моделей крайне сложно и дорого. До этого обучать модели размером порядка триллиона параметров умели только коммерческие компании уровня OpenAI и Google. Появление открытой модели с триллионом параметров стало большим достижением сообщества, сократившим разрыв с закрытыми техногигантами.

🤖 «Системный Блокъ» @sysblok

🔥23❤15👍9👾1

3.21K viewsedited 17:23

Системный Блокъ

Цифровые кочевники: весь мир – офис

Сегодня более 30 миллионов человек работают удаленно, сохраняя мобильность. В один день цифровые кочевники могут работать с видом на море, а в другой — прямо с гор. Однако они не просто меняют представление о работе и стабильности. «Системный Блокъ» рассказывает, как цифровое кочевничество меняет глобальные рынки труда и локальные экономики, а ещё — формирует новые сервисы.

Кто такие цифровые кочевники?

Благодаря развитию высокоскоростного интернета и облачных сервисов появились цифровые кочевники — люди, выбирающие образ жизни, который позволяет им работать удаленно и регулярно переезжать с места на место. Цифровое кочевничество возникло благодаря повсеместной доступности интернета и изменения ценностей в сторону свободы и мобильности.

И что теперь?

Глобальная и местная экономика меняются под влиянием цифрового кочевничества. Например, нормой становится работа по краткосрочному контракту c гибкой занятостью и проектным сотрудничеством. Приток фрилансеров активизирует рынок недвижимости, а власти и бизнес инвестируют в улучшение интернет-инфраструктуры и комфорт городской среды для привлечения такой аудитории.

А что в этом плохого?

Но есть и другая сторона: повышение спроса сопровождается ростом цен, что ухудшает положение местного населения. Например, русскоязычные кочевники повлияли на рынки аренды и услуг в Грузии, Армении и Турции, однако их отъезд может вызвать упадок в этих сегментах.

Чего ждать дальше от цифровых кочевников?

Развитие цифрового кочевничества будет зависеть от технологических, социальных и политических факторов. С одной стороны, распространение удаленного формата работы, улучшение скорости и доступности интернета и появление специальных виз скорее всего увеличит число цифровых резидентов. С другой — отсутствие стандартов налогообложения, недовольство местного населения ростом цен на жилье и услуги или экологический вред частых перелетов создадут препятствие для развития кочевничества

Более подробно о том, как живут цифровые кочевники, их влиянии на экономику и создаваемых вызовах, а также о будущем цифрового резидентства читайте в полной версии статьи.

Время чтения: 13 минут

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Цифровое кочевничество: как дистанционная работа меняет экономику

35 млн человек по всему миру уже отказались от офисных кресел ради удаленной работы. Знакомьтесь, это — цифровые кочевники. Рассказываем, почему все больше людей выбирают работу без офиса и какие новые тренды порождает цифровое кочевничество.

🔥20❤12✍9👍3👎1🕊1🐳1

3.29K views14:58

Системный Блокъ

Что неопределенность рассказывает нам о языке — и как это посчитать

Кто-то, где-то, что-то, как-то, почему-то… Мы часто используем неопределенные местоимения, они спасают нас в минуту неуверенности и незнания. А в 1997 году выдающийся лингвист Мартин Хаспельмат описал, какие значения могут выражать неопределенные местоимения и какие закономерности есть в их употреблении.

Ориентируясь на классификацию, созданную Хаспельматом, другие лингвисты в 2022 решили провести эксперимент. Хотя закономерности, которые выявил Хаспельмат, были разработаны для естественных языков, исследователи создали 10 000 искусственных «языков», чтобы посмотреть, будут ли местоимения в них работать иначе.

В опросе предлагаем вам догадаться, какими оказались результаты этого эксперимента, а узнать подробнее о них и о том, чем что-нибудь в «Поиграй во что-нибудь другое‎» отличается от него же в «Ты что-нибудь прочитал за месяц?», сможете из полной версии статьи.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Что неопределенность рассказывает нам о языке — и как это посчитать: лингвистический эксперимент

«Системный Блокъ» рассказывает, как с помощью серии экспериментов и генерации систем неопределенных местоимений лингвисты доказывают гипотезу о стремлении языков к оптимальности.

🔥21❤9👍5👏3

3.16K viewsedited 15:17

Системный Блокъ

Согласно результатам эксперимента, с точки зрения баланса между сложностью и информативностью…

Anonymous Quiz

42%

Естественные языки оказались оптимальнее

22%

Оптимальнее были искусственно сгенерированные языки

36%

Между языками не было существенной разницы

🔥17😱10🤷‍♂9❤3

399 voters3.11K views15:17

Системный Блокъ

Кто, кроме Ахматовой: как женщины-авторы представлены в школьной программе по литературе

Всего в школьной программе по литературе представлены 36 женщин – в 17 раз меньше, чем мужчин. Но сможете ли вы вспомнить кого-то, кроме Ахматовой и Цветаевой? В новом материале спецпроекта о школьном каноне выясняем, кого из писательниц и поэтесс проходили школьники предыдущих поколений и что отражает гендерное соотношение авторов – реальную картину мира или предпочтения составителей программ.

Что мы исследуем?

Для анализа мы использовали данные о школьной программе по литературе, входящие в корпус «Список чтения: программы по литературе для общеобразовательных школ с 1852 по 2024 год» (Кокорин et al., ВШЭ 2025). В датасете собраны данные с середины XIX века до наших дней: несколько программ 1852-1923 годов и практически все программы, начиная с 1932 года.

Как обстоят дела у писательниц?

Исследуя датасет, мы выяснили, что в среднем, за всю историю корпуса в программы обязательного чтения входило 2% произведений, написанных женщинами. При этом были периоды совсем без женщин, и время «‎расцвета» — до 9% в 2000-е.

Если посмотреть не только на обязательное, но и на дополнительное чтение, результаты не слишком изменятся: там 3% текстов написаны женщинами. В процентах от списка всех авторов писательницы составляют 10%, ведь к основному списку присоединяются и Туве Янссон, и Светлана Алексиевич, и Харпер Ли.

Кто, кроме Ахматовой и Цветаевой?

В разные годы в школьный литературный канон входили Евгения Гинзбург, Мариэтта Шагинян и даже Екатерина II. Но до времен ЕГЭ и ОГЭ добрались только шесть женщин: Ахматова, Цветаева, Тэффи, Ахмадулина, Берггольц и Мориц. Мориц, кстати, единственная наша современница в школьной программе.

Подробнее о том, чего в программе больше — женской прозы или женской поэзии, в какие годы женских текстов в каноне не было совсем и что об этом думают эксперты, узнаете из нового раздела нашего спецпроекта.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Классное чтение: женщины-писательницы - Системный Блокъ Кто, кроме Ахматовой: как женщины-авторы представлены в школьной программе…

Кто из женщин-авторов входит в школьную программу по литературе, кроме Анны Ахматовой и Марины Цветаевой? Очевидно, что женщин в литературе мало, но неужели настолько мало? И было ли так всегда? Кого из писательниц и поэтесс проходили школьники предыдущих…

❤36🔥20🥰11🫡3👍2

3.97K viewsedited 17:26

Системный Блокъ

ИИ-лайфхаки для вашей профессии

«Системный Блокъ» представляет новый спецпроект — «ИИ-лайфхаки для вашей профессии». Здесь мы простым языком объясняем, как работают нейросети, показываем реальные примеры их использования в науке и образовании и даем готовые инструкции, чтобы вы могли применять ИИ в своей работе уже сегодня.

Кратко: о чем проект?

Искусственный интеллект — это не угроза, а эффективный инструмент для ученых, преподавателей и многих других. В нашем спецпроекте мы рассказываем:

— что такое промпты и как грамотно формулировать запросы к нейросетям;
— какие ИИ-инструменты лучше всего подходят для работы с текстами и изображениями;
— как начать пользоваться популярными нейросетями.

Вы узнаете, как учителя используют ИИ для подготовки материалов, как исследователи автоматизируют анализ данных и какие нейросети (не) помогают переводчикам кино. В специальном глоссарии разберем ключевые термины: от «глубинного обучения» до «галлюцинаций» нейросетей. Все это — простыми словами, чтобы новости про ИИ перестали быть сложными и непонятными.

Подробнее обо всех возможностях, с конкретными примерами и лайфхаками по выбору инструментов читайте на странице портала.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Как использовать ИИ для работы — гид по нейросетям | Системный Блокъ

Пошаговые инструкции и готовые промпты, чтобы начать использовать ИИ для работы и учебы. Искусственный интеллект — это не магия, а удобный инструмент!

❤38🔥15👏5👍1👎1

2.86K views15:21

Системный Блокъ

Кино вне политики? Кто участвует в российских кинофестивалях

Мы изучили, как изменилась география участников российских кинофестивалей после 2022 года — и обнаружили много неожиданного. Данные, инсайды, комментарии экспертов — рассказываем, что на самом деле происходит на международных смотрах в России.

Какие фестивали мы исследовали?

Согласно данным министерства культуры РФ, в 2024 году в РФ насчитывалось 110 фестивалей, имеющих статус ‎международного (перечень международных кинофестивалей формируется самим министерством). Правда, на деле многие из них скорее нишевые и локальные.

Поэтому для исследования мы выбрали пять: ММКФ (Московский Международный кинофестиваль), «Зеркало», «Докер», «Послание к человеку» и «Флаэртиана». Первые два — главные фестивали игрового кино, остальные три посвящены в основном документалистике.

Что мы выяснили?

У всех пяти фестивалей государственное финансирование, так что в глазах зарубежных стран они в большей или меньшей степени могут ассоциироваться с действиями России на мировой арене. Однако большинство стран сохранили свое присутствие на фестивалях.

В среднем на пяти кинофестивалях ежегодно участвуют работы из 37 стран мира, помимо России. Германия в 2018–2024 гг. представила 47 фильмов (из них 16 за 2022-2024 гг.), Франция — 40 (21), Китай — 22 (14).

Получается, ничего не изменилось?

Это не совсем так. Сильнее всех пострадал ММКФ – 17 стран, включая США и Италию, отказались возвращаться на фестиваль с 2022 года. От участия во всех пяти фестивалях отказались Польша, Чехия и Латвия. При этом фильмы из Китая, Италии, Сербии и Аргентины за последние три года стали более заметными участниками российских фестивалей.

Узнать о ситуации с фестивалями подробнее можно, изучив наши инфографики, а также страницу спецпроекта, на которой можно найти не только результаты исследования, но и комментарии экспертов – Михаила Ратгауза, кинокритика и программного директора «Послания к человеку», и Сергея Сычева, кинокритика и кандидата филологических наук.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥27❤17👀15👍6

3.65K viewsedited 15:10

Системный Блокъ

LLM от Google и OpenAI впервые завоевали золото в математической олимпиаде, Alibaba выпустила обновление топовой модели Qwen3

Рассказываем, что нового в мире ИИ

🥇🤖Модели Google и OpenAI победили в олимпиаде
Google и OpenAI отчитались (анонс Google, анонс OpenAI) о результатах своих языковых моделей на международной математической олимпиаде (IMO). Обе модели решили пять из шести задач, что соответствует уровню золотой медали. «Золото» IMO получают около 8% участников соревнования.

На решение задач отводилось 4,5 часа — стандартное время для всех участников. Модели использовали только естественный язык, без доступа к интернету или внешним инструментам вроде среды исполнения кода. Решения модели Google проверяли судьи олимпиады по стандартным критериям. OpenAI не проходила официальную проверку, но, как утверждает сама компания, результат проверили 3 бывших медалиста IMO.

Почему это важно?
С 2024 года компании активно развивают продвинутые математические способности языковых моделей. Ранее высокие результаты показывали только специализированные системы или модели с доступом к внешним инструментам. Теперь модели общего пользования, работающие исключительно с естественным языком, достигли уровня золотой медали IMO. Это демонстрирует прогресс парадигмы «рассуждающих» LLM, которые генерируют длинные цепочки «мыслей» перед финальным ответом.

🇨🇳Обновления Qwen3

Китайский холдинг Alibaba Group представил обновленные языковые модели Qwen3. В предыдущих версиях Qwen3 использовался гибридный подход — можно было вручную указывать, нужны ли длинные рассуждения перед ответом или требуется мгновенный отклик. Однако это понизило общее качество.

Теперь разработчики снова разделили две модели на рассуждающую и быструю. Новые LLM значительно превосходят гибридные версии во всех тестах. Модели доступны в двух размерах: 235 млрд или 30 млрд параметров. «Большой» Qwen3 теперь лишь незначительно уступает закрытым коммерческим ChatGPT и Gemini. Все обновленные модели размещены на HuggingFace под лицензией, разрешающей коммерческое использование.

Кроме того, вышли две специализированные версии Qwen. Первая предназначена для машинного перевода — она превосходит GPT-4.1 и Gemini 2.5 Pro по качеству и скорости, но доступна только через API. Вторая специализируется на программировании и не уступает лидеру в этой области — Claude Sonnet 4 от Anthropic. Веса модели открыты.

Почему это важно?
Линейка Qwen входит в число лучших открытых LLM на рынке. Ее выделяет большая широта: модели общего назначения представлены в различных размерах, что делает их подходящими как для локального использования обычными пользователями, так и для развертывания на мощных корпоративных серверах. Многие академические исследователи выбирают Qwen в качестве базы для проверки своих гипотез.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

❤10👍10🔥7

2.87K viewsedited 17:58

Системный Блокъ

Как обкачивать Telegram-каналы с помощью Python — туториал с кодом от «Системного Блока» 🧑‍💻

Мессенджер Telegram, в котором вы читаете этот текст, в последние годы превратился в одну из крупнейших коммуникационных систем планеты и своего рода «интернет в интернете». В 2025 году число активных пользователей Telegram в месяц (MAU) превысило 1 миллиард человек — ⅛ населения Земли. Ежедневно в мессенджер заходят 450 млн. пользователей.

Получается, что коммуникция в Telegram — это значительная часть всего, что говорится и пишется каждый день на языках планеты. Но как получить доступ к этим массивам текстов для количественных исследований? В этом помогут приложение Telegram Desktop, язык Python и библиотека pyrogram. В гайде с кодом рассказываем сначала о том, как выгрузить и автоматически разложить по папкам тексты из одного канала, а затем — о рекурсивном подходе для поиска и обкачивания больших групп связанных каналов.

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Датасет из Telegram-каналов: автоматический экспорт чатов с библиотекой pyrogram

В гайде «Системного Блока» рассказываем, как запустить автоматическую выгрузку данных из Telegram-каналов и что с их помощью можно исследовать.

❤34🔥22👏11🏆3🤓3

2.48K viewsedited 17:57

Системный Блокъ

Портреты слов, тональность и морфемный разбор: что теперь умеет НКРЯ с помощью нейросетей и NLP-библиотек

Национальный корпус русского языка (НКРЯ) уже давно не просто «собрание» репрезентативных текстов — это огромный комбайн из инструментов для исследования языка. И конечно, в эпоху нейросетевого бума в НКРЯ добавляются новые инструменты на основе нейросетей. Рассказываем коротко о современных технологиях под капотом самого авторитетного русского корпуса:

👯‍♀️ Похожие слова
Инструмент «Портрет слова» показывает лексемы, которые часто встречаются в похожих контекстах. Это не только синонимы, но и антонимы, слова из одной тематической области и др. Основой служит технология word2vec, а модели обучены для каждого корпуса отдельно — можно наблюдать, как ассоциаты слова меняются от «Русской классики» до корпуса СМИ.

🧬 Морфологическая разметка
Каждое слово в корпусе снабжено леммой, частью речи и грамматическими признаками (время, падеж, число и т.п.). Омонимия снимается автоматически, а вся информация подгружается прямо при клике на слово. В основе — модель Rubic, использующая RuBERT и PyMorphy2.

🏗️ Морфемный разбор
НКРЯ теперь умеет делить слова на приставки, корни и суффиксы. Причем для разных подкорпусов используются разные подходы: школьный (Тихонов) и академический (Кузнецова и Ефремова). Работают и словарные, и нейросетевые методы — в том числе собственная модель НейроКРЯ🦆 на базе сверточных нейронных сетей.

😡 Анализ тональности
В корпусе соцсетей каждое сообщение снабжено автоматической меткой: положительное, отрицательное или неопределенное. В основе — модель RuRoBERTa, обученная на датасете RuSentiment и размеченных вручную текстах. При поиске можно отфильтровать тексты по тональности.

🏷️ Ключевые слова
В корпусе Региональных СМИ к каждому тексту автоматически подбираются теги. Это помогает находить публикации по темам (например, «Пушкин» + «театр») и формировать подкорпусы по интересам. Извлечение реализовано через библиотеку RuTermExtract с рядом тонких настроек.

👉 Подробнее со скриншотами и ссылками — в полной версии статьи 📌

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Как НКРЯ создает «портрет» для каждого слова при помощи нейросетей и NLP-библиотек

Что нового у НКРЯ? Разбираемся, какие технологии использует Корпус, чтобы проводить морфемный и морфологический разбор, выделять в текстах ключевые слова и оценивать тональность интернет-постов.

🔥37❤22👍15

2.72K viewsedited 08:46

Системный Блокъ

ИИ для учителей: как нейросети помогают преподавать в школе 👩‍🏫🧑‍🏫

Искусственный интеллект меняет образование, беря на себя задачи по подготовке урока, составлению конспектов, созданию заданий любого формата и генерации сопроводительного (и не только) материала к урокам.

«Системный Блокъ» продолжает спецпроект «ИИ-лайфхаки для вашей профессии» и представляет раздел «ИИ для учителей» — практическое руководство по использованию нейросетей в преподавании.

Вы узнаете:
— как ChatGPT и DeepSeek помогают экономить время на проверке работ и при составлении учебных планов;
— какие промпты дают лучший результат (с примерами из практики учителей);
— как избежать ошибок при работе с ИИ и превратить его в надежного помощника, не теряя контроля за содержанием уроков и заданий.

Примеры из реальной практики!
Вот несколько промтов из учительской практики, которые вы найдете в посте:

1) Представь, что ты учитель русского языка и твой ученик 17 лет попросил объяснить разницу между значениями слов ВЫПЛАТИТЬ — ЗАПЛАТИТЬ — УПЛАТИТЬ — ОПЛАТИТЬ — ОТПЛАТИТЬ. Объясни разницу в значениях этих глаголов, подчеркни нюансы использования в речи, приведи примеры использования.

2) Сделай табличку с иллюстрациями новой лексики для студентов русского как иностранного. В каждой клеточке должно быть слово и реалистичная картинка, иллюстрирующая это слово. Если клеточка пустая, то оставь ее пустой. Прилагаю исходную таблицу-образец.

3) Представь, что ты учитель литературы в 10 классе, возраст учеников — 16 лет. Тебе нужно написать конспект урока на тему «Мысль семейная в романе Льва Толстого «Война и мир». Цели урока: проанализировать семьи Болконских, Ростовых, Безуховых, Курагиных и показать основные семейные черты представителей этих семей. Выбери эпизоды для анализа семейных отношений Болконский, Ростовых, Безуховых, Курагиных, составь вопросы для анализа эпизодов, подготовь итоговое задание для проверки знаний учащихся по теме. Урок должен состоять из организационного момента, подготовки к изучению темы урока, основной части по анализу романа, проверки знаний и заключения.

Ответы LLM на эти промты, а также другие примеры запросов — в полной версии материала «ИИ для учителей»

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

ИИ для учителей — примеры, инструменты и промпты | Системный Блокъ

Как учителя используют ИИ для подготовки уроков, заданий и тестов. Готовые промпты и практические советы.

❤28👍8🔥7🤨5

2.43K viewsedited 07:56

Системный Блокъ

🈷 Японский язык в цифровую эпоху

Как древним кандзи ужиться с современными технологиями? Рассказываем, как японская письменность с её многовековой историей и традициями чувствует себя в цифровом мире, какие есть шрифты для японской графики и где какой правильно использовать.

🇯🇵 Три алфавита — одно сообщение. Японцы свободно комбинируют кандзи (иероглифы) и две слоговые азбуки — хирагану и катакану, а в мессенджерах сюда же добавляют ещё и латиницу.

📚 Вертикальное письмо в XXI веке. Манга, газеты и официальные документы до сих пор могут печататься сверху вниз — и даже смартфоны это поддерживают.

(^_^) Эмоции одним символом. Каомодзи, интернет-сленг и миниатюрные пиктограммы позволяют выразить настроение быстрее, чем длинные фразы.

🖥 От иероглифа до кода. Всё это стало возможно благодаря цифровым стандартам и работе над шрифтами, которые хранят в себе тысячи символов.

А как кандзи живут в программировании и чем японский интернет-сленг отличается от западного — читайте в полной версии статьи 📌

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Японский язык в цифре: шрифты, сленг и каомодзи

Как японский язык существует в онлайн-пространстве? Разбираем цифровую трансформацию японской письменности: от шрифтов до каомодзи и новых форм коммуникации в мессенджерах.

❤42🦄19😍11👍4🙏1

2.21K viewsedited 08:41

Системный Блокъ

«Системному Блоку» — 7 лет! Лучшие материалы ко дню рождения 🎁

В 2018 году мы запустили первое в русскоязычном пространстве медиа о пересечении цифровых технологий и гуманитарных наук, компьютерных алгоритмов и культуры, нейросетей и искусства. За семь лет мы собрали больше сотни тысяч читателей на разных платформах (и особенно любим вас, дорогие подписчики в телеграме!), а также команду экспертов и авторов, живущих по всему миру. Мы научились просто рассказывать о сложных научных статьях, делать гайды и туториалы по цифровым методам, пилить собственные большие дата-исследования с инфографикой и выпускать краткие емкие разборы терминов из NLP/DS/DH.

Рассказываем о наших любимых материалах последнего года, а также немного — о достижениях.

🧑‍💻Применяем цифровые методы

За 7 лет на сайте «Системного Блока» вышло 1392 публикации. Это и интервью с экспертами, и блоги, и статьи о методах DH, и обзоры проектов. Только в этом году мы рассказывали, как цифровые археологи раскрывают преступления нацистского режима, а криптографы разгадывали шифр серийного убийцы Зодиака; описывали визуализацию всех книг мира на одной полке с помощью ISBN и реконструкцию сети дорог Римской империи.

🏛📜Исследуем данные о культуре и образовании

В прошлом году мы начали спецпроект «Классное чтение», в котором проанализировали состав школьных программ по литературе, начиная с 1919 года. Недавно, кстати, выпустили новую часть этого исследования о том, как изучается творчество писательниц. С интерактивными карточками, графиками и облаком тегов.

🤖Погружаемся в мир ИИ

Мы не могли оставаться в стороне от всеобщего интереса к развитию нейросетей, и запустили дайджест новостей из мира больших языковых моделей. Но недавно он вышел на новый уровень — и теперь к новостям мы добавляем экспертный комментарий о том, почему на это событие важно обратить внимание.

🛠 ..и учим(ся) применять ИИ в жизни

Для тех, кто пока не решил, какую пользу в работе может принести искусственный интеллект, мы выпустили спецпроект «ИИ-лайфхаки для вашей професии». Мы собрали кейсы от преподавателей, исследователей и других специалистов, которые рассказывают, как использовать нейросети с максимальной пользой. А также подобрали готовые промпты, способные сэкономить часы рутинной работы.

🔭Осваиваем новые сферы

Мы хотим оставаться для наших читателей проводником в цифровые гуманитарные науки и технологии. Для этого мы делаем гайды и рассказываем о важных терминах в глоссарии. Наш новый формат, который поможет погрузиться в тему самым начинающим, — это порталы-точки входа.

На странице про DH мы собрали все, что нужно знать про инструменты и методы цифровых гуманитарных наук, а также составили список экспертов, книг и образовательных программ. А в разделе «Дата-журналистика: точка входа» мы описали этапы работы над исследованием, разобрали кейсы, перечислили полезные сервисы для сбора, анализа и визуализации данных и дали ссылки на специализированные ресурсы. Так что, если вы не знали, с чего начать погружение в DH или в журналистику данных, начните с наших порталов.

🏆Получаем награды

Весной 2025 года проекты «Системного Блока» стали призерами в двух номинациях премии DH Awards: наш портал с подборкой материалов по Digital Humanities — в номинации Best DH Resource (Лучший DH-ресурс), проект «Классное чтение» — Best DH Data Visualization (Лучшая визуализация данных).

Кроме того, обладателями наград стали наши друзья и постоянные авторы Борис Орехов, занявший второе место в номинации DH Short Publication за статью о применении дистрибутивной семантики к шахматам, и Ольга Алиева, чей курс по компьютерному анализу текста стал призером в номинации DH Training Materials.

🚀Мы верим, что впереди у нас еще много интересного. В конце концов мы только достигли школьного возраста. Оставайтесь с нами, присоединяйтесь к команде, любите фьюжн цифры и культуры!

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

❤53🎉43🔥15🍾11❤‍🔥1👍1

1.51K viewsedited 12:22

Системный Блокъ

Угадай научпоп-статью по картинке: тест ко дню рождения «Системного Блока»

Что символизируют 💀черепа💀 — раскопки Древнего Рима или драму ледникового периода, когда люди едва не вымерли?
Почему Дарвин задумчиво смотрит на деревья?🌳 И что за убийственный гендерный дисбаланс зашифрован в нашей инфографике? 📊

Проверьте свою зрительную интуицию в нашем новом тесте: угадайте статью «Системного Блока» по картинке, которую к ней сделали наши художники 👩‍🎨

🤖 «Системный Блокъ» @sysblok

Please open Telegram to view this post

VIEW IN TELEGRAM

Системный Блокъ

Тест: угадай статью «Системного Блока» по картинке - Системный Блокъ

Мы очень любим наших художников и дизайнеров инфографики. Иногда их работы говорят больше, чем слова. Мы собрали несколько примеров — попробуйте угадать, какие публикации они иллюстрируют.

❤16🥰9🔥6👍4

1.47K viewsedited 15:06

Системный Блокъ

Соцсети древних римлян, VR-прогулки по Помпеям и чтение сгоревших папирусов с помощью МРТ и нейросетей: подборка о цифровых методах в антиковедении

Исследователи античности гордятся тем, что использование статистических методов в гуманитарных науках началось именно с классической филологии — это произошло не позже конца XIX века. С появлением компьютеров применять количественные методы и цифровые модели стало легче, и сегодня в арсенал цифровых античников входят и геоинформатика, и сетевой анализ, и цифровые 3D-модели. Рассказываем, как соединяются классическая древность и ультрасовременные технологии:

3D‑модели и VR в Помпеях 🌋
Шведские учёные использовали 3D‑моделирование, очки виртуальной реальности, ГИС и трекинг взгляда, чтобы увидеть, какие детали интерьера привлекали внимание посетителей воссозданной в виртуальном пространстве виллы римского аристократа в Помпеях, а еще — как на восприятие влиял свет

МРТ и нейросети для чтения папирусов 📜
Из Помпей переместимся в соседний Геркуланум — здесь находится Вилла папирусов, самое большое в мире собрание античных свитков. Рассказываем, как ученые с XVIII века работают над тем, чтобы прочитать обгоревшие свитки рукописей, можно ли узнать, что написано в свитке, не разворачивая его, зачем папирусам делают компьютерную томографию и МРТ и как расшифровка рукописей превратилась в международное соревнование

Поиск межтекстовых перекличек в римской литературе 🔄
Приложение Tesserae помогает искать заимствования, цитаты и переклички в текстах античных авторов — это полезный инструмент для филологов‑классиков. Самый простой результат работы с Tesserae — это выявление новых текстовых параллелей, которые до этого не были отмечены комментаторами. Например, при тестировании Tesserae команда нашла потенциальную аллюзию к «Энеиде» Вергилия в поэме Лукана «Фарсалия».

ORBIS и транспортная сеть Римской империи 🌍
С помощью сетевого анализа и картографии можно просчитать маршруты между разными точками Pax Romana, оценить статус городов и даже понять, почему Карфаген должен был пасть

Просопография и социальная сеть древних римлян 🤝
Базы вроде Romans1by1 и инструменты визуализации помогают изучать не только факты, но и социальные связи римлян, связывая горожан, чиновников и аристократов в единую сеть

Определение авторства и древние греки 🕵️‍♀️
Компьютерный анализ может помочь не только с поиском заимствований, но и с датировкой текстов и установлением авторства. Рассказываем, насколько эффективна стилометрия, если речь идет о древнегреческих текстах. Вы узнаете, может ли Дельта Берроуза отличить греческих ораторов друг от друга, какие метрики входят в топ-3 по эффективности для античных произведений и с какими авторами возникает больше всего проблем

Что волнует исследователей Платона и при чем тут танцы 💃
Классики исследуют тексты, папирусы и руины древних вилл — а кто исследует их самих? Цифровая платоноведка Ольга Алиева рассказывает, как построить тематическую модель журнала и с ее помощью отследить, что больше всего волнует платоноведов в России, когда произошел всплеск популярности Аристотеля и откуда в платоноведческих текстах танцы

🏛 «Системный Блокъ» @sysblok

🔥14❤11✍6👍2🥰1

1.55K viewsedited 15:44

About

Blog

Apps

Platform