Как обкачивать Telegram-каналы с помощью Python — туториал с кодом от «Системного Блока» 🧑💻
Мессенджер Telegram, в котором вы читаете этот текст, в последние годы превратился в одну из крупнейших коммуникационных систем планеты и своего рода «интернет в интернете». В 2025 году число активных пользователей Telegram в месяц (MAU) превысило 1 миллиард человек — ⅛ населения Земли. Ежедневно в мессенджер заходят 450 млн. пользователей.
Получается, что коммуникция в Telegram — это значительная часть всего, что говорится и пишется каждый день на языках планеты. Но как получить доступ к этим массивам текстов для количественных исследований? В этом помогут приложение Telegram Desktop, язык Python и библиотека pyrogram. В гайде с кодом рассказываем сначала о том, как выгрузить и автоматически разложить по папкам тексты из одного канала, а затем — о рекурсивном подходе для поиска и обкачивания больших групп связанных каналов.
🤖 «Системный Блокъ» @sysblok
Мессенджер Telegram, в котором вы читаете этот текст, в последние годы превратился в одну из крупнейших коммуникационных систем планеты и своего рода «интернет в интернете». В 2025 году число активных пользователей Telegram в месяц (MAU) превысило 1 миллиард человек — ⅛ населения Земли. Ежедневно в мессенджер заходят 450 млн. пользователей.
Получается, что коммуникция в Telegram — это значительная часть всего, что говорится и пишется каждый день на языках планеты. Но как получить доступ к этим массивам текстов для количественных исследований? В этом помогут приложение Telegram Desktop, язык Python и библиотека pyrogram. В гайде с кодом рассказываем сначала о том, как выгрузить и автоматически разложить по папкам тексты из одного канала, а затем — о рекурсивном подходе для поиска и обкачивания больших групп связанных каналов.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Датасет из Telegram-каналов: автоматический экспорт чатов с библиотекой pyrogram
В гайде «Системного Блока» рассказываем, как запустить автоматическую выгрузку данных из Telegram-каналов и что с их помощью можно исследовать.
❤32🔥21👏9🏆3🤓3
Портреты слов, тональность и морфемный разбор: что теперь умеет НКРЯ с помощью нейросетей и NLP-библиотек
Национальный корпус русского языка (НКРЯ) уже давно не просто «собрание» репрезентативных текстов — это огромный комбайн из инструментов для исследования языка. И конечно, в эпоху нейросетевого бума в НКРЯ добавляются новые инструменты на основе нейросетей. Рассказываем коротко о современных технологиях под капотом самого авторитетного русского корпуса:
👯♀️ Похожие слова
Инструмент «Портрет слова» показывает лексемы, которые часто встречаются в похожих контекстах. Это не только синонимы, но и антонимы, слова из одной тематической области и др. Основой служит технология word2vec, а модели обучены для каждого корпуса отдельно — можно наблюдать, как ассоциаты слова меняются от «Русской классики» до корпуса СМИ.
🧬 Морфологическая разметка
Каждое слово в корпусе снабжено леммой, частью речи и грамматическими признаками (время, падеж, число и т.п.). Омонимия снимается автоматически, а вся информация подгружается прямо при клике на слово. В основе — модель Rubic, использующая RuBERT и PyMorphy2.
🏗️ Морфемный разбор
НКРЯ теперь умеет делить слова на приставки, корни и суффиксы. Причем для разных подкорпусов используются разные подходы: школьный (Тихонов) и академический (Кузнецова и Ефремова). Работают и словарные, и нейросетевые методы — в том числе собственная модель НейроКРЯ🦆 на базе сверточных нейронных сетей.
😡 Анализ тональности
В корпусе соцсетей каждое сообщение снабжено автоматической меткой: положительное, отрицательное или неопределенное. В основе — модель RuRoBERTa, обученная на датасете RuSentiment и размеченных вручную текстах. При поиске можно отфильтровать тексты по тональности.
🏷️ Ключевые слова
В корпусе Региональных СМИ к каждому тексту автоматически подбираются теги. Это помогает находить публикации по темам (например, «Пушкин» + «театр») и формировать подкорпусы по интересам. Извлечение реализовано через библиотеку RuTermExtract с рядом тонких настроек.
👉 Подробнее со скриншотами и ссылками — в полной версии статьи 📌
🤖 «Системный Блокъ» @sysblok
Национальный корпус русского языка (НКРЯ) уже давно не просто «собрание» репрезентативных текстов — это огромный комбайн из инструментов для исследования языка. И конечно, в эпоху нейросетевого бума в НКРЯ добавляются новые инструменты на основе нейросетей. Рассказываем коротко о современных технологиях под капотом самого авторитетного русского корпуса:
👯♀️ Похожие слова
Инструмент «Портрет слова» показывает лексемы, которые часто встречаются в похожих контекстах. Это не только синонимы, но и антонимы, слова из одной тематической области и др. Основой служит технология word2vec, а модели обучены для каждого корпуса отдельно — можно наблюдать, как ассоциаты слова меняются от «Русской классики» до корпуса СМИ.
🧬 Морфологическая разметка
Каждое слово в корпусе снабжено леммой, частью речи и грамматическими признаками (время, падеж, число и т.п.). Омонимия снимается автоматически, а вся информация подгружается прямо при клике на слово. В основе — модель Rubic, использующая RuBERT и PyMorphy2.
🏗️ Морфемный разбор
НКРЯ теперь умеет делить слова на приставки, корни и суффиксы. Причем для разных подкорпусов используются разные подходы: школьный (Тихонов) и академический (Кузнецова и Ефремова). Работают и словарные, и нейросетевые методы — в том числе собственная модель НейроКРЯ🦆 на базе сверточных нейронных сетей.
😡 Анализ тональности
В корпусе соцсетей каждое сообщение снабжено автоматической меткой: положительное, отрицательное или неопределенное. В основе — модель RuRoBERTa, обученная на датасете RuSentiment и размеченных вручную текстах. При поиске можно отфильтровать тексты по тональности.
🏷️ Ключевые слова
В корпусе Региональных СМИ к каждому тексту автоматически подбираются теги. Это помогает находить публикации по темам (например, «Пушкин» + «театр») и формировать подкорпусы по интересам. Извлечение реализовано через библиотеку RuTermExtract с рядом тонких настроек.
👉 Подробнее со скриншотами и ссылками — в полной версии статьи 📌
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как НКРЯ создает «портрет» для каждого слова при помощи нейросетей и NLP-библиотек
Что нового у НКРЯ? Разбираемся, какие технологии использует Корпус, чтобы проводить морфемный и морфологический разбор, выделять в текстах ключевые слова и оценивать тональность интернет-постов.
🔥36❤20👍12
ИИ для учителей: как нейросети помогают преподавать в школе 👩🏫🧑🏫
Искусственный интеллект меняет образование, беря на себя задачи по подготовке урока, составлению конспектов, созданию заданий любого формата и генерации сопроводительного (и не только) материала к урокам.
«Системный Блокъ» продолжает спецпроект «ИИ-лайфхаки для вашей профессии» и представляет раздел «ИИ для учителей» — практическое руководство по использованию нейросетей в преподавании.
Вы узнаете:
— как ChatGPT и DeepSeek помогают экономить время на проверке работ и при составлении учебных планов;
— какие промпты дают лучший результат (с примерами из практики учителей);
— как избежать ошибок при работе с ИИ и превратить его в надежного помощника, не теряя контроля за содержанием уроков и заданий.
Примеры из реальной практики!
Вот несколько промтов из учительской практики, которые вы найдете в посте:
Ответы LLM на эти промты, а также другие примеры запросов — в полной версии материала «ИИ для учителей»
🤖 «Системный Блокъ» @sysblok
Искусственный интеллект меняет образование, беря на себя задачи по подготовке урока, составлению конспектов, созданию заданий любого формата и генерации сопроводительного (и не только) материала к урокам.
«Системный Блокъ» продолжает спецпроект «ИИ-лайфхаки для вашей профессии» и представляет раздел «ИИ для учителей» — практическое руководство по использованию нейросетей в преподавании.
Вы узнаете:
— как ChatGPT и DeepSeek помогают экономить время на проверке работ и при составлении учебных планов;
— какие промпты дают лучший результат (с примерами из практики учителей);
— как избежать ошибок при работе с ИИ и превратить его в надежного помощника, не теряя контроля за содержанием уроков и заданий.
Примеры из реальной практики!
Вот несколько промтов из учительской практики, которые вы найдете в посте:
1) Представь, что ты учитель русского языка и твой ученик 17 лет попросил объяснить разницу между значениями слов ВЫПЛАТИТЬ — ЗАПЛАТИТЬ — УПЛАТИТЬ — ОПЛАТИТЬ — ОТПЛАТИТЬ. Объясни разницу в значениях этих глаголов, подчеркни нюансы использования в речи, приведи примеры использования.
2) Сделай табличку с иллюстрациями новой лексики для студентов русского как иностранного. В каждой клеточке должно быть слово и реалистичная картинка, иллюстрирующая это слово. Если клеточка пустая, то оставь ее пустой. Прилагаю исходную таблицу-образец.
3) Представь, что ты учитель литературы в 10 классе, возраст учеников — 16 лет. Тебе нужно написать конспект урока на тему «Мысль семейная в романе Льва Толстого «Война и мир». Цели урока: проанализировать семьи Болконских, Ростовых, Безуховых, Курагиных и показать основные семейные черты представителей этих семей. Выбери эпизоды для анализа семейных отношений Болконский, Ростовых, Безуховых, Курагиных, составь вопросы для анализа эпизодов, подготовь итоговое задание для проверки знаний учащихся по теме. Урок должен состоять из организационного момента, подготовки к изучению темы урока, основной части по анализу романа, проверки знаний и заключения.
Ответы LLM на эти промты, а также другие примеры запросов — в полной версии материала «ИИ для учителей»
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
ИИ для учителей — примеры, инструменты и промпты | Системный Блокъ
Как учителя используют ИИ для подготовки уроков, заданий и тестов. Готовые промпты и практические советы.
❤27👍8🔥7🤨4
🈷 Японский язык в цифровую эпоху
Как древним кандзи ужиться с современными технологиями? Рассказываем, как японская письменность с её многовековой историей и традициями чувствует себя в цифровом мире, какие есть шрифты для японской графики и где какой правильно использовать.
🇯🇵 Три алфавита — одно сообщение. Японцы свободно комбинируют кандзи (иероглифы) и две слоговые азбуки — хирагану и катакану, а в мессенджерах сюда же добавляют ещё и латиницу.
📚 Вертикальное письмо в XXI веке. Манга, газеты и официальные документы до сих пор могут печататься сверху вниз — и даже смартфоны это поддерживают.
(^_^) Эмоции одним символом. Каомодзи, интернет-сленг и миниатюрные пиктограммы позволяют выразить настроение быстрее, чем длинные фразы.
🖥 От иероглифа до кода. Всё это стало возможно благодаря цифровым стандартам и работе над шрифтами, которые хранят в себе тысячи символов.
А как кандзи живут в программировании и чем японский интернет-сленг отличается от западного — читайте в полной версии статьи 📌
🤖 «Системный Блокъ» @sysblok
Как древним кандзи ужиться с современными технологиями? Рассказываем, как японская письменность с её многовековой историей и традициями чувствует себя в цифровом мире, какие есть шрифты для японской графики и где какой правильно использовать.
🇯🇵 Три алфавита — одно сообщение. Японцы свободно комбинируют кандзи (иероглифы) и две слоговые азбуки — хирагану и катакану, а в мессенджерах сюда же добавляют ещё и латиницу.
📚 Вертикальное письмо в XXI веке. Манга, газеты и официальные документы до сих пор могут печататься сверху вниз — и даже смартфоны это поддерживают.
(^_^) Эмоции одним символом. Каомодзи, интернет-сленг и миниатюрные пиктограммы позволяют выразить настроение быстрее, чем длинные фразы.
🖥 От иероглифа до кода. Всё это стало возможно благодаря цифровым стандартам и работе над шрифтами, которые хранят в себе тысячи символов.
А как кандзи живут в программировании и чем японский интернет-сленг отличается от западного — читайте в полной версии статьи 📌
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Японский язык в цифре: шрифты, сленг и каомодзи
Как японский язык существует в онлайн-пространстве? Разбираем цифровую трансформацию японской письменности: от шрифтов до каомодзи и новых форм коммуникации в мессенджерах.
❤31🦄14😍7👍1🙏1