Мастерская дата-журналистики «Системного Блока»: учим работать с данными и делать из них истории среди ёлок на берегу Волги ⛺🌲📊
В эти дни «Системный Блокъ» проводит мастерскую дата-журналистики на Летней школе. Сейчас участники мастерской изучают инструменты работы с данными и прокачивают навыки дата-журналистов (поиск инфоповодов и данных к ним, фактчекинг, верификация данных, стортеллинг), а на следующей неделе будут работать над своими проектами.
Читать лекции и вести мастер-классы мы позвали ведущих экспертов по данным и визуализации: Надю Андрианову и Алексея Смагина из Яндекс.Исследований, Анастасию Кокоурову и Витовта Копытока из «Если быть точным», Сергея Антонова из Т-Ж, Алексея Новичкова из Вышки, Ксению Орлову из Инфокультуры, Татьяну Мелентьеву и Ольгу Добровидову из ИТМО, Юлию Криган из «Точки», Андрея Дорожного из «Дата-студии Андрея Дорожного» и других прекрасных людей.
И все это под звездным небом среди сосен и елей на берегу Волги. Делимся с вами избранными фотографиями с мастерской💁
🤖 «Системный Блокъ» @sysblok
В эти дни «Системный Блокъ» проводит мастерскую дата-журналистики на Летней школе. Сейчас участники мастерской изучают инструменты работы с данными и прокачивают навыки дата-журналистов (поиск инфоповодов и данных к ним, фактчекинг, верификация данных, стортеллинг), а на следующей неделе будут работать над своими проектами.
Читать лекции и вести мастер-классы мы позвали ведущих экспертов по данным и визуализации: Надю Андрианову и Алексея Смагина из Яндекс.Исследований, Анастасию Кокоурову и Витовта Копытока из «Если быть точным», Сергея Антонова из Т-Ж, Алексея Новичкова из Вышки, Ксению Орлову из Инфокультуры, Татьяну Мелентьеву и Ольгу Добровидову из ИТМО, Юлию Криган из «Точки», Андрея Дорожного из «Дата-студии Андрея Дорожного» и других прекрасных людей.
И все это под звездным небом среди сосен и елей на берегу Волги. Делимся с вами избранными фотографиями с мастерской💁
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥63❤27👍11
Новые модели от OpenAI, Mistral и Meta*: дайджест новостей ИИ
Рассказываем, что произошло в мире ИИ за последние две недели.
GPT-4o mini — быстрая и доступная GPT
Компания OpenAI выпустила языковую модель GPT-4o mini. Особенность модели — компактный размер, благодаря чему она быстрее и дешевле флагманской GPT-4o. Эти преимущества позволяют использовать модель в приложениях, где важна маленькая задержка между запросом и ответом, — например, в чат-ботах, которые отвечают на вопросы клиентов.
Несмотря на относительно маленький размер, модель превосходит GPT-3.5 Turbo и миниатюрные модели от других компаний в тестах понимания языка, математических и логических способностей, а также поддерживает все языки, которые есть в старшей версии.
Обновление LLama 3
Корпорация Meta* выпустила LLama 3.1 405B — одну из самых больших языковых моделей, которые есть в открытом доступе. Модель сопоставима с GPT-4o или лучше её практически во всех стандартных тестах.
Meta также обновила младшие версии LLama 3. Обновлённые модели имеют более высокие показатели во всех задачах, а также могут работать с существенно более длинными текстами.
Еще Meta рассказала об экспериментах по внедрению в модели поддержки работы с изображениями и видео. Все модели доступны для использования в исследовательских и коммерческих целях.
4 новых модели от Mistral
Французский стартап, основанный бывшими сотрудниками Meta*, выпустил две новые языковые модели, а также модели, специализированные для написания кода и решения математических задач.
Mistral Large 2 поддерживает сотни естественных языков и «знает» свыше 80 языков программирования. Также Large 2 была специально обучена использовать внешние инструменты (например, браузер и интерпретатор кода).
Mistral NeMo — модель среднего размера с упором на мультиязычность. Nemo использует эффективную предобработку текстов не на английском языке. Так, тексты на китайском, итальянском, французском, немецком, испанском и русском языках представляются на 30% компактнее по сравнению с LLama 3. Благодаря этому модель работает с «иностранными» текстами быстрее и ресурсоэффективнее.
Codestral — семейство моделей, обученных писать программный код. Модель доступна в двух размерах: 7 и 22 миллиардов параметров. Codestral опережает модели схожих размеров в задачах на программирование. Младшая версия основана на архитектуре Mamba 2, что отличает её от практически всех языковых моделей, которые в свою очередь используют архитектуру Transformer. Архитектура Mamba 2 позволяет модели обрабатывать очень длинные тексты, что особенно актуально для задач по написанию кода.
Mathstral — модель, предназначенная для решения математических задач. Mathstral показывает высокие результаты в тестах на понимание естественных наук, она смогла решить две из 30 задач из AIME (второй отборочный этап на международную олимпиаду по математике в США). Для сравнения — почти все модели конкурентов не смогли решить ни одну из предложенных задач.
*Meta признана в РФ экстремистской организацией.
🤖 «Системный Блокъ» @sysblok
Рассказываем, что произошло в мире ИИ за последние две недели.
GPT-4o mini — быстрая и доступная GPT
Компания OpenAI выпустила языковую модель GPT-4o mini. Особенность модели — компактный размер, благодаря чему она быстрее и дешевле флагманской GPT-4o. Эти преимущества позволяют использовать модель в приложениях, где важна маленькая задержка между запросом и ответом, — например, в чат-ботах, которые отвечают на вопросы клиентов.
Несмотря на относительно маленький размер, модель превосходит GPT-3.5 Turbo и миниатюрные модели от других компаний в тестах понимания языка, математических и логических способностей, а также поддерживает все языки, которые есть в старшей версии.
Обновление LLama 3
Корпорация Meta* выпустила LLama 3.1 405B — одну из самых больших языковых моделей, которые есть в открытом доступе. Модель сопоставима с GPT-4o или лучше её практически во всех стандартных тестах.
Meta также обновила младшие версии LLama 3. Обновлённые модели имеют более высокие показатели во всех задачах, а также могут работать с существенно более длинными текстами.
Еще Meta рассказала об экспериментах по внедрению в модели поддержки работы с изображениями и видео. Все модели доступны для использования в исследовательских и коммерческих целях.
4 новых модели от Mistral
Французский стартап, основанный бывшими сотрудниками Meta*, выпустил две новые языковые модели, а также модели, специализированные для написания кода и решения математических задач.
Mistral Large 2 поддерживает сотни естественных языков и «знает» свыше 80 языков программирования. Также Large 2 была специально обучена использовать внешние инструменты (например, браузер и интерпретатор кода).
Mistral NeMo — модель среднего размера с упором на мультиязычность. Nemo использует эффективную предобработку текстов не на английском языке. Так, тексты на китайском, итальянском, французском, немецком, испанском и русском языках представляются на 30% компактнее по сравнению с LLama 3. Благодаря этому модель работает с «иностранными» текстами быстрее и ресурсоэффективнее.
Codestral — семейство моделей, обученных писать программный код. Модель доступна в двух размерах: 7 и 22 миллиардов параметров. Codestral опережает модели схожих размеров в задачах на программирование. Младшая версия основана на архитектуре Mamba 2, что отличает её от практически всех языковых моделей, которые в свою очередь используют архитектуру Transformer. Архитектура Mamba 2 позволяет модели обрабатывать очень длинные тексты, что особенно актуально для задач по написанию кода.
Mathstral — модель, предназначенная для решения математических задач. Mathstral показывает высокие результаты в тестах на понимание естественных наук, она смогла решить две из 30 задач из AIME (второй отборочный этап на международную олимпиаду по математике в США). Для сравнения — почти все модели конкурентов не смогли решить ни одну из предложенных задач.
*Meta признана в РФ экстремистской организацией.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤20🔥9👍4🙏2
Что такое Викиданные (Wikidata) и как там искать информацию?
Даже заядлому поклоннику ночного серфинга по страницам Википедии может быть непросто собирать и систематизировать большой объем информации из свободной энциклопедии. Для работы с такими данными были созданы Викиданные (Wikidata) — большая и удобная база данных на основе Википедии. Разберемся, как с ней работать и когда она может быть полезна.
Кратко: как это работает?
База Wikidata объединяет всё, что можно найти благодаря Wikibooks, MediaWiki, Wikisource, Wikiquote и другим проектам со словом Wiki. Она позволяет лучше структурировать и быстрее находить информацию с необходимых страниц, копировать результаты поиска в формате необходимого языка программирования, строить графы и диаграммы и многое другое.
Правда, чтобы взаимодействовать с Викиданными вам потребуется специальный поисковик и специальный язык для запросов – SPARQL. Чтобы разобраться с ним можно обратиться к шпаргалке от самих Wikidata или к ChatGPT: модель легко преобразует ваш текст в нужный формат запроса.
Посмотреть, как Wikidata помогли нам собрать информацию о программистках, рождённых после 1950 года, и проследить за всеми этапами работы с данными можно на нашем сайте.
Время чтения: 6 минут.
🤖 «Системный Блокъ» @sysblok
Даже заядлому поклоннику ночного серфинга по страницам Википедии может быть непросто собирать и систематизировать большой объем информации из свободной энциклопедии. Для работы с такими данными были созданы Викиданные (Wikidata) — большая и удобная база данных на основе Википедии. Разберемся, как с ней работать и когда она может быть полезна.
Кратко: как это работает?
База Wikidata объединяет всё, что можно найти благодаря Wikibooks, MediaWiki, Wikisource, Wikiquote и другим проектам со словом Wiki. Она позволяет лучше структурировать и быстрее находить информацию с необходимых страниц, копировать результаты поиска в формате необходимого языка программирования, строить графы и диаграммы и многое другое.
Правда, чтобы взаимодействовать с Викиданными вам потребуется специальный поисковик и специальный язык для запросов – SPARQL. Чтобы разобраться с ним можно обратиться к шпаргалке от самих Wikidata или к ChatGPT: модель легко преобразует ваш текст в нужный формат запроса.
Посмотреть, как Wikidata помогли нам собрать информацию о программистках, рождённых после 1950 года, и проследить за всеми этапами работы с данными можно на нашем сайте.
Время чтения: 6 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Что такое Викиданные, или Wikidata, и как там искать информацию?
Разбираемся, как работать с Викиданными (Wikidata) и когда они могут быть полезны.
🔥26👍11❤9
Подборка статей о цифровых музыкальных исследованиях
О чем пели в российской попсе за последние тридцать лет? Можно ли посчитать, насколько депрессивна моя любимая песня? Куда идти, если я хочу провести свое исследование большого пласта музыки? В подборке статей «Системного блока» — проекты цифровых музыковедов и интернет-ресурсы, которые могут помочь исследователю.
Музыкальная «энциклопедия русской жизни»
Анастасия Панасюк провела исследование текстов самых популярных российских исполнителей с 1990 года — мы узнали, что ели и пили музыканты за 30 лет, куда они хотели поехать, о чем мечтали и сколько зарабатывали (по крайней мере, в собственных глазах). Собрали здесь все самые интересные находки.
Кто поет Бодлера?
Рассказываем о проекте Baudelaire Song Project, где собраны все песни, написанные на стихи Шарля Бодлера, и музыка, вдохновленная его поэзией. В ресурсе удобно собраны композиции, относящиеся к творчеству поэта-декадента.
Считаем депрессию в песнях Radiohead и не только
Дата-сайентист и фанат группы Radiohead Чарли Томпсон провел исследование, чтобы измерить, насколько грустные песни написал его любимый коллектив. Для анализа использовались и тексты, и музыка — получилось даже вывести формулу идеального грустного трека.
Genius как помощник в исследованиях музыки
Рассказываем, как устроена музыкальная «база знаний» Genius — сайт, где можно ознакомиться с текстами большинства популярных исполнителей мира и стать филологом от мира современной музыки, прокомментировав любую загадочную строчку.
Архив музыки — даже древней
Проект RISM (Международный каталог музыкальных источников) был создан, чтобы объединить музыкальные ресурсы всего мира в универсальное хранилище. С его помощью можно найти и изучить композиции: от современных до записанных на бумагу в XVI веке. Доступ к библиотеке бесплатный, поэтому ее может использовать любой желающий. Рассказываем, как она работает.
🤖 «Системный Блокъ» @sysblok
О чем пели в российской попсе за последние тридцать лет? Можно ли посчитать, насколько депрессивна моя любимая песня? Куда идти, если я хочу провести свое исследование большого пласта музыки? В подборке статей «Системного блока» — проекты цифровых музыковедов и интернет-ресурсы, которые могут помочь исследователю.
Музыкальная «энциклопедия русской жизни»
Анастасия Панасюк провела исследование текстов самых популярных российских исполнителей с 1990 года — мы узнали, что ели и пили музыканты за 30 лет, куда они хотели поехать, о чем мечтали и сколько зарабатывали (по крайней мере, в собственных глазах). Собрали здесь все самые интересные находки.
Кто поет Бодлера?
Рассказываем о проекте Baudelaire Song Project, где собраны все песни, написанные на стихи Шарля Бодлера, и музыка, вдохновленная его поэзией. В ресурсе удобно собраны композиции, относящиеся к творчеству поэта-декадента.
Считаем депрессию в песнях Radiohead и не только
Дата-сайентист и фанат группы Radiohead Чарли Томпсон провел исследование, чтобы измерить, насколько грустные песни написал его любимый коллектив. Для анализа использовались и тексты, и музыка — получилось даже вывести формулу идеального грустного трека.
Genius как помощник в исследованиях музыки
Рассказываем, как устроена музыкальная «база знаний» Genius — сайт, где можно ознакомиться с текстами большинства популярных исполнителей мира и стать филологом от мира современной музыки, прокомментировав любую загадочную строчку.
Архив музыки — даже древней
Проект RISM (Международный каталог музыкальных источников) был создан, чтобы объединить музыкальные ресурсы всего мира в универсальное хранилище. С его помощью можно найти и изучить композиции: от современных до записанных на бумагу в XVI веке. Доступ к библиотеке бесплатный, поэтому ее может использовать любой желающий. Рассказываем, как она работает.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22🔥8❤5
От Гомера до Мольера: зарубежная литература в школьной программе
Должен ли современный школьник читать Шекспира и Сэлинджера? А Гомера? Когда больше изучали зарубежных авторов: в советское время или сейчас? Недавно мы рассказывали о нашем дата-исследовании школьного канона от Октябрьской революции до ЕГЭ, а теперь собрали главную информацию и инфографики на карточках.
Смотрите, как менялось изучение иностранной литературы в школах в последние 100 лет, и рассказывайте, кого в школе читали вы – Джоан Роулинг или Оноре де Бальзака.
🤖 «Системный Блокъ» @sysblok
Должен ли современный школьник читать Шекспира и Сэлинджера? А Гомера? Когда больше изучали зарубежных авторов: в советское время или сейчас? Недавно мы рассказывали о нашем дата-исследовании школьного канона от Октябрьской революции до ЕГЭ, а теперь собрали главную информацию и инфографики на карточках.
Смотрите, как менялось изучение иностранной литературы в школах в последние 100 лет, и рассказывайте, кого в школе читали вы – Джоан Роулинг или Оноре де Бальзака.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥42❤17🏆7👍3😱2
Какие темы интересуют современных востоковедов и как им помогают в исследованиях цифровые технологии?
Какие инструменты помогают анализировать древние рукописные иероглифы и токенизировать азиатские тексты? Что узнали ученые, исследующие религиозность африканцев? И что творят с цифровыми технологиями японцы? Читайте в нашей востоковедческой подборке статей от «Системного блока».
Искусственный интеллект и старинные японские книги: как лингвисты распознают иероглифы
В старинных японских книгах иероглифы отличаются от современных — они более сложны в написании и отличаются по значению. Старинные рукописи еще своеобразнее — в них использовалась скоропись, из-за чего символы плавно перетекают из одного в другой. И в тех, и других текст необязательно последовательный — он может огибать иллюстрации или зависеть от толщины кисти. Такую старую систему записи называют кудзусидзи, и ее способен прочесть не каждый носитель японского языка. Что уж говорить об ИИ. О том, что все же помогло ученым ускорить обработку текстов, читайте в статье.
Искусственный интеллект и YouTube: что ещё изучают лингвисты
Лингвисты, работающие с современными источниками на японском языке (такими как комментарии на YouTube), осваивают совершенно другие технологии: чистят данные от стоп-слов, распознают иероглифы-эмоджи и создают облака слов для отражения частотностей. О них читайте в статье о Voyant Tools.
Религии Африки через данные: во что и как верит самый религиозный континент Земли
За жизнь одного поколения Африка перешла в христианство и ислам настолько быстро и эффективно, что африканских проповедников стали приглашать европейцы для изучения их опыта и оживления собственных служб. Иван Захаров рассказал о том, что помог узнать ученым датасет, охватывающий более чем столетие развития феномена.
ChatGPT и литературная премия
Япония не перестает удивлять. Пока школьники становятся агрессивнее и наращивают темпы кибербуллинга, люди искусства осваивают ИИ. Так, 17 января 2024 писательница Риэ Кудан получила престижную японскую премию Акутагавы. Жюри назвало роман «почти совершенным». А на следующий день разразился скандал: в одном из интервью писательница призналась, что примерно 5% текста были написаны с помощью ChatGPT. О том, зачем она это сделала и почему премию не отозвали, рассказывает Анна Слащева.
Гайды по работе с библиотеками токенизации азиатских текстов
Завершим подборку востоковедческих текстов рассказом про text-mining (автоматизированный интеллектуальный анализ текстов) с инструкциями, как это использовать вам, если вы изучаете корейский, китайский или японский язык.
🤖 «Системный Блокъ» @sysblok
Какие инструменты помогают анализировать древние рукописные иероглифы и токенизировать азиатские тексты? Что узнали ученые, исследующие религиозность африканцев? И что творят с цифровыми технологиями японцы? Читайте в нашей востоковедческой подборке статей от «Системного блока».
Искусственный интеллект и старинные японские книги: как лингвисты распознают иероглифы
В старинных японских книгах иероглифы отличаются от современных — они более сложны в написании и отличаются по значению. Старинные рукописи еще своеобразнее — в них использовалась скоропись, из-за чего символы плавно перетекают из одного в другой. И в тех, и других текст необязательно последовательный — он может огибать иллюстрации или зависеть от толщины кисти. Такую старую систему записи называют кудзусидзи, и ее способен прочесть не каждый носитель японского языка. Что уж говорить об ИИ. О том, что все же помогло ученым ускорить обработку текстов, читайте в статье.
Искусственный интеллект и YouTube: что ещё изучают лингвисты
Лингвисты, работающие с современными источниками на японском языке (такими как комментарии на YouTube), осваивают совершенно другие технологии: чистят данные от стоп-слов, распознают иероглифы-эмоджи и создают облака слов для отражения частотностей. О них читайте в статье о Voyant Tools.
Религии Африки через данные: во что и как верит самый религиозный континент Земли
За жизнь одного поколения Африка перешла в христианство и ислам настолько быстро и эффективно, что африканских проповедников стали приглашать европейцы для изучения их опыта и оживления собственных служб. Иван Захаров рассказал о том, что помог узнать ученым датасет, охватывающий более чем столетие развития феномена.
ChatGPT и литературная премия
Япония не перестает удивлять. Пока школьники становятся агрессивнее и наращивают темпы кибербуллинга, люди искусства осваивают ИИ. Так, 17 января 2024 писательница Риэ Кудан получила престижную японскую премию Акутагавы. Жюри назвало роман «почти совершенным». А на следующий день разразился скандал: в одном из интервью писательница призналась, что примерно 5% текста были написаны с помощью ChatGPT. О том, зачем она это сделала и почему премию не отозвали, рассказывает Анна Слащева.
Гайды по работе с библиотеками токенизации азиатских текстов
Завершим подборку востоковедческих текстов рассказом про text-mining (автоматизированный интеллектуальный анализ текстов) с инструкциями, как это использовать вам, если вы изучаете корейский, китайский или японский язык.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥16❤10👍7