Две новых языковых модели и обучающая выборка в 15 триллионов токенов: дайджест новостей из мира ИИ
Компания Snowflake выпустила самую большую языковую модель, открытую для коммерческого использования. Разработчикам доступна новая обучающая выборка из 15 триллионов токенов. Microsoft представила новое поколение компактной модели Phi. Рассказываем, что произошло в мире ИИ на прошлой неделе.
Доступна обучающая выборка с 15 триллионами токенов
Опубликована новая выборка текстов для обучения языковых моделей — FineWeb. Она содержит отфильтрованные англоязычные тексты разных веб-сайтов и покрывает период с лета 2013 года до начала весны 2024 года. Мультиязычную версию обещают выложить в ближайшее время. Всего в выборке 15 триллионов токенов (это часть слова или слово). Для проверки качества данных на части выборки было обучено несколько языковых моделей. Их качество получилось выше, чем у тех, которые обучали на других известных наборах данных (C4, Pile, Dolma и другие).
Новая самая большая публичная LLM
Компания Snowflake выпустила языковую модель Arctic с 480 миллиардами параметров. Модель использует архитектуру Mixture of Experts. Иными словами, в процессе её работы задействована только часть всех параметров (какая именно — модель выбирает в зависимости от входных данных). В случае Arctic используется всего лишь 3,5% параметров. По качеству она сопоставима с LLama 3 70B. На данный момент Arctic — самая большая модель, которую можно использовать в коммерческих целях без каких-либо ограничений.
Phi-3 — маленькая, но умная языковая модель
Компания Microsoft выпустила третье поколение своих компактных языковых моделей Phi. Модель Phi-3 выделяется относительно небольшим размером: 3,8 миллиарда параметров (для сравнения самая большая на текущий момент публичная модель в 126 раз больше) и высокими показателями в основных тестах. По качеству она сопоставима с недавно вышедшей LLama 3 с восемью миллиардами параметров. По заявлениям Microsoft, этого удалось достичь с помощью обучения модели на данных высокого качества: часть данных — сильно отфильтрованный набор текстов из интернета, другая часть — данные, сгенерированные с помощью GPT-4. Однако в сообществе исследователей и разработчиков некоторые относятся к возможностям Phi-3 скептически: критики подозревают, что в обучающих данных присутствовали тексты, на которых её впоследствии тестировали. Такие же дискуссии вызвали и её предшественники, Phi-1 и Phi-2.
🤖 «Системный Блокъ» @sysblok
Компания Snowflake выпустила самую большую языковую модель, открытую для коммерческого использования. Разработчикам доступна новая обучающая выборка из 15 триллионов токенов. Microsoft представила новое поколение компактной модели Phi. Рассказываем, что произошло в мире ИИ на прошлой неделе.
Доступна обучающая выборка с 15 триллионами токенов
Опубликована новая выборка текстов для обучения языковых моделей — FineWeb. Она содержит отфильтрованные англоязычные тексты разных веб-сайтов и покрывает период с лета 2013 года до начала весны 2024 года. Мультиязычную версию обещают выложить в ближайшее время. Всего в выборке 15 триллионов токенов (это часть слова или слово). Для проверки качества данных на части выборки было обучено несколько языковых моделей. Их качество получилось выше, чем у тех, которые обучали на других известных наборах данных (C4, Pile, Dolma и другие).
Новая самая большая публичная LLM
Компания Snowflake выпустила языковую модель Arctic с 480 миллиардами параметров. Модель использует архитектуру Mixture of Experts. Иными словами, в процессе её работы задействована только часть всех параметров (какая именно — модель выбирает в зависимости от входных данных). В случае Arctic используется всего лишь 3,5% параметров. По качеству она сопоставима с LLama 3 70B. На данный момент Arctic — самая большая модель, которую можно использовать в коммерческих целях без каких-либо ограничений.
Phi-3 — маленькая, но умная языковая модель
Компания Microsoft выпустила третье поколение своих компактных языковых моделей Phi. Модель Phi-3 выделяется относительно небольшим размером: 3,8 миллиарда параметров (для сравнения самая большая на текущий момент публичная модель в 126 раз больше) и высокими показателями в основных тестах. По качеству она сопоставима с недавно вышедшей LLama 3 с восемью миллиардами параметров. По заявлениям Microsoft, этого удалось достичь с помощью обучения модели на данных высокого качества: часть данных — сильно отфильтрованный набор текстов из интернета, другая часть — данные, сгенерированные с помощью GPT-4. Однако в сообществе исследователей и разработчиков некоторые относятся к возможностям Phi-3 скептически: критики подозревают, что в обучающих данных присутствовали тексты, на которых её впоследствии тестировали. Такие же дискуссии вызвали и её предшественники, Phi-1 и Phi-2.
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
HuggingFaceFW/fineweb · Datasets at Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
170 лет школьной программы: проект «Список чтения»
Цель проекта «Список чтения» — представить состав школьной программы по литературе на протяжении 170 лет и проследить, как он менялся. «Системный Блокъ» рассказывает о проекте Высшей школы экономики, который будет партнером на мастерской Дата-журналистики на «Летней Школе».
Что такое «Список чтения»?
Созданная в 2023 году интерактивная карта — результат исследования учебных программ по литературе с 1852 по 2023 год. Идея проекта — показать содержание школьной программы по литературе в детализированном и понятном формате. Авторы использовали два датасета, размещенных в электронном репозитории ИРЛИ РАН, а также некоторые данные собирали и подготавливали самостоятельно.
Что мы узнали из «Списка чтения»?
Сайт проекта состоит из двух разделов. В разделе «Таймлайн» находится график, отражающий количество изучаемых авторов и произведений в течение каждого года. Например, в 1870-х изучались всего 14 авторов и 40 произведений, а в 1920-х — уже 54 автора и 183 произведения. В разделе «Топы» собраны авторы и книги-долгожители, а также писатели с наибольшим количеством произведений. Например, «Евгений Онегин» Пушкина изучался практически на всем протяжении исследуемого периода, а татарского писателя К. Наджми проходили лишь в 1932 году.
Что дальше?
В «Списке чтения» представлены три среза: исторический, литературоведческий и социологический. Проект помогает понять, как складывается канон (устойчивый набор текстов), и изучить влияние школьного материала на социокультурную атмосферу конкретного исторического периода. Одно из возможных направлений исследования — соотнесение программы с историческими реалиями, с задачами, которые стоят или стояли перед образованием в соответствующую эпоху.
Более подробно об устройстве проекта, его ограничениях и будущих улучшениях читайте в полной версии статьи и на сайте «Списка чтения».
Время чтения: 9 минут.
🤖 «Системный Блокъ» @sysblok
Цель проекта «Список чтения» — представить состав школьной программы по литературе на протяжении 170 лет и проследить, как он менялся. «Системный Блокъ» рассказывает о проекте Высшей школы экономики, который будет партнером на мастерской Дата-журналистики на «Летней Школе».
Что такое «Список чтения»?
Созданная в 2023 году интерактивная карта — результат исследования учебных программ по литературе с 1852 по 2023 год. Идея проекта — показать содержание школьной программы по литературе в детализированном и понятном формате. Авторы использовали два датасета, размещенных в электронном репозитории ИРЛИ РАН, а также некоторые данные собирали и подготавливали самостоятельно.
Что мы узнали из «Списка чтения»?
Сайт проекта состоит из двух разделов. В разделе «Таймлайн» находится график, отражающий количество изучаемых авторов и произведений в течение каждого года. Например, в 1870-х изучались всего 14 авторов и 40 произведений, а в 1920-х — уже 54 автора и 183 произведения. В разделе «Топы» собраны авторы и книги-долгожители, а также писатели с наибольшим количеством произведений. Например, «Евгений Онегин» Пушкина изучался практически на всем протяжении исследуемого периода, а татарского писателя К. Наджми проходили лишь в 1932 году.
Что дальше?
В «Списке чтения» представлены три среза: исторический, литературоведческий и социологический. Проект помогает понять, как складывается канон (устойчивый набор текстов), и изучить влияние школьного материала на социокультурную атмосферу конкретного исторического периода. Одно из возможных направлений исследования — соотнесение программы с историческими реалиями, с задачами, которые стоят или стояли перед образованием в соответствующую эпоху.
Более подробно об устройстве проекта, его ограничениях и будущих улучшениях читайте в полной версии статьи и на сайте «Списка чтения».
Время чтения: 9 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Обзор проекта «Список чтения» от НИУ ВШЭ
«Системный Блокъ» рассказывает о проекте Высшей школы экономики «Список чтения», цель которого — проанализировать и визуализировать состав учебных программ по литературе с 1852 по 2023 год.
От трех шагов к чтению до разговора о Большом терроре: подборка «Системного Блока» про образование
Многие блогеры «Системного Блока» преподают в школах или университетах, поэтому образование – одна из ключевых тем в их текстах. В этой подборке — четыре важных материала о теории и практике в обучении.
Как дети учатся читать
Если речь в детстве «приходит сама», то чтению ребенка нужно научить. В своем блоге Анастасия Лопухина рассказывала, как дети учатся читать и что знают об этом современные когнитивные науки. Например, в обучении чтению есть три шага: «взлом» орфографического кода, эффективное чтение отдельных слов и понимание текста. Подробнее о каждом из них узнаете из поста.
Как провести урок истории на основе цифрового архива «Прожито»
Дневники цифровой коллекции «Прожито» могут превратить урок в исследование локальной истории или событий мирового масштаба. Например, в коллекции дневников можно найти целых 223 записи 1945 года о бомбардировке Хиросимы и Нагасаки и изучить, как её восприняли в СССР. О других вариантах применения «Прожито» на уроке истории узнаете из блога Юлии Папановой.
Как увлечь школьников историей страны
Ещё один вариант разнообразить уроки — обратиться к электронным базам по истории. Юлия Папанова рассказала о таком методе на примере цифровых архивов ХМАО. Благодаря ним в рамках разговора о большом терроре можно изучить архивно-следственные дела семей. Изучая другие темы, угадывать, как раньше применялись предметы быта и культа из музейной коллекции.
Как работают цифровые гуманитарии
В DH-магистратуре в ИТМО люди учатся делать и проекты, и исследования, и совмещение этих двух подходов может многому научить. Цифровые гуманитарии умеют превращать культуру в коллекцию образцов, выставленных в музее, а науку — раскладывать на схемы, которые вытравят всё живое из открытий и сомнений. О том, с какими последствиями цифровизации работают студенты и как с этим связан «Пушкин Цифровой», можно узнать из материала на сайте.
🤖 «Системный Блокъ» @sysblok
Многие блогеры «Системного Блока» преподают в школах или университетах, поэтому образование – одна из ключевых тем в их текстах. В этой подборке — четыре важных материала о теории и практике в обучении.
Как дети учатся читать
Если речь в детстве «приходит сама», то чтению ребенка нужно научить. В своем блоге Анастасия Лопухина рассказывала, как дети учатся читать и что знают об этом современные когнитивные науки. Например, в обучении чтению есть три шага: «взлом» орфографического кода, эффективное чтение отдельных слов и понимание текста. Подробнее о каждом из них узнаете из поста.
Как провести урок истории на основе цифрового архива «Прожито»
Дневники цифровой коллекции «Прожито» могут превратить урок в исследование локальной истории или событий мирового масштаба. Например, в коллекции дневников можно найти целых 223 записи 1945 года о бомбардировке Хиросимы и Нагасаки и изучить, как её восприняли в СССР. О других вариантах применения «Прожито» на уроке истории узнаете из блога Юлии Папановой.
Как увлечь школьников историей страны
Ещё один вариант разнообразить уроки — обратиться к электронным базам по истории. Юлия Папанова рассказала о таком методе на примере цифровых архивов ХМАО. Благодаря ним в рамках разговора о большом терроре можно изучить архивно-следственные дела семей. Изучая другие темы, угадывать, как раньше применялись предметы быта и культа из музейной коллекции.
Как работают цифровые гуманитарии
В DH-магистратуре в ИТМО люди учатся делать и проекты, и исследования, и совмещение этих двух подходов может многому научить. Цифровые гуманитарии умеют превращать культуру в коллекцию образцов, выставленных в музее, а науку — раскладывать на схемы, которые вытравят всё живое из открытий и сомнений. О том, с какими последствиями цифровизации работают студенты и как с этим связан «Пушкин Цифровой», можно узнать из материала на сайте.
Please open Telegram to view this post
VIEW IN TELEGRAM
Подборка каналов о современном образовании от издания «Системный Блокъ»
Даже если вы уже окончили школу и получили профессиональное образование, вам все равно придется учиться. Непрерывное обучение — это не просто тренд, а новая норма в мире активного развития цифровых технологий и постоянных социальных изменений. Как учатся современные люди? Что такое EdTech? Чем занимаются педагогические дизайнеры? Системный Блокъ сделал для вас подборку каналов о современном образовании.
— @ru_education — Образование, которое мы заслужили
Канал для тех, кто хочет быстро погрузиться в EdTech во всем его разнообразии. Здесь вы найдете новости, обзоры кейсов, а также размышления автора — Михаила Свердлова.
— @LXD_education — д*ИИ*зайн Образования
Канал посвящен педагогическим инновациям — в первую очередь цифровым. Автор канала Андрей Комиссаров рассказывает о своем опыте разработки образовательных инструментов для педагогов и учеников на основе искусственного интеллекта. А ещё здесь обсуждаются этичность использования геймификации, идеи для школьных проектов на основе поиска и визуализации данных и разные инструменты педагогического дизайна.
— @edunetflix — Netflix в сфере образования
Как выглядит современное обучение? Как сделать его эффективным? И как доказать эту эффективность бизнесу? EdTech-продакт Григорий Волчков делится наблюдениями в работе, быту и видеоиграх. Рассказывает о современных образовательных приложениях и приглашает учителей и методистов также делиться своим опытом на канале.
— @elearningskills — Царёва в Курсе
Канал Анны Царёвой для методистов, методологов, педагогических дизайнеров, дизайнеров образовательного опыта и всех, кто занимается созданием обучения. Здесь собраны профессиональные гайды, схемы, а в рубрике «Спросите методиста» автор канала отвечает на вопросы подписчиков. Какие навыки необходимы методисту, чтобы быть востребованным? Как активизировать учебный чат? Чем обусловлена любовь педагогов к излишней академичности?
— @kaktomogu — Учусь как умею
Заметки о том, как учатся взрослые люди. Автор канала Лина Адамаускене изучает философию познания и помогает взрослым осваивать новые профессии. Пишет о трудностях, с которыми сталкиваются ученики, и высказывает критику современному миру, где постоянное обучение и переобучение стало необходимым. Как возвращаться в учебу после долгого молчания? Что делать, если в середине долгосрочного обучения надоело учиться? Если вам знакомы синдром самозванца и боязнь белого листа, если бывает трудно понять новый материал — загляните в этот канал.
— @sonyaaboutcam — over the river cam
Блог Сони Смысловой об образовании, а также о философии, политике, социологии применительно к обучению. Автор рассказывает о прочитанных книгах, о своем опыте обучения в Кембридже и делится интересными находками. Например, исследованием вопроса «почему студенты не вовлекаются в онлайн-обучение?» или статьей, в которой анализируются компетенции, необходимые для дизайнера педагогического опыта.
— @sysblok — Системный Блокъ
Ваш виртуальный краш, проводник по миру цифровых технологий в образовании, искусстве и гуманитарных науках. Как использовать цифровые архивы и базы данных по истории для школьных проектов? Как дети учатся читать и что об этом говорит наука? Как цифровые технологии помогают преодолеть гендерное неравенство в образовании? В постах Системного Блока вы найдете обзоры исследований и практические советы для преподавателей.
🤖 «Системный Блокъ» @sysblok
Даже если вы уже окончили школу и получили профессиональное образование, вам все равно придется учиться. Непрерывное обучение — это не просто тренд, а новая норма в мире активного развития цифровых технологий и постоянных социальных изменений. Как учатся современные люди? Что такое EdTech? Чем занимаются педагогические дизайнеры? Системный Блокъ сделал для вас подборку каналов о современном образовании.
— @ru_education — Образование, которое мы заслужили
Канал для тех, кто хочет быстро погрузиться в EdTech во всем его разнообразии. Здесь вы найдете новости, обзоры кейсов, а также размышления автора — Михаила Свердлова.
— @LXD_education — д*ИИ*зайн Образования
Канал посвящен педагогическим инновациям — в первую очередь цифровым. Автор канала Андрей Комиссаров рассказывает о своем опыте разработки образовательных инструментов для педагогов и учеников на основе искусственного интеллекта. А ещё здесь обсуждаются этичность использования геймификации, идеи для школьных проектов на основе поиска и визуализации данных и разные инструменты педагогического дизайна.
— @edunetflix — Netflix в сфере образования
Как выглядит современное обучение? Как сделать его эффективным? И как доказать эту эффективность бизнесу? EdTech-продакт Григорий Волчков делится наблюдениями в работе, быту и видеоиграх. Рассказывает о современных образовательных приложениях и приглашает учителей и методистов также делиться своим опытом на канале.
— @elearningskills — Царёва в Курсе
Канал Анны Царёвой для методистов, методологов, педагогических дизайнеров, дизайнеров образовательного опыта и всех, кто занимается созданием обучения. Здесь собраны профессиональные гайды, схемы, а в рубрике «Спросите методиста» автор канала отвечает на вопросы подписчиков. Какие навыки необходимы методисту, чтобы быть востребованным? Как активизировать учебный чат? Чем обусловлена любовь педагогов к излишней академичности?
— @kaktomogu — Учусь как умею
Заметки о том, как учатся взрослые люди. Автор канала Лина Адамаускене изучает философию познания и помогает взрослым осваивать новые профессии. Пишет о трудностях, с которыми сталкиваются ученики, и высказывает критику современному миру, где постоянное обучение и переобучение стало необходимым. Как возвращаться в учебу после долгого молчания? Что делать, если в середине долгосрочного обучения надоело учиться? Если вам знакомы синдром самозванца и боязнь белого листа, если бывает трудно понять новый материал — загляните в этот канал.
— @sonyaaboutcam — over the river cam
Блог Сони Смысловой об образовании, а также о философии, политике, социологии применительно к обучению. Автор рассказывает о прочитанных книгах, о своем опыте обучения в Кембридже и делится интересными находками. Например, исследованием вопроса «почему студенты не вовлекаются в онлайн-обучение?» или статьей, в которой анализируются компетенции, необходимые для дизайнера педагогического опыта.
— @sysblok — Системный Блокъ
Ваш виртуальный краш, проводник по миру цифровых технологий в образовании, искусстве и гуманитарных науках. Как использовать цифровые архивы и базы данных по истории для школьных проектов? Как дети учатся читать и что об этом говорит наука? Как цифровые технологии помогают преодолеть гендерное неравенство в образовании? В постах Системного Блока вы найдете обзоры исследований и практические советы для преподавателей.
Please open Telegram to view this post
VIEW IN TELEGRAM
«Воскрешение» исторических личностей и лекция от суперзвезды: как использовать дипфейки в образовании
Эйнштейн объясняет старшеклассникам теорию относительности, Маяковский читает стихи у доски, а у педагогов остаётся время на саморазвитие. Как дипфейки могут сделать учебный процесс интереснее?
Кратко: о чем статья?
Дипфейк (англ. deepfake) — это технология создания реалистичных аудио, фото и видео на основе искусственного интеллекта. Сегодня она встречаются в рекламе и кино, но можно использовать её и в сфере образования.
Например, при разработке онлайн-курса. Преподавателю достаточно записать только первую лекцию, а остальную информацию, загруженную в программу, озвучит его цифровой двойник — дипфейк. Подобный эксперимент уже провели в СПбГУ.
Другой вариант использования – «подключение» к уроку исторических личностей. Как у издательства «Эксмо», которое в 2022 провело книжное шоу «Что читать дальше». В нём «Анна Ахматова», «Эдгар По» и «Михаил Булгаков» рассказали о книжных новинках сезона.
Список нейросетей для создания дипфейков варьируется от бесплатных Zao и Doublicat до платных Deepfakes web β и Synthesia. Узнать об особенностях каждой из них и посмотреть на Арнольда Шварцнегера в роли «Системного Блока» можно на сайте.
Время чтения: 9 минут.
🤖 «Системный Блокъ» @sysblok
Эйнштейн объясняет старшеклассникам теорию относительности, Маяковский читает стихи у доски, а у педагогов остаётся время на саморазвитие. Как дипфейки могут сделать учебный процесс интереснее?
Кратко: о чем статья?
Дипфейк (англ. deepfake) — это технология создания реалистичных аудио, фото и видео на основе искусственного интеллекта. Сегодня она встречаются в рекламе и кино, но можно использовать её и в сфере образования.
Например, при разработке онлайн-курса. Преподавателю достаточно записать только первую лекцию, а остальную информацию, загруженную в программу, озвучит его цифровой двойник — дипфейк. Подобный эксперимент уже провели в СПбГУ.
Другой вариант использования – «подключение» к уроку исторических личностей. Как у издательства «Эксмо», которое в 2022 провело книжное шоу «Что читать дальше». В нём «Анна Ахматова», «Эдгар По» и «Михаил Булгаков» рассказали о книжных новинках сезона.
Список нейросетей для создания дипфейков варьируется от бесплатных Zao и Doublicat до платных Deepfakes web β и Synthesia. Узнать об особенностях каждой из них и посмотреть на Арнольда Шварцнегера в роли «Системного Блока» можно на сайте.
Время чтения: 9 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Как используют дипфейки в образовании?
Дипфейки — это новый тренд в обучении. Эйнштейн объясняет старшеклассникам теорию относительности. Маяковский читает стихи у доски. Ученик «обменивается» телом с учителем, а у педагогов остаётся время на саморазвитие. Как ещё выглядит образование, в котором…
Тест: угадайте город с почтовой открытки
Отличите ли вы Псков от Варшавы, а Вильнюс — от Самары? Узнаете ли город по фотографии начала века? Пройдите новый тест и отгадайте, где были сделаны фотографии достопримечательностей и пейзажей.
В этом тесте мы продолжаем исследовать цифровой корпус почтовых открыток проекта «Пишу тебе», в котором собрано более 45000 расшифрованных текстов открыток.
🤖 «Системный Блокъ» @sysblok
Отличите ли вы Псков от Варшавы, а Вильнюс — от Самары? Узнаете ли город по фотографии начала века? Пройдите новый тест и отгадайте, где были сделаны фотографии достопримечательностей и пейзажей.
В этом тесте мы продолжаем исследовать цифровой корпус почтовых открыток проекта «Пишу тебе», в котором собрано более 45000 расшифрованных текстов открыток.
Please open Telegram to view this post
VIEW IN TELEGRAM
Какой город запечатлен на открытке 1915 года?
Anonymous Quiz
37%
Это точно Москва!
25%
Нет, это Санкт-Петербург…
37%
Это вообще не в России, это Вена.
Безмолвные свидетели: как нечеловеческая ДНК помогает криминалистам
Помните, как в сериале BBC Шерлок Холмс по составу налипшей на кроссовки пыльцы выясняет, где жил их владелец? Это не фантазия сценариста, а научный метод геолокации, которому больше 55 лет. В нашем материале рассказываем, как по следам пыльцы раскрывают преступления, зачем криминалистам ДНК растений и можно ли по пыли на вашей двери определить, где вы живёте.
🌺 Почему пыльца?
Пыльца незаметна и крайне устойчива. Ни 20 миллионов лет, ни стирка с отбеливателем не избавят вашу одежду от её следов полностью: спорополленин, покрывающий пыльцевое зерно, — одна из самых химически стабильных органических субстанций, по которой можно выяснить регион происхождения образца. Это помогает отследить трафик наркотиков и ввоз санкционных товаров или доказать, что бабочка-репейница, которую вы встретили на побережье Испании, зимовала в Африке и побывала в Сахаре.
🧬 А ДНК зачем?
Определить видовую принадлежность растения, глядя на пыльцу, не всегда возможно. К счастью, для этого есть секвенирование ДНК. Небольшой максимально информативный фрагмент генома образца (баркод) прицельно прочитывают, а затем сравнивают с известными баркодами из базы данных. Это, конечно, нужно не только криминалистам. С помощью такого метода идентифицируют патогены, находят новые виды, следят за биоразнообразием и состоянием экосистем, проверяют составы продуктов и растительных препаратов. Так что библиотеки баркодов собираются совместными усилиями разных специалистов.
🔎 Можно ли верить таким показаниям?
В криминалистике эти методы пока применяются не очень активно, но предварительные исследования вдохновляют. Например, в Китае так опознали тело женщины, которая не числилась в местном списке пропавших. Криминалисты заглянули к ней в легкие, поскольку часть пыльцевых зёрен, попавших в дыхательные пути, остаётся в них навсегда. Поэтому человек, долгое время проживший в одном районе, оказывается «помечен» пыльцой окрестных растений. Этот метод сузил поиски до двух провинций — женщину удалось найти в списках пропавших в одной из них.
Подробнее об исследованиях пыльцы и ДНК, а также о том, как грязь с ботинок помогла раскрыть преступление в 1969 году, узнаете из полной версии статьи.
Время чтения: 15 минут.
🤖 «Системный Блокъ» @sysblok
Помните, как в сериале BBC Шерлок Холмс по составу налипшей на кроссовки пыльцы выясняет, где жил их владелец? Это не фантазия сценариста, а научный метод геолокации, которому больше 55 лет. В нашем материале рассказываем, как по следам пыльцы раскрывают преступления, зачем криминалистам ДНК растений и можно ли по пыли на вашей двери определить, где вы живёте.
🌺 Почему пыльца?
Пыльца незаметна и крайне устойчива. Ни 20 миллионов лет, ни стирка с отбеливателем не избавят вашу одежду от её следов полностью: спорополленин, покрывающий пыльцевое зерно, — одна из самых химически стабильных органических субстанций, по которой можно выяснить регион происхождения образца. Это помогает отследить трафик наркотиков и ввоз санкционных товаров или доказать, что бабочка-репейница, которую вы встретили на побережье Испании, зимовала в Африке и побывала в Сахаре.
🧬 А ДНК зачем?
Определить видовую принадлежность растения, глядя на пыльцу, не всегда возможно. К счастью, для этого есть секвенирование ДНК. Небольшой максимально информативный фрагмент генома образца (баркод) прицельно прочитывают, а затем сравнивают с известными баркодами из базы данных. Это, конечно, нужно не только криминалистам. С помощью такого метода идентифицируют патогены, находят новые виды, следят за биоразнообразием и состоянием экосистем, проверяют составы продуктов и растительных препаратов. Так что библиотеки баркодов собираются совместными усилиями разных специалистов.
🔎 Можно ли верить таким показаниям?
В криминалистике эти методы пока применяются не очень активно, но предварительные исследования вдохновляют. Например, в Китае так опознали тело женщины, которая не числилась в местном списке пропавших. Криминалисты заглянули к ней в легкие, поскольку часть пыльцевых зёрен, попавших в дыхательные пути, остаётся в них навсегда. Поэтому человек, долгое время проживший в одном районе, оказывается «помечен» пыльцой окрестных растений. Этот метод сузил поиски до двух провинций — женщину удалось найти в списках пропавших в одной из них.
Подробнее об исследованиях пыльцы и ДНК, а также о том, как грязь с ботинок помогла раскрыть преступление в 1969 году, узнаете из полной версии статьи.
Время чтения: 15 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Криминалистическая биоинформатика: как пыльца помогает раскрывать преступления
«Системный Блокъ» рассказывает, как по следам пыльцы раскрывают преступления, зачем криминалистам ДНК растений и можно ли по пыли на вашей двери определить, где вы живёте.
«Объясните так, чтобы понял пятиклассник» — как узнать, насколько легко читать текст? Рассказываем о сервисе «Текстометр»
Исследовательница Антонина Лапошина из Института Пушкина разработала онлайн-инструмент для оценки сложности текстов на русском языке: «Текстометр» стал доступен пользователям в 2021 году.
Сайт позволяет вставить в него текст и затем выставляет балл по уровню сложности чтения. Доступно два режима оценивания: для носителей русского языка и для изучающих русский как иностранный. Шкала сложности для каждого режима своя: для носителей сайт показывает минимальный возраст или курс вуза предполагаемых читателей, а для иностранцев выдает уровень от А1 до С2 по международной шкале CEFR. Также «Текстометр» отображает некоторые метрики текста: например, списки частотных и устаревших слов.
Сервис не просто обобщает уже известные методики анализа читаемости: автор «Текстометра» провела собственные эксперименты и улучшила алгоритм оценки. Об одном из исследований мы уже рассказывали: пользователей сайта Пушкинского университета просили сравнивать по сложности тексты из учебников русского как иностранного. Благодаря ответам удалось уточнить классификацию этих текстов по уровню сложности.
В другом исследовании участвовали дети: с помощью айтрекинга лингвисты оценивали, что влияет на скорость восприятия текста маленькими читателями. В результате самым важным параметром оказалась частотность встречающихся слов — в то время как в классических формулах оценки читаемости учитываются другие признаки, в частности, длина предложений и слов.
Подробнее о способах анализа сложности текста вы можете прочитать в нашей статье. А сейчас предлагаем читателям попробовать себя в роли программы-анализатора: как вы думаете, что сложнее читать — «Котлован» Андрея Платонова или «Школу для дураков» Саши Соколова? Можете ответить интуитивно или посмотреть фрагменты романов в комментариях.
Отмечайте в опросе ниже, а вечером мы опубликуем вердикт «Текстометра»!
🤖 «Системный Блокъ» @sysblok
Исследовательница Антонина Лапошина из Института Пушкина разработала онлайн-инструмент для оценки сложности текстов на русском языке: «Текстометр» стал доступен пользователям в 2021 году.
Сайт позволяет вставить в него текст и затем выставляет балл по уровню сложности чтения. Доступно два режима оценивания: для носителей русского языка и для изучающих русский как иностранный. Шкала сложности для каждого режима своя: для носителей сайт показывает минимальный возраст или курс вуза предполагаемых читателей, а для иностранцев выдает уровень от А1 до С2 по международной шкале CEFR. Также «Текстометр» отображает некоторые метрики текста: например, списки частотных и устаревших слов.
Сервис не просто обобщает уже известные методики анализа читаемости: автор «Текстометра» провела собственные эксперименты и улучшила алгоритм оценки. Об одном из исследований мы уже рассказывали: пользователей сайта Пушкинского университета просили сравнивать по сложности тексты из учебников русского как иностранного. Благодаря ответам удалось уточнить классификацию этих текстов по уровню сложности.
В другом исследовании участвовали дети: с помощью айтрекинга лингвисты оценивали, что влияет на скорость восприятия текста маленькими читателями. В результате самым важным параметром оказалась частотность встречающихся слов — в то время как в классических формулах оценки читаемости учитываются другие признаки, в частности, длина предложений и слов.
Подробнее о способах анализа сложности текста вы можете прочитать в нашей статье. А сейчас предлагаем читателям попробовать себя в роли программы-анализатора: как вы думаете, что сложнее читать — «Котлован» Андрея Платонова или «Школу для дураков» Саши Соколова? Можете ответить интуитивно или посмотреть фрагменты романов в комментариях.
Отмечайте в опросе ниже, а вечером мы опубликуем вердикт «Текстометра»!
Please open Telegram to view this post
VIEW IN TELEGRAM
Какой текст сложнее?
Anonymous Quiz
60%
«Котлован» Андрея Платонова
40%
«Школа для дураков» Саши Соколова
Правильный ответ на сегодняшний опрос — по оценке «Текстометра», «Котлован» Андрея Платонова оказался сложнее! Он получил 72 балла сложности из 100, а вот «Школа для дураков» заслужила 38.
Точные методы в лингвистике: подборка памяти Ю. Д. Апресяна
В Москве на 95-м году жизни скончался лингвист Ю. Д. Апресян — основатель Московской семантической школы, соавтор множества словарей, один из первых исследователей машинного перевода. Мы решили почтить память Ю. Д. Апресяна подборкой статей о прошлом и настоящем машинного перевода и точных методов в лингвистике.
Машинный перевод: как он появился и как работает
Впервые идея использовать компьютер для перевода текстов с одного естественного языка на другой была предложена ещё в 1949 году. От короткого набора правил до продвинутых нейросетей: 70 лет истории развития машинного перевода за 15 минут.
Что такое кросс-языковая морфология и зачем она нужна
Машинный перевод и другая компьютерно-лингвистическая магия работают тогда, когда есть много данных для обучения нейросетей. Но что делать, если язык редкий и данных почти нет? Тут может помочь перенос на малоресурсный язык лингвистических моделей, построенных на данных большого родственного языка. Рассказываем про построение кросс-языковых NLP-моделей.
Зачем нужен Национальный корпус русского языка
Зачем нужен НКРЯ? В статье рассказано о самых разных исследованиях на основе корпуса: от сложностей перевода на другой язык культурных реалий на примере книг Набокова до возникновения фразы «ибо нефиг» и особенностей применения частного и местного падежей в современном языке.
От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна
В этом году Национальному корпусу исполнилось 20 лет. Все эти годы НКРЯ менялся не только внешне, но и внутренне: добавлялись новые функции и новые подкорпусы. Сейчас с помощью НКРЯ можно изучать детскую литературу, блоги, берестяные грамоты и многое другое, анализировать статистику употребления слов и коллокаций, строить графики и искать похожие слова.
Как лингвистика стала близкой подругой математики и информатики?
Лингвистика привлекла внимание математиков и инженеров после Второй мировой войны. Этому способствовали достижения структурной лингвистики начала XX века (Фердинанд де Соссюр и его последователи), но ещё больше — появление первых компьютеров и холодная война. Заинтересованные идеей научить компьютер переводить текст и понимать его, кибернетики начали создавать формальные модели языка для компьютеров. В их работах заложена база для стохастических методов, которые играют ведущую роль в современной прикладной обработке языка. Рассказываем, как в середине XX века соединились лингвистика, математика и информатика.
Достигла ли своих целей разработка искусственного интеллекта?
В 1972 году (как раз когда Ю. Д. Апресян во второй раз вплотную занялся машинным переводом) учёные составили список из двенадцати задач, которые нужно решить для создания искусственного интеллекта в ближайшие десятилетия. В список входили автоматический перевод, самоуправляемые автомобили и даже автономные роботы-планетоходы. Мы попробовали оценить, что сделано, а что ещё нет.
🤖 «Системный Блокъ» @sysblok
В Москве на 95-м году жизни скончался лингвист Ю. Д. Апресян — основатель Московской семантической школы, соавтор множества словарей, один из первых исследователей машинного перевода. Мы решили почтить память Ю. Д. Апресяна подборкой статей о прошлом и настоящем машинного перевода и точных методов в лингвистике.
Машинный перевод: как он появился и как работает
Впервые идея использовать компьютер для перевода текстов с одного естественного языка на другой была предложена ещё в 1949 году. От короткого набора правил до продвинутых нейросетей: 70 лет истории развития машинного перевода за 15 минут.
Что такое кросс-языковая морфология и зачем она нужна
Машинный перевод и другая компьютерно-лингвистическая магия работают тогда, когда есть много данных для обучения нейросетей. Но что делать, если язык редкий и данных почти нет? Тут может помочь перенос на малоресурсный язык лингвистических моделей, построенных на данных большого родственного языка. Рассказываем про построение кросс-языковых NLP-моделей.
Зачем нужен Национальный корпус русского языка
Зачем нужен НКРЯ? В статье рассказано о самых разных исследованиях на основе корпуса: от сложностей перевода на другой язык культурных реалий на примере книг Набокова до возникновения фразы «ибо нефиг» и особенностей применения частного и местного падежей в современном языке.
От древнерусского до корпуса блогов: как изменился Национальный корпус русского языка после редизайна
В этом году Национальному корпусу исполнилось 20 лет. Все эти годы НКРЯ менялся не только внешне, но и внутренне: добавлялись новые функции и новые подкорпусы. Сейчас с помощью НКРЯ можно изучать детскую литературу, блоги, берестяные грамоты и многое другое, анализировать статистику употребления слов и коллокаций, строить графики и искать похожие слова.
Как лингвистика стала близкой подругой математики и информатики?
Лингвистика привлекла внимание математиков и инженеров после Второй мировой войны. Этому способствовали достижения структурной лингвистики начала XX века (Фердинанд де Соссюр и его последователи), но ещё больше — появление первых компьютеров и холодная война. Заинтересованные идеей научить компьютер переводить текст и понимать его, кибернетики начали создавать формальные модели языка для компьютеров. В их работах заложена база для стохастических методов, которые играют ведущую роль в современной прикладной обработке языка. Рассказываем, как в середине XX века соединились лингвистика, математика и информатика.
Достигла ли своих целей разработка искусственного интеллекта?
В 1972 году (как раз когда Ю. Д. Апресян во второй раз вплотную занялся машинным переводом) учёные составили список из двенадцати задач, которые нужно решить для создания искусственного интеллекта в ближайшие десятилетия. В список входили автоматический перевод, самоуправляемые автомобили и даже автономные роботы-планетоходы. Мы попробовали оценить, что сделано, а что ещё нет.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Машинный перевод: как это работает - Системный Блокъ
Нейросети отбирают хлеб у переводчиков!
GPT-4o научилась смеяться и петь, LSTM-нейросети наносят ответный удар, ChatGPT встроят в iPhone: дайджест ИИ-новостей
OpenAI выпустила новую версию GPT-4. Apple и OpenAI завершают сделку о сотрудничестве. Авторы архитектуры LSTM выпустили её обновление, которое не хуже Transformer. Google DeepMind анонсировала AlphaFold 3 – нейросеть, способную моделировать широкий спектр биомолекул. Рассказываем, что произошло в мире ИИ за прошедшие две недели.
GPT-4o – новая мультимодальная модель от OpenAI
Компания OpenAI анонсировала обновление GPT. Обновление назвали GPT-4o («o» от слова «Omni» — всё в одном). GPT-4o может принимать на вход и выдавать в качестве ответа текст, изображения и аудио – ранее для этого использовались разные модели. По основным тестам модель сопоставима с GPT-4 на английском языке и превосходит её на других языках (в том числе и на русском). Модель также лучше пишет код.
Одно из главных нововведений GPT-4o – способность выражать эмоции в разговоре через интонацию и смех. Модель может изображать удивление, любопытство, сарказм, петь и шептать.
Также сократилось время ожидания ответа в устном диалоге – теперь модель отвечает в среднем через 0.3 секунды после реплики пользователя. Примеры диалогов можно посмотреть на ютуб канале OpenAI.
GPT-4o уже доступна разработчикам через API, причем дешевле, чем GPT-4. Рядовые пользователи могут бесплатно использовать GPT-4o через сайт ChatGPT, однако аудио функции появятся позже и только у пользователей с подпиской.
Сотрудничество Apple и OpenAI
По данным Bloomberg, компания Apple и OpenAI (создательница ChatGPT) близки к завершению сделки, по условиям которой Apple сможет использовать наработки OpenAI в следующем обновлении iOS на iPhone. Предполагается, что Apple будет использовать ChatGPT и технологии для синтеза речи для улучшения своего голосового ассистента Siri. Презентация для разработчиков, на которой представят обновление iOS, состоится 10 июня.
Ранее в сети появлялись слухи, что Apple договаривается с Google об использовании их языковой модели Gemini, однако о статусе переговоров ничего неизвестно.
Обновление архитектуры LSTM
Опубликована статья xLSTM, в которой была представлена модификация нейросети LSTM (Long short-term memory). Эта архитектура показывала лучшие результаты в задаче языкового моделирования до выхода Transformer, на которой основаны все современные LLM.
Авторы статьи модернизировали LSTM, используя технические находки современных языковых моделей, обновили устройство ячейки памяти, а также увеличили количество параметров. Полученную архитектуру xLSTM сравнили с Llama (Transformer от Meta), Mamba, RWKV-4 (современные рекуррентные архитектуры) – практически во всех задачах xLSTM оказалась лидером.
xLSTM требует меньше вычислительных ресурсов во время работы и позволяет обрабатывать очень длинные тексты, но её обучение примерно в 4 раза медленнее Transformer. Однако авторы отмечают, что их реализация не оптимизирована, поэтому есть простор для улучшений.
AlphaFold 3 – нейросеть для моделирования биомолекул
Лаборатория Google DeepMind выпустила третье поколение нейросети AlphaFold. В отличие от AlphaFold 2, которая умеет моделировать структуру белков, новая версия способна моделировать РНК, ДНК и лиганды (тип химических соединений). Предсказания результатов взаимодействия разных соединений у AlphFold 3 на 50% точнее, чем предсказания существующих методов. Вместе с моделью выпустили Alpha Server – веб-сервис, который позволяет учёным использовать AlphaFold.
Первая версия AlphaFold произвела революцию в биологии, повысив качество предсказания структуры белка по последовательности аминокислот. Эта задача — одна из самых важных в биологии, так как структура белка задаёт его функцию.
🤖 «Системный Блокъ» @sysblok
OpenAI выпустила новую версию GPT-4. Apple и OpenAI завершают сделку о сотрудничестве. Авторы архитектуры LSTM выпустили её обновление, которое не хуже Transformer. Google DeepMind анонсировала AlphaFold 3 – нейросеть, способную моделировать широкий спектр биомолекул. Рассказываем, что произошло в мире ИИ за прошедшие две недели.
GPT-4o – новая мультимодальная модель от OpenAI
Компания OpenAI анонсировала обновление GPT. Обновление назвали GPT-4o («o» от слова «Omni» — всё в одном). GPT-4o может принимать на вход и выдавать в качестве ответа текст, изображения и аудио – ранее для этого использовались разные модели. По основным тестам модель сопоставима с GPT-4 на английском языке и превосходит её на других языках (в том числе и на русском). Модель также лучше пишет код.
Одно из главных нововведений GPT-4o – способность выражать эмоции в разговоре через интонацию и смех. Модель может изображать удивление, любопытство, сарказм, петь и шептать.
Также сократилось время ожидания ответа в устном диалоге – теперь модель отвечает в среднем через 0.3 секунды после реплики пользователя. Примеры диалогов можно посмотреть на ютуб канале OpenAI.
GPT-4o уже доступна разработчикам через API, причем дешевле, чем GPT-4. Рядовые пользователи могут бесплатно использовать GPT-4o через сайт ChatGPT, однако аудио функции появятся позже и только у пользователей с подпиской.
Сотрудничество Apple и OpenAI
По данным Bloomberg, компания Apple и OpenAI (создательница ChatGPT) близки к завершению сделки, по условиям которой Apple сможет использовать наработки OpenAI в следующем обновлении iOS на iPhone. Предполагается, что Apple будет использовать ChatGPT и технологии для синтеза речи для улучшения своего голосового ассистента Siri. Презентация для разработчиков, на которой представят обновление iOS, состоится 10 июня.
Ранее в сети появлялись слухи, что Apple договаривается с Google об использовании их языковой модели Gemini, однако о статусе переговоров ничего неизвестно.
Обновление архитектуры LSTM
Опубликована статья xLSTM, в которой была представлена модификация нейросети LSTM (Long short-term memory). Эта архитектура показывала лучшие результаты в задаче языкового моделирования до выхода Transformer, на которой основаны все современные LLM.
Авторы статьи модернизировали LSTM, используя технические находки современных языковых моделей, обновили устройство ячейки памяти, а также увеличили количество параметров. Полученную архитектуру xLSTM сравнили с Llama (Transformer от Meta), Mamba, RWKV-4 (современные рекуррентные архитектуры) – практически во всех задачах xLSTM оказалась лидером.
xLSTM требует меньше вычислительных ресурсов во время работы и позволяет обрабатывать очень длинные тексты, но её обучение примерно в 4 раза медленнее Transformer. Однако авторы отмечают, что их реализация не оптимизирована, поэтому есть простор для улучшений.
AlphaFold 3 – нейросеть для моделирования биомолекул
Лаборатория Google DeepMind выпустила третье поколение нейросети AlphaFold. В отличие от AlphaFold 2, которая умеет моделировать структуру белков, новая версия способна моделировать РНК, ДНК и лиганды (тип химических соединений). Предсказания результатов взаимодействия разных соединений у AlphFold 3 на 50% точнее, чем предсказания существующих методов. Вместе с моделью выпустили Alpha Server – веб-сервис, который позволяет учёным использовать AlphaFold.
Первая версия AlphaFold произвела революцию в биологии, повысив качество предсказания структуры белка по последовательности аминокислот. Эта задача — одна из самых важных в биологии, так как структура белка задаёт его функцию.
Please open Telegram to view this post
VIEW IN TELEGRAM
Дневники, письма, конспекты: что такое эго-документ?
Историю можно изучать и по письмам, дневникам и записным книжкам. «Системный Блокъ» рассказывает об эго-документах (частных источниках) и связанных с ними цифровых исследованиях.
Кратко: о чем статья?
Эго-документ (от лат. ego — «я») — это источник личного происхождения, который создан конкретным человеком и обращен к самому себе или узкому кругу читателей. К эго-текстам относят, например, дневники, мемуары, открытки, даже конспекты.
Хотя содержание эго-документов часто не соответствует реальности (они субъективны, могут содержать ошибки), такие источники — все равно ценный материал. Например, эго-тексты отражают отношение простых людей к происходившему; в них раньше, чем в литературе, может быть зафиксировано жаргонное слово. Поэтому эго-документы изучают не только историки, но и культурологи, филологи.
К наборам текстов одного жанра можно применить количественные методы «дальнего чтения», которое подразумевает выделение общих закономерностей для сотен и тысяч текстов. Так, на основе цифрового архива эго-документов «Прожито» был разработан датасет «Размечено», создатели которого выделили внутри дневниковых записей именованные сущности (имена людей, названия организаций, топонимы и т.п.).
Кроме того, к текстам можно применять методы тематического моделирования. Например, исследование дневников 1917 года, выполненное «Системным Блоком», показало, что записи на тему революции включали рассуждения о хлебе, рубле, Распутине и поездах.
Более подробно о ценности эго-текстов и цифровых исследованиях о них, читайте в полной версии статьи.
Время чтения: 5 минут.
🤖 «Системный Блокъ» @sysblok
Историю можно изучать и по письмам, дневникам и записным книжкам. «Системный Блокъ» рассказывает об эго-документах (частных источниках) и связанных с ними цифровых исследованиях.
Кратко: о чем статья?
Эго-документ (от лат. ego — «я») — это источник личного происхождения, который создан конкретным человеком и обращен к самому себе или узкому кругу читателей. К эго-текстам относят, например, дневники, мемуары, открытки, даже конспекты.
Хотя содержание эго-документов часто не соответствует реальности (они субъективны, могут содержать ошибки), такие источники — все равно ценный материал. Например, эго-тексты отражают отношение простых людей к происходившему; в них раньше, чем в литературе, может быть зафиксировано жаргонное слово. Поэтому эго-документы изучают не только историки, но и культурологи, филологи.
К наборам текстов одного жанра можно применить количественные методы «дальнего чтения», которое подразумевает выделение общих закономерностей для сотен и тысяч текстов. Так, на основе цифрового архива эго-документов «Прожито» был разработан датасет «Размечено», создатели которого выделили внутри дневниковых записей именованные сущности (имена людей, названия организаций, топонимы и т.п.).
Кроме того, к текстам можно применять методы тематического моделирования. Например, исследование дневников 1917 года, выполненное «Системным Блоком», показало, что записи на тему революции включали рассуждения о хлебе, рубле, Распутине и поездах.
Более подробно о ценности эго-текстов и цифровых исследованиях о них, читайте в полной версии статьи.
Время чтения: 5 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Что такое эго-документы и зачем их исследовать?
Историю можно изучать не только по летописям или книгам, но и по частным источникам, или эго-документам: письмам, дневникам, записным книжкам. Рассказываем об эго-документах и связанных с ними цифровых исследованиях.
«Меня интересует знать, а не уметь»: Игорь Мельчук о нетрадиционной лингвистике, машинном переводе и влиянии репрессий на науку
«Системный Блокъ» поговорил с легендой российской лингвистики и заслуженным профессором Монреальского университета Игорем Мельчуком о машинном переводе в СССР, нейропсихологии и главной научной задаче лингвистики. А еще — об эмиграции, жизни в Канаде и роли, которую сыграли репрессии в отечественной науке.
Кратко: о чем интервью?
То, чем занимается Игорь Мельчук, он сам называет нетрадиционной лингвистикой, «просто лингвистикой», чья задача — описать язык. С этим тесно связана главная цель ученого: создание такой понятийной системы, которая была бы близка к понятийной системе математики. Создание универсального научного языка лингвистики. Важнейшее достижение Мельчука — лингвистическая модель «Смысл ↔ Текст», которая, по его словам, даёт лингвистике всё, поскольку прежде всего язык – это способ выражения мысли.
Свой путь Игорь Мельчук начал на факультете филологии в МГУ, сейчас он — заслуженный профессор Монреальского университета на пенсии. А между этими фактами — жизнь, полная научных поисков, открытий, смен траектории, мест работы и мест жительства. Так, в начале 1950-х Мельчук был вовлеченн в создание первых алгоритмов машинного перевода в СССР, для того времени — чего-то фантастического и абсурдного.
Кроме нетрадиционной лингвистики, Мельчук пробовал заниматься и (теперь уже вполне традиционной) нейролингвистикой. Он считает, что нейронаучные проникновения в реальный мозг помогут создать настоящую модель языка. Если бы он не уехал из России, то, может быть, занимался бы этой областью дальше. С 1976 года Мельчук живет в Канаде, и хотя он не обрел там второй родины, считает свою эмиграцию спасением жизни и свободы.
Более подробно о создании первой в СССР системе машинного перевода, о том, как влияли сталинские репрессии на лингвистику, и что такое марризм, узнаете из полной версии интервью.
🤖 «Системный Блокъ» @sysblok
«Системный Блокъ» поговорил с легендой российской лингвистики и заслуженным профессором Монреальского университета Игорем Мельчуком о машинном переводе в СССР, нейропсихологии и главной научной задаче лингвистики. А еще — об эмиграции, жизни в Канаде и роли, которую сыграли репрессии в отечественной науке.
Кратко: о чем интервью?
То, чем занимается Игорь Мельчук, он сам называет нетрадиционной лингвистикой, «просто лингвистикой», чья задача — описать язык. С этим тесно связана главная цель ученого: создание такой понятийной системы, которая была бы близка к понятийной системе математики. Создание универсального научного языка лингвистики. Важнейшее достижение Мельчука — лингвистическая модель «Смысл ↔ Текст», которая, по его словам, даёт лингвистике всё, поскольку прежде всего язык – это способ выражения мысли.
Свой путь Игорь Мельчук начал на факультете филологии в МГУ, сейчас он — заслуженный профессор Монреальского университета на пенсии. А между этими фактами — жизнь, полная научных поисков, открытий, смен траектории, мест работы и мест жительства. Так, в начале 1950-х Мельчук был вовлеченн в создание первых алгоритмов машинного перевода в СССР, для того времени — чего-то фантастического и абсурдного.
Кроме нетрадиционной лингвистики, Мельчук пробовал заниматься и (теперь уже вполне традиционной) нейролингвистикой. Он считает, что нейронаучные проникновения в реальный мозг помогут создать настоящую модель языка. Если бы он не уехал из России, то, может быть, занимался бы этой областью дальше. С 1976 года Мельчук живет в Канаде, и хотя он не обрел там второй родины, считает свою эмиграцию спасением жизни и свободы.
Более подробно о создании первой в СССР системе машинного перевода, о том, как влияли сталинские репрессии на лингвистику, и что такое марризм, узнаете из полной версии интервью.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Игорь Мельчук о нетрадиционной лингвистике и машинном переводе — «Системный Блокъ»
Игорь Мельчук рассказал «Системному Блоку» о машинном переводе, особенностях современной лингвистики и главной задаче жизни.
Тест: с какими героями «Войны и мира» вы говорите на одном языке?
Наташа или Андрей Болконский? Пройдите тест и узнайте, с кем из героев «Войны и мира» вы могли бы делиться последними новостями или обсуждать знакомых.
Персонажи романа Л. Н. Толстого «Война и мир» обладают разными «голосами». Цифровые методы анализа стиля текста позволяют сравнить между собой речевые портреты героев и узнать, какие из них говорят похоже друг на друга. Попробуйте и вы найти себе собеседника среди персонажей Л. Н. Толстого.
😎 «Системный Блокъ» @sysblok
Наташа или Андрей Болконский? Пройдите тест и узнайте, с кем из героев «Войны и мира» вы могли бы делиться последними новостями или обсуждать знакомых.
Персонажи романа Л. Н. Толстого «Война и мир» обладают разными «голосами». Цифровые методы анализа стиля текста позволяют сравнить между собой речевые портреты героев и узнать, какие из них говорят похоже друг на друга. Попробуйте и вы найти себе собеседника среди персонажей Л. Н. Толстого.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
С какими героями романа «Война и мир» вы говорите на одном языке?
Стилометрия и сетевой анализ позволяют провести анализ речи персонажей. Пройдите наш тест и узнайте, кто из героев «Войны и мира» Толстого стал бы вашим собеседником.
Machine Learning на службе биоразнообразия
Машинное обучение сегодня применяется для моделирования и предсказания в биологии. «Системный Блокъ» рассказывает, как технологии помогают оценивать ареалы живых существ и прогнозировать изменения окружающей среды.
Кратко: о чем статья?
Сегодня биология генерирует огромное количество big data, поэтому современный биолог, эколог или биогеограф должен быть ещё и дата-сайентистом: владеть анализом данных, использовать машинное обучение и знать основы статистики, чтобы отделять значимое от незначимого.
Пример использования Machine Learning в биологии — моделирование пространственного распространения видов, или SDM (species distribution models). SDM основано на понятии экологической ниши — области важных экологических факторов, которая соответствует пригодным для вида местообитаниям.
Для моделирования ареала вида потребуются два набора данных: локалитеты (места фактического нахождения вида, где его ранее удалось заметить) и предикторы (переменные, описывающие условия окружающей среды, например, климат, рельеф, антропогенные факторы). Обучение модели включает стандартные шаги ML, а результат SDM — карта, которая показывает пригодность местообитания для вида по шкале от 0 до 1.
У подхода SDM есть и уязвимая сторона: он не использует ансамблевые предсказания. В ансамблевых методах разные модели работают сообща, чтобы минимизировать погрешности друг друга, что повышает точность. В SDM этот подход не внедрен.
Более подробно о процессе обучения SDM, а также зачем еще ее можно использовать, читайте в полной версии статьи.
Время чтения: 10 минут.
🤖 «Системный Блокъ» @sysblok
Машинное обучение сегодня применяется для моделирования и предсказания в биологии. «Системный Блокъ» рассказывает, как технологии помогают оценивать ареалы живых существ и прогнозировать изменения окружающей среды.
Кратко: о чем статья?
Сегодня биология генерирует огромное количество big data, поэтому современный биолог, эколог или биогеограф должен быть ещё и дата-сайентистом: владеть анализом данных, использовать машинное обучение и знать основы статистики, чтобы отделять значимое от незначимого.
Пример использования Machine Learning в биологии — моделирование пространственного распространения видов, или SDM (species distribution models). SDM основано на понятии экологической ниши — области важных экологических факторов, которая соответствует пригодным для вида местообитаниям.
Для моделирования ареала вида потребуются два набора данных: локалитеты (места фактического нахождения вида, где его ранее удалось заметить) и предикторы (переменные, описывающие условия окружающей среды, например, климат, рельеф, антропогенные факторы). Обучение модели включает стандартные шаги ML, а результат SDM — карта, которая показывает пригодность местообитания для вида по шкале от 0 до 1.
У подхода SDM есть и уязвимая сторона: он не использует ансамблевые предсказания. В ансамблевых методах разные модели работают сообща, чтобы минимизировать погрешности друг друга, что повышает точность. В SDM этот подход не внедрен.
Более подробно о процессе обучения SDM, а также зачем еще ее можно использовать, читайте в полной версии статьи.
Время чтения: 10 минут.
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Species Distribution Models (SDM): моделирование пространственного распространения видов
Расскажем, как применяется машинное обучение в биологии и экологии с помощью моделирования пространственного распространения видов (species distribution models, SDM).
Инфографика для анализа текстов: Voyant Tools
На сайте “Системного Блока” вышел гайд в двух частях (I, II) о том, как пользоваться онлайн-анализатором текстов Voyant Tools. Рассказываем об основных функциях инструмента и о том, зачем они нужны.
Во-первых, Voyant Tools умеет подсчитывать частотности слов в корпусе текстов. Причем предлоги, артикли и прочие “вспомогательные” единицы, которых в текстах обычно особенно много, программа позволяет исключить, загрузив список стоп-слов. Тогда останутся только значимые слова. Их можно изучать дальше — например, построить график их встречаемости и узнать, менялась ли частота употребления ключевых слов на протяжении произведения или целого периода творчества писателя.
Еще один полезный инструмент в составе Voyant Tools — поиск коллокаций (это слова, которые чаще всего встречаются рядом с заданным). По контексту, в котором употребляются ключевые слова, можно сделать более глубокие выводы о темах произведения. По корпусу Достоевского, например, можно определить, что в его прозе Россия обычно рассматривается вне контекста внешней политики, в отличие от его публицистики.
Главная черта Voyant Tools — очень много возможностей визуализации полученных данных. Доступны не только разные виды графиков — но и облако частотных слов, мандала и даже карта перемещений персонажей (она, впрочем, без дополнительных настроек работает неточно).
Более подробно о том, как работать с программой, читайте в первой и второй частях гайда. А пока предлагаем квиз: как думаете, кто встречается в художественных произведениях Достоевского чаще всего — старик, ребенок или женщина? Все эти слова входят в список ключевых для творчества писателя, но некоторые до недавних пор не отмечались исследователями. Голосуйте в опросе, вечером опубликуем ответ!
🤖 «Системный Блокъ» @sysblok
На сайте “Системного Блока” вышел гайд в двух частях (I, II) о том, как пользоваться онлайн-анализатором текстов Voyant Tools. Рассказываем об основных функциях инструмента и о том, зачем они нужны.
Во-первых, Voyant Tools умеет подсчитывать частотности слов в корпусе текстов. Причем предлоги, артикли и прочие “вспомогательные” единицы, которых в текстах обычно особенно много, программа позволяет исключить, загрузив список стоп-слов. Тогда останутся только значимые слова. Их можно изучать дальше — например, построить график их встречаемости и узнать, менялась ли частота употребления ключевых слов на протяжении произведения или целого периода творчества писателя.
Еще один полезный инструмент в составе Voyant Tools — поиск коллокаций (это слова, которые чаще всего встречаются рядом с заданным). По контексту, в котором употребляются ключевые слова, можно сделать более глубокие выводы о темах произведения. По корпусу Достоевского, например, можно определить, что в его прозе Россия обычно рассматривается вне контекста внешней политики, в отличие от его публицистики.
Главная черта Voyant Tools — очень много возможностей визуализации полученных данных. Доступны не только разные виды графиков — но и облако частотных слов, мандала и даже карта перемещений персонажей (она, впрочем, без дополнительных настроек работает неточно).
Более подробно о том, как работать с программой, читайте в первой и второй частях гайда. А пока предлагаем квиз: как думаете, кто встречается в художественных произведениях Достоевского чаще всего — старик, ребенок или женщина? Все эти слова входят в список ключевых для творчества писателя, но некоторые до недавних пор не отмечались исследователями. Голосуйте в опросе, вечером опубликуем ответ!
Please open Telegram to view this post
VIEW IN TELEGRAM
Системный Блокъ
Voyant Tools с Достоевским: некраткое руководство (часть I)
Расскажем в гайде, как пользоваться основными функциями Voyant Tolls — веб-приложения для анализа текстов. Покажем, как оно работает, на материале текстов Достоевского.
В художественных произведениях Достоевского чаще упоминается:
Anonymous Quiz
29%
старик
29%
ребенок
42%
женщина
Правильный ответ на опрос про Достоевского — чаще других в его художественных текстах упоминается ребенок! Слово встречается 1033 раза, тогда как старик — 886 раз, а женщина — всего 811.
При этом слово женщина исследователи обозначили как один из ключевых концептов для творчества писателя — а вот слова старик и ребенок в число концептов включены не были, хотя и встречаются чаще.
🤖 «Системный Блокъ» @sysblok
При этом слово женщина исследователи обозначили как один из ключевых концептов для творчества писателя — а вот слова старик и ребенок в число концептов включены не были, хотя и встречаются чаще.
Please open Telegram to view this post
VIEW IN TELEGRAM