Утечка в IT: как эмигранты создали бренд русского программиста
«Если проблема нерешаема, мы предлагаем её русским», — заявил в 2007 году президент Intel Russia Стив Чейз. Эти слова говорили о большой популярности русских программистов на глобальном рынке IT. Предпосылки к высокой востребованности IT-специалистов из России были заложены в конце XX века, когда зарубежные компании познакомились с технарями, покинувшими Советский Союз и Россию. Разбираемся, как русский программист стал мировым брендом.
Кратко: о чем статья?
Многие программисты, эмигрировавшие за границу или развивавшие IT в постсоветской России, начинали свой путь в советских физико-математических школах. При этом возможности попрактиковаться именно в программировании в Советском Союзе были ограничены, а информатика как полноценный учебный предмет появилась в советских школах только после 1985 года, когда был взят курс на компьютеризацию образования.
После школы путь к программированию лежал через технические специальности высшего образования. И хотя студенты-физики и инженеры редко имели опыт написания программ, когда они покидали страну, сфера IT оказывалась для них наиболее удобной. Туда можно было попасть благодаря относительно простому (при наличии математической и инженерной базы) обучению и связям с другими русскими эмигрантами, уже занимающимися программированием. Диаспоры, сложившиеся в результате тесных коммуникаций внутри эмигрантской среды и за её пределами, стали решающим фактором для превращения русских программистов в узнаваемое сообщество. А затем транснациональные связи укрепили бренд русского программиста и вывели его с уровня диаспор на глобальный рынок.
Подробнее о том, когда и почему специалисты покидали СССР, как России удалось остановить наибольшую волну эмиграции 1990–2000-х годов и как работает концепция «утечки мозгов» читайте в полной версии статьи.
Время чтения: 13 минут.
«Если проблема нерешаема, мы предлагаем её русским», — заявил в 2007 году президент Intel Russia Стив Чейз. Эти слова говорили о большой популярности русских программистов на глобальном рынке IT. Предпосылки к высокой востребованности IT-специалистов из России были заложены в конце XX века, когда зарубежные компании познакомились с технарями, покинувшими Советский Союз и Россию. Разбираемся, как русский программист стал мировым брендом.
Кратко: о чем статья?
Многие программисты, эмигрировавшие за границу или развивавшие IT в постсоветской России, начинали свой путь в советских физико-математических школах. При этом возможности попрактиковаться именно в программировании в Советском Союзе были ограничены, а информатика как полноценный учебный предмет появилась в советских школах только после 1985 года, когда был взят курс на компьютеризацию образования.
После школы путь к программированию лежал через технические специальности высшего образования. И хотя студенты-физики и инженеры редко имели опыт написания программ, когда они покидали страну, сфера IT оказывалась для них наиболее удобной. Туда можно было попасть благодаря относительно простому (при наличии математической и инженерной базы) обучению и связям с другими русскими эмигрантами, уже занимающимися программированием. Диаспоры, сложившиеся в результате тесных коммуникаций внутри эмигрантской среды и за её пределами, стали решающим фактором для превращения русских программистов в узнаваемое сообщество. А затем транснациональные связи укрепили бренд русского программиста и вывели его с уровня диаспор на глобальный рынок.
Подробнее о том, когда и почему специалисты покидали СССР, как России удалось остановить наибольшую волну эмиграции 1990–2000-х годов и как работает концепция «утечки мозгов» читайте в полной версии статьи.
Время чтения: 13 минут.
Системный Блокъ
Утечка мозгов: как эмигранты создали бренд русского программиста
Как русские программисты пришли в IT-индустрию и стали узнаваемым по всему миру сообществом? Все началось с конца XX века, когда зарубежные компании впервые познакомились с айтишниками-эмигрантами из СССР и России.
Что общего у литературы и биологии, или как развивались Digital Humanities в России
Точные методы в гуманитарных науках появились задолго до компьютеров — и в России их история превышает уже полтора века. Вспоминаем, как филологи, историки, лингвисты, математики и другие исследователи развивали количественные подходы к анализу литературы, языка и других гуманитарных объектов — и создавали базу для становления на российский почве.
Кратко: о чем статья?
История количественного литературоведения в нашей стране началась более ста лет назад — с работ поэта Андрея Белого. В 1910-х годах он разработал свою методику исследования метра и ритма, а затем изучение поэзии квантитативными методами продолжил Московский лингвистический кружок (МЛК). Именно из МЛК выросли лингвистические кружки в Праге, Копенгагене, Нью-Йорке и впоследствии — Международная лингвистическая ассоциация.
Одной из важных фигур в МЛК был Борис Ярхо. В своей «Методологии точного литературоведения» (1936) он объяснял литературу в биологических понятиях эволюции и рассматривал подобно живому организму. В 50-е и 60-е годы на смену биологической перспективе пришла математическая. Благодаря ней появились планы по разработке Машинного фонда русского языка и идея создания корпуса, подобного сегодняшнему Национальному корпусу русского языка.
Подробнее о главных этапах и лицах в истории Digital Humanities (DH) в России, а также о сходствах и различиях российского и мирового опыта DH — читайте в полной версии статьи.
Время чтения: 10,5 минут.
Точные методы в гуманитарных науках появились задолго до компьютеров — и в России их история превышает уже полтора века. Вспоминаем, как филологи, историки, лингвисты, математики и другие исследователи развивали количественные подходы к анализу литературы, языка и других гуманитарных объектов — и создавали базу для становления на российский почве.
Кратко: о чем статья?
История количественного литературоведения в нашей стране началась более ста лет назад — с работ поэта Андрея Белого. В 1910-х годах он разработал свою методику исследования метра и ритма, а затем изучение поэзии квантитативными методами продолжил Московский лингвистический кружок (МЛК). Именно из МЛК выросли лингвистические кружки в Праге, Копенгагене, Нью-Йорке и впоследствии — Международная лингвистическая ассоциация.
Одной из важных фигур в МЛК был Борис Ярхо. В своей «Методологии точного литературоведения» (1936) он объяснял литературу в биологических понятиях эволюции и рассматривал подобно живому организму. В 50-е и 60-е годы на смену биологической перспективе пришла математическая. Благодаря ней появились планы по разработке Машинного фонда русского языка и идея создания корпуса, подобного сегодняшнему Национальному корпусу русского языка.
Подробнее о главных этапах и лицах в истории Digital Humanities (DH) в России, а также о сходствах и различиях российского и мирового опыта DH — читайте в полной версии статьи.
Время чтения: 10,5 минут.
Системный Блокъ
История Digital Humanities в России: от Андрея Белого до НКРЯ и цифровых Толстого и Чехова
Расскажем историю развития цифровой гуманитаристики в России на материале статьи Инны Кижнер, Бориса Орехова, Льва Мановича и др. Какую роль в российских DH сыграли Андрей Белый и Алексей Ляпунов? И как с литературой связаны математика и биология?
Учителя-мужчины в школе: сколько их и что они преподают
5 октября в России и в мире отмечается День учителя. К празднику «Системный Блокъ» решил проверить, правда ли, что в школе работают в основном женщины, сколько всё-таки учителей-мужчин и какие предметы они ведут. Ответы на эти вопросы мы искали в открытых данных Минпросвещения.
Кратко: о чём статья?
Согласно открытой статистике Минпросвещения в последние шесть лет в среднем 83% всех работников школы — это женщины. Единственная мужская специальность в современной общей школе — это мастера производственного обучения: 68% преподавателей-мужчин. Правда, это исчезающая профессия: на начало прошлого учебного года всех мастеров обоих полов было меньше тысячи человек.
Правда, в ряде регионов распределение сильно отличается, особенно там, где доля мужчин значительно выше среднего. В трёх регионах — Дагестане, Якутии и Чечне — мужчин в профессии аномально много: они составляют почти пятую часть всех учителей, а в средних и старших классах учителей-мужчин 24–26%. В частных школах ситуация тоже несколько отличается, возможно, потому что в них меньше бюрократической волокиты и выше зарплаты. Впрочем, учителя в них составляют всего 2% от общего числа учителей в России.
О самом «мужском» и самых «женских» предметах, а также о гендерном дисбалансе в школах других стран узнаете из полного текста материала.
Время чтения: 7 минут.
5 октября в России и в мире отмечается День учителя. К празднику «Системный Блокъ» решил проверить, правда ли, что в школе работают в основном женщины, сколько всё-таки учителей-мужчин и какие предметы они ведут. Ответы на эти вопросы мы искали в открытых данных Минпросвещения.
Кратко: о чём статья?
Согласно открытой статистике Минпросвещения в последние шесть лет в среднем 83% всех работников школы — это женщины. Единственная мужская специальность в современной общей школе — это мастера производственного обучения: 68% преподавателей-мужчин. Правда, это исчезающая профессия: на начало прошлого учебного года всех мастеров обоих полов было меньше тысячи человек.
Правда, в ряде регионов распределение сильно отличается, особенно там, где доля мужчин значительно выше среднего. В трёх регионах — Дагестане, Якутии и Чечне — мужчин в профессии аномально много: они составляют почти пятую часть всех учителей, а в средних и старших классах учителей-мужчин 24–26%. В частных школах ситуация тоже несколько отличается, возможно, потому что в них меньше бюрократической волокиты и выше зарплаты. Впрочем, учителя в них составляют всего 2% от общего числа учителей в России.
О самом «мужском» и самых «женских» предметах, а также о гендерном дисбалансе в школах других стран узнаете из полного текста материала.
Время чтения: 7 минут.
Научим любить Родину… и мать твою: о чем говорят в «Разговорах о важном»
С сентября 2022 года в российских школах идут «Разговоры о важном». Это внеклассные уроки, направленные, по словам авторов идеи, на «укрепление традиционных российских духовно-нравственных ценностей» и «воспитание патриотизма» среди российских школьников. Ко дню учителя «Системный Блокъ» изучил содержание этих уроков, применив метод тематического моделирования.
Кратко: о чем статья?
На главном сайте «Разговоров о важном» в течение года выкладывались видео- и аудиоматериалы, сценарии уроков и методические рекомендации. Сейчас там размещены материалы 2023 года: инициатива продолжается в школах и в этом учебном году.
Мы скачали 175 методических рекомендаций: по 5 файлов к каждому уроку, – собрали информацию из пункта «Формирующие(ся) ценности» и посчитали количество упоминаний одних и тех же ценностей. Главными ценностями, согласно замыслу авторов, оказались «патриотизм» и «любовь к родине». Также в тройку лидеров с большим отрывом от остального списка входят «самореализация/развитие/самоопределение» и «историческая память/преемственность поколений» — не менее 80 уроков для разных возрастов затрагивали каждую тему. Для сравнения, «милосердие» упоминается в рекомендациях к 9 урокам, «гуманизм» — к 4.
О том, какие темы обсуждаются и какие слова встречаются в «Разговорах о важном» чаще всего, а также о том, как выяснить это с помощью тематического моделирования, читайте в полной версии статьи.
Время чтения: 8,5 минут.
С сентября 2022 года в российских школах идут «Разговоры о важном». Это внеклассные уроки, направленные, по словам авторов идеи, на «укрепление традиционных российских духовно-нравственных ценностей» и «воспитание патриотизма» среди российских школьников. Ко дню учителя «Системный Блокъ» изучил содержание этих уроков, применив метод тематического моделирования.
Кратко: о чем статья?
На главном сайте «Разговоров о важном» в течение года выкладывались видео- и аудиоматериалы, сценарии уроков и методические рекомендации. Сейчас там размещены материалы 2023 года: инициатива продолжается в школах и в этом учебном году.
Мы скачали 175 методических рекомендаций: по 5 файлов к каждому уроку, – собрали информацию из пункта «Формирующие(ся) ценности» и посчитали количество упоминаний одних и тех же ценностей. Главными ценностями, согласно замыслу авторов, оказались «патриотизм» и «любовь к родине». Также в тройку лидеров с большим отрывом от остального списка входят «самореализация/развитие/самоопределение» и «историческая память/преемственность поколений» — не менее 80 уроков для разных возрастов затрагивали каждую тему. Для сравнения, «милосердие» упоминается в рекомендациях к 9 урокам, «гуманизм» — к 4.
О том, какие темы обсуждаются и какие слова встречаются в «Разговорах о важном» чаще всего, а также о том, как выяснить это с помощью тематического моделирования, читайте в полной версии статьи.
Время чтения: 8,5 минут.
Системный Блокъ
Мы тебя научим Родину любить: о чём говорят на «Разговорах о важном»
С 2022 года в российских школах идут «Разговоры о важном». Из чего состоит учебная программа этой дисциплины? Какие ценности она формирует?
Что читают в 2023? Тест на знание книжного рынка в России
После 24 февраля 2022 года необратимые изменения произошли практически во всех сферах жизни. Издательское дело не стало исключением. Как издательства разбирались с запретом на пропаганду ЛГБТ? Какой процент в ассортименте книжных магазинов составляет доля… книг? Кто отобрал у Стивена Кинга первенство в российском книжном рейтинге?
Наш тест поможет понять, насколько хорошо вы разбираетесь в сегодняшних реалиях книготорговли.
После 24 февраля 2022 года необратимые изменения произошли практически во всех сферах жизни. Издательское дело не стало исключением. Как издательства разбирались с запретом на пропаганду ЛГБТ? Какой процент в ассортименте книжных магазинов составляет доля… книг? Кто отобрал у Стивена Кинга первенство в российском книжном рейтинге?
Наш тест поможет понять, насколько хорошо вы разбираетесь в сегодняшних реалиях книготорговли.
Системный Блокъ
Что читают в 2023? Тест на знание книжного рынка в России
Что сегодня происходит на российском книжном рынке? Кто стал самым читаемым автором 2023 года, обогнав самого Стивена Кинга? Узнаем в нашем новом тесте.
Женщины в IT: существует ли гендерное неравенство?
Нобелевская премия 2023 присуждена за исследование роли женщин в экономике и причин дискриминации женщин в оплате труда. Проблема гендерного неравенства очень заметна и в сфере IT. «Системный Блокъ» изучил, какова доля женщин в IT, сколько девушек готовы обучаться компьютерным наукам и какие стереотипы ограничивают их на рынке труда.
Кратко: о чем статья?
Доля женщин в сфере информационных технологий с каждым годом растёт: в мире доля IT-специалисток за последние четыре года увеличилась до 25%. Тем не менее разрыв в численности и в зарплате сохраняется. Например, во время получения высшего образования мужчины в пять раз чаще намереваются работать в области инженерии и компьютерных наук, в системе высшего образования США женщины составляют лишь 38% бакалавров в традиционных областях STEM (естественные науки, технология, инженерия и математика), а в России разница в заработной плате между специалистами разного пола, имеющими одинаковую квалификацию, составляет 28%.
У такой ситуации несколько причин, но если кратко — все дело в стереотипах. Так, существует популярное мнение о том, что математика не для девочек. Несмотря на то что женщины, имеющие детей, демонстрируют более эффективную работу в коллективе, руководители часто отдают предпочтение трудоустройству мужчин, опасаясь, что женщины внезапно могут уйти в декрет. Кроме того, есть стереотип о том, что «женский склад ума» не подходит для IT-сферы.
Подробнее о том, как проявляется гендерное неравенство в области компьютерных наук в России и за рубежом, а также каковы его причины, читайте в полной версии статьи.
Время чтения: 8 минут.
Нобелевская премия 2023 присуждена за исследование роли женщин в экономике и причин дискриминации женщин в оплате труда. Проблема гендерного неравенства очень заметна и в сфере IT. «Системный Блокъ» изучил, какова доля женщин в IT, сколько девушек готовы обучаться компьютерным наукам и какие стереотипы ограничивают их на рынке труда.
Кратко: о чем статья?
Доля женщин в сфере информационных технологий с каждым годом растёт: в мире доля IT-специалисток за последние четыре года увеличилась до 25%. Тем не менее разрыв в численности и в зарплате сохраняется. Например, во время получения высшего образования мужчины в пять раз чаще намереваются работать в области инженерии и компьютерных наук, в системе высшего образования США женщины составляют лишь 38% бакалавров в традиционных областях STEM (естественные науки, технология, инженерия и математика), а в России разница в заработной плате между специалистами разного пола, имеющими одинаковую квалификацию, составляет 28%.
У такой ситуации несколько причин, но если кратко — все дело в стереотипах. Так, существует популярное мнение о том, что математика не для девочек. Несмотря на то что женщины, имеющие детей, демонстрируют более эффективную работу в коллективе, руководители часто отдают предпочтение трудоустройству мужчин, опасаясь, что женщины внезапно могут уйти в декрет. Кроме того, есть стереотип о том, что «женский склад ума» не подходит для IT-сферы.
Подробнее о том, как проявляется гендерное неравенство в области компьютерных наук в России и за рубежом, а также каковы его причины, читайте в полной версии статьи.
Время чтения: 8 минут.
Системный Блокъ
Женщины в IT: существует ли гендерное неравенство?
«Системный Блокъ» изучил, насколько сильно гендерное неравенство в IT-сфере, и обнаружил, что, несмотря на положительные изменения, в этой области по-прежнему сильны стереотипы по отношению к женщинам.
Правда глаза колет: 150 лет истории айтрекеров
Айтрекинг, или регистрация движений глаз, используется в психолингвистике и психологии, исследованиях зрительной системы и в устройствах взаимодействия между человеком и компьютером. «Системный Блокъ» уже писал про айтрекинг и паттерны чтения.
А в этом материале рассмотрим историю айтрекеров. Готовы ли вы поместить на своё веко тупую иглу, передающую движения глаз в виде звука? А надеть гипсовую контактную линзу, соединённую с рычагом, записывающим движения глаза на барабан? А прикрепить к глазу радиоантенну на резиновой присоске? Всё это приходилось делать участникам айтрекинговых экспериментов до изобретения бесконтактных технологий.
Кратко: о чем статья?
Интерес к изучению движений глаз возник за много веков до появления первых айтрекеров. Особенности зрения интересовали Аристотеля, древнеримского медика и хирурга Клавдия Галена и средневекового ученого Ибн аль-Хайсама.
История айтрекеров же полноценно началась в 1883 году, когда М. Ламар вместе с Л. Жавалем использовали для наблюдений прибор, трансформировавший движения глаз испытуемого в звук, улавливаемый экспериментатором. Но у технологий конца XIX века были очевидные недостатки, поэтому постепенно разрабатывались устройства, не требующие непосредственного крепления глаза к регистрирующей поверхности.
В последние годы технологии позволяют создавать айтрекеры, не требующие фиксации головы. Они представляют собой очки или шлем с двумя вмонтированными видеокамерами: одна из камер записывает изображение, которое видит испытуемый, а вторая фиксирует изображение глаза с помощью отражённого света. Испытуемого в таких очках можно отправить в магазин, в музей или за руль автомобиля.
Подробнее о важных именах и вехах в истории айтрекинга, а также о том, какие ограничения связаны с такими исследованиями в психолингвистике, читайте в полном материале.
Время чтения: 14 минут.
Айтрекинг, или регистрация движений глаз, используется в психолингвистике и психологии, исследованиях зрительной системы и в устройствах взаимодействия между человеком и компьютером. «Системный Блокъ» уже писал про айтрекинг и паттерны чтения.
А в этом материале рассмотрим историю айтрекеров. Готовы ли вы поместить на своё веко тупую иглу, передающую движения глаз в виде звука? А надеть гипсовую контактную линзу, соединённую с рычагом, записывающим движения глаза на барабан? А прикрепить к глазу радиоантенну на резиновой присоске? Всё это приходилось делать участникам айтрекинговых экспериментов до изобретения бесконтактных технологий.
Кратко: о чем статья?
Интерес к изучению движений глаз возник за много веков до появления первых айтрекеров. Особенности зрения интересовали Аристотеля, древнеримского медика и хирурга Клавдия Галена и средневекового ученого Ибн аль-Хайсама.
История айтрекеров же полноценно началась в 1883 году, когда М. Ламар вместе с Л. Жавалем использовали для наблюдений прибор, трансформировавший движения глаз испытуемого в звук, улавливаемый экспериментатором. Но у технологий конца XIX века были очевидные недостатки, поэтому постепенно разрабатывались устройства, не требующие непосредственного крепления глаза к регистрирующей поверхности.
В последние годы технологии позволяют создавать айтрекеры, не требующие фиксации головы. Они представляют собой очки или шлем с двумя вмонтированными видеокамерами: одна из камер записывает изображение, которое видит испытуемый, а вторая фиксирует изображение глаза с помощью отражённого света. Испытуемого в таких очках можно отправить в магазин, в музей или за руль автомобиля.
Подробнее о важных именах и вехах в истории айтрекинга, а также о том, какие ограничения связаны с такими исследованиями в психолингвистике, читайте в полном материале.
Время чтения: 14 минут.
Системный Блокъ
История айтрекинга: как изучалось движение глаз (eye tracking) и как устроены айтрекеры
История айтрекинга началась с тупой иглы на веке и радиоантенны на глазной присоске, а сегодня айтрекинг — это бесконтактные видеорегистрирующие технологии и мобильные айтрекеры. Рассказываем, как изучали движения глаз (eye tracking) и саккады последние 150…
Вы Лев Толстой на словах или на деле? Викторина по редким словам из корпуса текстов писателя
Кого Лев Толстой называл голышом, и где в усадьбе тырла? Кем лучше быть ― келарем или щелкопёром? Писатель был знатоком редких и диковинных слов. Пройдите наш тест и попробуйте отгадать их значения. Сможете ли вы сравниться с графом Толстым в эрудиции?
Кого Лев Толстой называл голышом, и где в усадьбе тырла? Кем лучше быть ― келарем или щелкопёром? Писатель был знатоком редких и диковинных слов. Пройдите наш тест и попробуйте отгадать их значения. Сможете ли вы сравниться с графом Толстым в эрудиции?
Системный Блокъ
Вы Лев Толстой на словах или на деле? Викторина по редким словам из корпуса текстов Льва Толстого
«Системный Блокъ» составил викторину на основе редких слов из лексикона Льва Толстого. Пройдите тест и попробуйте отгадать их значения.
Как распознать тексты и сделать корпус для исследования: пошаговая инструкция
В новой статье «Системного Блока» разбираемся, как собрать корпус, используя ресурсы цифровых библиотечных коллекций, и как преобразовать отсканированные документы в машиночитаемый текст с помощью различных инструментов оптического распознавания символов.
Кратко: о чем статья?
Оптическое распознавание символов (OCR) — это преобразование отсканированных документов в машиночитаемый текст, по которому можно искать и который можно редактировать. Превращение цифровых копий книг в распознанный машиночитаемый текст предполагает три этапа: сбор коллекции документов, распознавание текста с помощью OCR и вычитка.
Для оптического распознавания текста существуют разные инструменты, в том числе десктопные, мобильные и веб-приложения. Например, можно воспользоваться ABBYY FineReader PDF или Tesseract. FineReader предлагает много функий для работы с текстом и вычитки, а ещё ему знаком русский язык не только в новой, но и в старой орфографии. Если же этот вариант не подходит, есть Tesseract — программная библиотека, с которой можно работать через командную строку или с использованием Python-оболочки.
Подробную инструкцию по работе с каждым из инструментов, информацию о том, как проверить распознанный текст на полноту и точность, и некоторые ресурсы, где можно найти оцифрованные копии книжных и периодических изданий, найдёте в полной версии статьи.
Время чтения: 12 минут.
В новой статье «Системного Блока» разбираемся, как собрать корпус, используя ресурсы цифровых библиотечных коллекций, и как преобразовать отсканированные документы в машиночитаемый текст с помощью различных инструментов оптического распознавания символов.
Кратко: о чем статья?
Оптическое распознавание символов (OCR) — это преобразование отсканированных документов в машиночитаемый текст, по которому можно искать и который можно редактировать. Превращение цифровых копий книг в распознанный машиночитаемый текст предполагает три этапа: сбор коллекции документов, распознавание текста с помощью OCR и вычитка.
Для оптического распознавания текста существуют разные инструменты, в том числе десктопные, мобильные и веб-приложения. Например, можно воспользоваться ABBYY FineReader PDF или Tesseract. FineReader предлагает много функий для работы с текстом и вычитки, а ещё ему знаком русский язык не только в новой, но и в старой орфографии. Если же этот вариант не подходит, есть Tesseract — программная библиотека, с которой можно работать через командную строку или с использованием Python-оболочки.
Подробную инструкцию по работе с каждым из инструментов, информацию о том, как проверить распознанный текст на полноту и точность, и некоторые ресурсы, где можно найти оцифрованные копии книжных и периодических изданий, найдёте в полной версии статьи.
Время чтения: 12 минут.
Системный Блокъ
Распознавание текста PDF: пошаговая инструкция
От библиотечного каталога к машиночитаемым текстовым данным для компьютерного анализа: разбираемся, как собрать корпус, используя ресурсы цифровых библиотечных коллекций, и как преобразовать отсканированные документы в машиночитаемый текст с помощью различных…
Страх и удивление в 2000 языков: семантика эмоций и природа вариативности языка
Ученые давно задаются вопросом, есть ли у человеческих эмоций универсальные корни или они различаются в культурах. Чтобы выяснить это, они обратились к тезаурусу, составленному на материале 2474 языков. «Системный Блокъ» вспоминает, как лингвисты выясняли особенности представлений об эмоциях в разных культурах.
Кратко: о чем статья?
Обратившись к тезаурусу из более чем 2000 языков, исследователи создали сети слов среди 20 языковых семей (групп языков, имеющих общие корни). Благодаря ним они сравнили эмоциональный словарь во всем мире.
Например, ученые поняли, что в одних языках слова, обозначающие «удивление», имеют семантическую близость со словами, обозначающими «страх», в других — с более положительными чувствами, такими как «счастье». Это можно считать одним из случаев дифференциации на основе эмоциональной окраски (положительной или негативной). Другой частый критерий — активация (уровень возбуждения, который эмоции вызывают).
Узнать, какую роль в сходствах и различиях значений играет география, и посмотреть, как соотносятся надежда, ненависть, гордость и счастье в австронезийских и индоевропейских языках, можно в полной версии статьи.
Время чтения: 2,5 минуты.
Ученые давно задаются вопросом, есть ли у человеческих эмоций универсальные корни или они различаются в культурах. Чтобы выяснить это, они обратились к тезаурусу, составленному на материале 2474 языков. «Системный Блокъ» вспоминает, как лингвисты выясняли особенности представлений об эмоциях в разных культурах.
Кратко: о чем статья?
Обратившись к тезаурусу из более чем 2000 языков, исследователи создали сети слов среди 20 языковых семей (групп языков, имеющих общие корни). Благодаря ним они сравнили эмоциональный словарь во всем мире.
Например, ученые поняли, что в одних языках слова, обозначающие «удивление», имеют семантическую близость со словами, обозначающими «страх», в других — с более положительными чувствами, такими как «счастье». Это можно считать одним из случаев дифференциации на основе эмоциональной окраски (положительной или негативной). Другой частый критерий — активация (уровень возбуждения, который эмоции вызывают).
Узнать, какую роль в сходствах и различиях значений играет география, и посмотреть, как соотносятся надежда, ненависть, гордость и счастье в австронезийских и индоевропейских языках, можно в полной версии статьи.
Время чтения: 2,5 минуты.
Системный Блокъ
Семантика эмоций: ученые объяснили природу вариативности языка - Системный Блокъ
Анализ более 2000 языков показал различия в концептуализации чувств в разных культурах
Нейросети-художники
Предлагаем вам взглянуть на самые успешные нейросети для генерации изображений. Сегодня расскажем о двух популярных моделях: Stable Diffusion с открытым исходным кодом и DALL·E 2 от компании OpenAI. Они обе вышли в 2022 году и с тех пор несколько раз обновлялись.
В сердце этих нейросетей — похожие технологии: они являются диффузионными (создают изображения из случайного информационного шума), обе работают с текстовыми запросами благодаря модели CLIP (подробнее о ней мы писали здесь), обладают примерно одинаковым количеством параметров: около 3,5 миллиардов.
Однако у Stable Diffusion есть два важных отличия. Во-первых, ее обучали на датасете большего размера: около 2 миллиардов изображений против 650 миллионов у DALL·E 2. Во-вторых (и это главное) — Stable Diffusion использует технологию, которой нет у второй нейросети: она работает не с изображениями, а с их векторными представлениями, которые предоставляет отдельная программа-автокодировщик. Эта технология имеет два преимущества: векторные представления намного компактнее оригинальных изображений и содержат только самую важную информацию о них. Благодаря этому модель обучается и работает значительно быстрее.
Вы можете сами оценить, насколько разные результаты получаются у Stable Diffusion и DALL·E 2. Мы сгенерировали с их помощью две картинки: одну — с котятами, по подробному запросу, который написала ChatGPT (стоит заметить, что запрос не поместился до конца в ограниченное пространство для текста у DALL·E 2), а вторую — с фотореалистичным изображением девушки на улице Нью-Йорка.
Попробуйте угадать, какой набор из двух картинок принадлежит более сложной Stable Diffusion, а какой — DALL·E 2!
Предлагаем вам взглянуть на самые успешные нейросети для генерации изображений. Сегодня расскажем о двух популярных моделях: Stable Diffusion с открытым исходным кодом и DALL·E 2 от компании OpenAI. Они обе вышли в 2022 году и с тех пор несколько раз обновлялись.
В сердце этих нейросетей — похожие технологии: они являются диффузионными (создают изображения из случайного информационного шума), обе работают с текстовыми запросами благодаря модели CLIP (подробнее о ней мы писали здесь), обладают примерно одинаковым количеством параметров: около 3,5 миллиардов.
Однако у Stable Diffusion есть два важных отличия. Во-первых, ее обучали на датасете большего размера: около 2 миллиардов изображений против 650 миллионов у DALL·E 2. Во-вторых (и это главное) — Stable Diffusion использует технологию, которой нет у второй нейросети: она работает не с изображениями, а с их векторными представлениями, которые предоставляет отдельная программа-автокодировщик. Эта технология имеет два преимущества: векторные представления намного компактнее оригинальных изображений и содержат только самую важную информацию о них. Благодаря этому модель обучается и работает значительно быстрее.
Вы можете сами оценить, насколько разные результаты получаются у Stable Diffusion и DALL·E 2. Мы сгенерировали с их помощью две картинки: одну — с котятами, по подробному запросу, который написала ChatGPT (стоит заметить, что запрос не поместился до конца в ограниченное пространство для текста у DALL·E 2), а вторую — с фотореалистичным изображением девушки на улице Нью-Йорка.
Попробуйте угадать, какой набор из двух картинок принадлежит более сложной Stable Diffusion, а какой — DALL·E 2!
Какая нейросеть создала картинки 1 и 2, а какая — 3 и 4?
Anonymous Quiz
41%
1 и 2 — DALL·E 2, 3 и 4 — Stable Diffusion
59%
1 и 2 — Stable Diffusion, 3 и 4 — DALL·E 2
DALL·E не сдается
Компания OpenAI, создавшая ChatGPT, в начале октября выпустила новую версию своей нейросети для генерации изображений — DALL·E 3. Она намного лучше предыдущей справляется с задачами: точнее следует запросу, умеет создавать реалистичные картинки и портреты людей, владеет большим количеством стилей. Нейросеть даже может вставлять в изображения текст из запроса, но пока только на английском. На территории России доступ к ней закрыт OpenAI, но в других регионах нейросеть можно протестировать на сайте Bing Image Creator и в платной подписке ChatGPT Plus.
Мы сгенерировали для вас несколько картинок, чтобы вы тоже могли оценить прогресс DALL·E.
Компания OpenAI, создавшая ChatGPT, в начале октября выпустила новую версию своей нейросети для генерации изображений — DALL·E 3. Она намного лучше предыдущей справляется с задачами: точнее следует запросу, умеет создавать реалистичные картинки и портреты людей, владеет большим количеством стилей. Нейросеть даже может вставлять в изображения текст из запроса, но пока только на английском. На территории России доступ к ней закрыт OpenAI, но в других регионах нейросеть можно протестировать на сайте Bing Image Creator и в платной подписке ChatGPT Plus.
Мы сгенерировали для вас несколько картинок, чтобы вы тоже могли оценить прогресс DALL·E.
Знатный борщ, Чапаев и НКРЯ: подборка материалов по лингвистике
Сегодня предлагаем вспомнить лингвистические тексты (и тесты!) «Системного Блока». Отвечаем на пять вопросов «как» и на один — «зачем».
Как трансформируется язык в интернет-пространстве?
В интернет-пространстве смысл может быть спрятан в отдельных символах языка, будь то строчная буква вместо прописной или «б» в слове «маленбкий». А уже в 2007 году американские ученые выяснили, что только 29% респондентов использовали точки в конце сообщений, потому что с точками они воспринимались как неискренние. О строчных буквах вместо прописных, перерождении скобок, намеренных ошибках и кампании “CAPSoff” узнаете из полного текста статьи.
Как менялись значения слов в русском языке на протяжении XVIII-XIX веков?
Когда возникла поговорка «голод не тетка», а слово «молодец» стало похвалой? Какое значение слова «привет» было самым первым? Мог ли борщ быть «знатным» в XVII веке? Вспоминаем вместе с тестом на лингвистическую интуицию.
Как изменился Национальный корпус русского языка после редизайна?
НКРЯ — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Не так давно в НКРЯ обновился дизайн, появились новые функции и корпуса «Русская классика» с черновиками и редакционными вариантами произведений и корпус детской литературы «От 2 до 15». Подробнее о работе с новой версией сайта – в нашем посте.
Как бабка, гаишник и Чапаев распределились по подкорупсам НКРЯ?
Сможете ли вы отличить фэнтези от средневековья и гороскопов, а смс-ки – от форумов? Проверьте, пройдя тест по словам, характерным для разных подкорпусов НКРЯ.
Как превратить ботвинью в гаспачо?
Ещё один материал про НКРЯ посвящен параллельному корпусу – коллекции текстов, где для каждого текста хранятся его переводы на другой язык (или языки). В одном из них – русско-китайском – сейчас чуть менее 4,5 миллионов слов и более тысячи документов, включая перевод «Анны Карениной». О том, как пользоваться этим корпусом, какие у него преимущества и как суп на квасе превратился в гаспачо, – узнаете из нашего поста.
Бонус: Зачем нужен «Прагматикон» (и что это такое)?
Если вы тоже учили языки с помощью сериалов, то замечали, что их герои вместо простых «нет» или «да» произносит не всем знакомые выражения вроде no way или you bet. Это примеры дискурсивных формул — коротких устойчивых ответов, которые мы используем в разговорной речи. Такие выражения плохо представлены в словарях и в случае русского почти не встречаются в учебниках для иностранцев. Зато ими занимается исследовательская группа Школы лингвистики НИУ ВШЭ, разработавшая ресурс Прагматикон. О том, как им пользоваться, узнаете из полной версии статьи.
Сегодня предлагаем вспомнить лингвистические тексты (и тесты!) «Системного Блока». Отвечаем на пять вопросов «как» и на один — «зачем».
Как трансформируется язык в интернет-пространстве?
В интернет-пространстве смысл может быть спрятан в отдельных символах языка, будь то строчная буква вместо прописной или «б» в слове «маленбкий». А уже в 2007 году американские ученые выяснили, что только 29% респондентов использовали точки в конце сообщений, потому что с точками они воспринимались как неискренние. О строчных буквах вместо прописных, перерождении скобок, намеренных ошибках и кампании “CAPSoff” узнаете из полного текста статьи.
Как менялись значения слов в русском языке на протяжении XVIII-XIX веков?
Когда возникла поговорка «голод не тетка», а слово «молодец» стало похвалой? Какое значение слова «привет» было самым первым? Мог ли борщ быть «знатным» в XVII веке? Вспоминаем вместе с тестом на лингвистическую интуицию.
Как изменился Национальный корпус русского языка после редизайна?
НКРЯ — важнейший инструмент любого исследователя, который занимается русским языком, русской литературой и вообще русской словесной культурой. Не так давно в НКРЯ обновился дизайн, появились новые функции и корпуса «Русская классика» с черновиками и редакционными вариантами произведений и корпус детской литературы «От 2 до 15». Подробнее о работе с новой версией сайта – в нашем посте.
Как бабка, гаишник и Чапаев распределились по подкорупсам НКРЯ?
Сможете ли вы отличить фэнтези от средневековья и гороскопов, а смс-ки – от форумов? Проверьте, пройдя тест по словам, характерным для разных подкорпусов НКРЯ.
Как превратить ботвинью в гаспачо?
Ещё один материал про НКРЯ посвящен параллельному корпусу – коллекции текстов, где для каждого текста хранятся его переводы на другой язык (или языки). В одном из них – русско-китайском – сейчас чуть менее 4,5 миллионов слов и более тысячи документов, включая перевод «Анны Карениной». О том, как пользоваться этим корпусом, какие у него преимущества и как суп на квасе превратился в гаспачо, – узнаете из нашего поста.
Бонус: Зачем нужен «Прагматикон» (и что это такое)?
Если вы тоже учили языки с помощью сериалов, то замечали, что их герои вместо простых «нет» или «да» произносит не всем знакомые выражения вроде no way или you bet. Это примеры дискурсивных формул — коротких устойчивых ответов, которые мы используем в разговорной речи. Такие выражения плохо представлены в словарях и в случае русского почти не встречаются в учебниках для иностранцев. Зато ими занимается исследовательская группа Школы лингвистики НИУ ВШЭ, разработавшая ресурс Прагматикон. О том, как им пользоваться, узнаете из полной версии статьи.
Системный Блокъ
Как меняются правила языка благодаря мессенджерам и интернету
Рассказываем, как интернет-переписка изменяет правила грамматики и пунктуации и чем язык мессенджеров в России отличается от западного