Системный Блокъ
10.8K subscribers
241 photos
2 videos
1 file
845 links
«Системный Блокъ» — издание о цифровых технологиях в культуре, искусстве, образовании и обществе.

Финалист премии «Просветитель»

sysblok.ru
vk.com/sysblok
fb.com/sysblok
instagram.com/sysblok/

Присоединяйтесь к команде: sysblok.ru/join
Download Telegram
​​Открытые данные ФСИН: число осужденных в России растёт только по наркопреступлениям

На сайте Федеральной службы исполнения наказаний РФ есть раздел с открытыми данными. Там опубликованы цифры по количеству осужденных за разные типы преступлений в динамике. Если эти данные верные, то единственная категория преступлений, по которой количество осужденных растёт — это преступления, «связанные с распространением наркотиков» (формулировка ФСИН). С 2005 года их стало больше в 2,5 раза.

Как видно из графика, в этот же период практически перестали сажать в тюрьму за хулиганство — падение почти 100%. Число осужденных за изнасилования, кражи, вымогательство, грабежи и разбой упало более чем вдвое.

На этом фоне рост наркопреступлений заставляет задуматься: действительно ли на общем фоне снижения преступности полиция стала ловить в 2,5 раза больше наркоторговцев? Алексей Кнорре из Института проблем правоприменения при Европейском Университете в Санкт-Петербурге ещё в 2017 году выяснил, что три четверти осужденных за наркопреступления — это потребители, а не распространители наркотиков. Такой перекос, по мнению исследователей — результат «палочной» системы в МВД, когда за отчетный период необходимо раскрыть плановое количество преступлений: выявлять потребителей значительно легче, чем распространителей.

Есть на графике и другие странности. Например, еще сильнее, чем грабежи и изнасилования, упало число осужденных за «умышленное причинение тяжкого вреда здоровью». Однако это падение выглядит искусственным: оно подозрительно совпадает со всплеском убийств. Есть вероятность, что одни и те же действия до 2009 года квалифицировали как умышленное причинение тяжкого вреда, повлекшее за собой смерть потерпевшего, а начиная с 2010 — как убийство.

Пока прозрачность ФСИН ограничивается этим и ещё несколькими небогатыми датасетами, мы не можем уверенно говорить, что стоит за цифрами. Искать ответы придется по старинке журналистам и правозащитникам. Но открытые данные хороши уже тем, что позволяют видеть такие странности — и задавать неудобные вопросы. «Системный Блокъ» будет регулярно исследовать общедоступные датасеты — и визуализировать то, что заставляет задуматься.

Источник данных: ФСИН

#opendata
​​Доступность работы для людей с инвалидностью в России: инфографика
#открытыеданные #opendata

Сейчас в России живет почти 12 миллионов людей с инвалидностью. Когда говорят о проблемах доступной среды, чаще всего имеют в виду колясочников и невозможность добраться до магазина. Но даже если дойти до магазина получится, нужны еще деньги, чтобы что-то купить.

По данным Росстата на 2018 год уровень безработицы среди людей с инвалидностью трудоспособного возраста составляет 21,3%, хотя в целом по России он составляет 5%.

Люди с инвалидностью не только чаще остаются без работы, но и больше времени проводят в поиске вакансии — 44% ищут работу 12 месяцев или дольше.

Ссылка на данные: п. 4.15
​​Музеи — передовики цифровизации: кто вносит больше объектов в Госкаталог музейного фонда
#opendata #открытыеданные

Госкаталог РФ — инициатива Министерства культуры по оцифровке всего российского музейного фонда. Государственные музеи в России обязаны оцифровывать свои фонды и вносить их в Госкаталог. Но размеры музеев не равны, как не равны и их возможности по оцифровке. Нам стало интересно исследовать это неравенство и посчитать, чьих объектов в Госкаталоге больше всего.

Как выяснилось, 1% музеев внес почти треть работ каталога (32%). По количеству это как полторы коллекции Эрмитажа. В среднем каждый из этих музеев оцифровал почти половину своей коллекции (45%) и выложил 225 тыс. экспонатов. Сам Эрмитаж тоже входит в топ 1% и выложил 15% своих экспонатов.

В этот 1% входит 24 учреждения федерального уровня или из крупных городов. В основном это музеи с большими коллекциями, суммарный объем которых больше четверти всего музейного фонда (28%).

10 музеев из топа находятся в Москве. Лидер по числу оцифрованных объектов — театральный музей имени Бахрушина: оцифровано более 622 тыс. работ (46% коллекции). Помимо декораций и афиш, около 500 тыс. из них посвящены грампластинкам и жизни генерального директора. Например, это фотографии приглашений на мероприятия и благодарностей.

Лидер по доле оцифрованной коллекции находится уже в регионе. Это Владимиро-Суздальский музей-заповедник. Его сотрудники внесли в Госкаталог 96% экспонатов — более 314 тыс. работ. Основные активы заповедника — древние соборы из списка ЮНЕСКО. В электронном виде музей предоставляет фотографии предметов быта: книг, грампластинок, сувениров из стекла и материалов раскопок.

Помимо Владимиро-Суздальского в топе оказались еще 6 музеев-заповедников: Новгородский (361 тыс. оцифрованных объектов), Ставропольский (128 тыс.), Смоленский (117 тыс.), Ростово-Ярославский (88 тыс.), Тобольский (87 тыс.) и Петергоф (99 тыс.).

В начале 2020 каталог Музейного фонда включает более 16 млн оцифрованных и описанных экспонатов, что больше четверти от общей коллекции музеев России (61,6 млн объектов в конце 2018). 2218 музеев внесли свои экспонаты в каталог. В среднем каждый выложил 7 тыс. объектов.

Данные: Минкульт

Ксения Тихомирова
​​География данных: какой статистикой делятся государства
#society #opendata

Во всем мире регулярно выходят рейтинги открытости статистики правительств разных стран. Международная некоммерческая организация Open Data Watch готовит один из таких рейтингов. Open Data Inventory (ODIN) Score представляет собой оценку охвата и открытости официальной статистики в 178 странах мира. Оценивается наличие статистических показателей в 21 категории социальной, экономической и экологической статистики. Мы попытались разобраться, какой информацией страны делятся охотнее всего.

Сингапур: открытая экономика

В рейтинге ODIN Score 2018/2019 первое место занял Сингапур. За год он смог подняться с 20 строчки рейтинга и потеснить европейские страны. Это удалось благодаря увеличению охвата и открытости по всем категориям. Особенно сильно возросло количество данных по земельным и энергетическим ресурсам, которыми ранее это островное государство не делилось.

Стало больше и показателей экономической статистики, что вывело Сингапур на первое место по охвату данных в экономике, банковской сфере и балансовых платежах правительства. Сингапуру выгодно делиться информацией о своей экономической сфере, которая является одной из самых передовых в мире: таким образом город-государство привлекает новых инвесторов и партнеров.

Кроме того, эта страна также занимает первое место по гендерной статистике и статистике рождаемости. Во всех представленных показателях данные Сингапура на 100% открыты.

Дания и Норвегия: социальная статистика и зарплаты

Дания занимает второе место в общем рейтинге и первое место по охвату данных в социальной статистике и информации о ресурсах и законах. Норвегия заняла по этому показателю 9 место, хотя в 2016 году делила второе место с Данией.

За последние годы в Норвегии упала открытость данных статистического ведомства, налоговой службы и других ведомств. На протяжении 200 лет Норвегия публиковала в открытом доступе данные о заработке своих граждан. Сначала это были ежегодные сборники, затем информация в сети стала доступна любым желающим на сайте налоговой службы.

Однако с 2014 года вход в систему стал возможен только через национальный идентификационный номер. Также каждый житель видит, кто искал информацию на него. Это убавило количество желающих посмотреть информацию о том, сколько получает знакомый или сосед, но по-прежнему позволяет общественности и СМИ контролировать уровень доходов местных чиновников.

Нидерланды и Польша: окружающая среда и земельные ресурсы

Охотнее всего информацией об окружающей среде делятся Нидерланды и Польша. Эти две страны делят первое место по охвату данных в этой категории в рейтинге ODIN score за 2018 год.

Например, на сайте статистического ведомства Нидерландов выложена статистика по типу земель, начиная с 1900 года. В отдельном датасете представлены все современные земельные участки Нидерландов по типу использования — сельскохозяйственные угодья, леса, водные территории и т. д.

Россия: данные о ценах на товары и услуги

Россия занимает 47 место в общем рейтинге за 2018 год. Однако по такому показателю, как Индекс потребительских цен, находится на первом месте.

Росстат регулярно публикует данные о ценах на товары и услуги на региональных и федеральном уровне. Общественность пристально следит за этими показателями, выходит много публикаций в СМИ, составляются различные рейтинги, например, рейтинг оливье или рейтинг окрошки. На основе показателя индекса цен рассчитывается уровень инфляции в стране.

Одной из главных проблем России является недостаток данных в машиночитаемых форматах для их последующей обработки активистами и журналистами. У данных сложная структура, не хватает визуализаций, которые помогали бы жителям в оперативном режиме следить за изменениями в показателях.

https://sysblok.ru/society/geografija-dannyh-kakoj-statistikoj-gosudarstva-deljatsja-ohotnee-vsego/

Павел Лебедев
​​Мифы о защите персональных данных: как не надо прятаться от Большого Брата
#society #opendata

Разбираемся, какие способы защиты личной информации не помогут избавиться от цифровых следов в интернете.

Миф 1. Если я создам фейковый аккаунт, никто не поймет, кому он принадлежит

Что будет, если оставить основной аккаунт для общения с коллегами, а с фейкового лайкать свои же фотографии? От коллег скрыться можно, а от компаний, собирающих данные, — нет: они установят связь дубликата и основной страницы, даже если имена на них не совпадают.

Для этого они проанализируют поведение пользователя: IP-адрес, с которого он заходит; посещаемые страницы; лайки в сообществах; списки друзей; геолокацию и др. Все это вместе дает довольно надежную идентификацию. Даже «пустая» страница без информации, фотографий и подписок на сообщества может многое сообщить о ее владельце, если он активно ей пользуется.

Миф 2. Если я удалю свой аккаунт, я сотру свои данные из интернета

Соцсети хранят данные об удаленном аккаунте длительное время — на случай восстановления страницы. Их можно сопоставить с данными о фейке, если он есть, или с новосозданной страницей, где нет компрометирующих мемов 2010 года.

Известен случай долгого судебного дела, когда пользователь из Твери несколько месяцев пытался заставить ВКонтакте стереть все данные о нем с сайта.

Миф 3. Если я отмечу фальшивую геолокацию, никто не узнает, где я был на самом деле

В 2019 году сотрудницы BuzzFeed провели эксперимент: целую неделю они постили в Instagram фотографии и сториз из своей поездки в Лондон. На самом деле никакой поездки не было, а все фотографии были сделаны в Америке, но большинство подписчиков девушек поверили в этот отпуск.

Метод с фальшивыми геолокациями подойдет, чтобы подшутить над друзьями. Но если цель — не пошутить, а скрыться, метод вряд ли сработает: нейросети уже умеют узнавать даже не самые очевидные места по заднему плану на фотографиях.

Миф 4. Если я выхожу в сеть через браузер Tor, никто не узнает мои личные данные и IP-адрес

Использование браузера Tor — один из наиболее надежных способов защитить персональные данные. В основе работы Tor технология луковой, или луковичной, маршрутизации, поэтому Tor расшифровывается как The Onion Routing.

Технология работает так: информация выходит из одного источника — например, компьютера, — и не сразу достигает конечной цели, а проходит несколько узлов — других компьютеров, — которые удаляют предыдущий слой шифрования и зашифровывают информацию по-новому.

Чаще всего первоначальный источник трафика не выявить. Но если пользователь не использует зашифрованный протокол — HTTPS, SSH или TLS — и источник содержит идентифицирующую информацию, точку выхода из сети можно отследить.

При использовании Tor стоит позаботиться о том, чтобы каждый раз использовать новый ник и не допускать ошибку Росса Ульбрихта. Ульбрихт — основатель Silk Road, анонимной торговой площадки, где продавались наркотики и психоактивные вещества. В 2013 году его нашла полиция, когда во время поиска IT-профессионалов в свою команду он указал личную электронную почту, названную его именем и фамилией.

Не миф: технологии анонимизации и шифрования

Чтобы надежно защитить данные, можно использовать специально разработанные технологии анонимизации и шифрования. К ним относятся:

• упомянутые выше безопасные протоколы обмена информацией по сети — HTTPS и SSH;
• виртуальные частные сети — VPN;
• асинхронное шифрование при передаче сообщений по сети — алгоритм RSA, который используется в популярной системе шифрования PGP;
• всевозможные анонимизирующие прокси-серверы.

Но и эти инструменты помогут, только если применять их в правильной комбинации и с умом.

https://sysblok.ru/society/mify-o-zashhite-personalnyh-dannyh-kak-ne-nado-prjatatsja-ot-bolshogo-brata/

Анна Купина
​​Распределение субсидий: кому помогает государство
#opendata

С конца 2019 года российские власти публикуют список топ-20 крупнейших государственных субсидий. Их получатели — РЖД, Сбербанк, Федеральная кадастровая палата, телеканал Russia Today и другие организации и госструктуры. «Системный Блокъ» изучил этот список и визуализировал для вас, кто, откуда и сколько миллиардов получил.

Самая крупная субсидия в 2020 году досталась Сбербанку. Ее размер 104,38 млрд рублей. В постановлении правительства сообщается, что эти деньги призваны помочь средним и малым предприятиям, которые сильнее всего пострадали от коронавируса.

Некоторые субсидии рассчитываются сразу на несколько лет. Так, в течение трех лет фонду Президентских грантов будет выделено более 27 млрд рублей. Назначение субсидии — на проекты, развивающие гражданское общество. А субсидия в 15 млрд рублей будет выдана Государственной автоматизированной системе РФ «Правосудие» на выполнение государственного задания. Субсидия рассчитана на четыре года, в этом году уже выданы более 5 млрд рублей.

Каждый год Управление по делам президента выделяет субсидии Специальному летному отряду «Россия», который занимается обслуживанием самолетов первых лиц государства и глав ведомств. Несмотря на вопросы о неэффективном расходовании бюджетных средств, которые освещала Счетная палата России, расходы на деятельность отряда только увеличиваются и в этом году почти достигли 17,5 млрд рублей. Годом ранее отряду было выделено 14,65 млрд рублей.

В ноябре прошлого года Счетная палата России также запустила портал «Госрасходы». На этом портале доступен рейтинг «20 крупнейших субсидий за 2020 год». Кроме обзора субсидий в проекте агрегируются данные о государственных финансах из разных источников и формулируются профили национальных проектов. Наборы данных можно скачать в машиночитаемых форматах для последующего анализа, а также доступен открытый API.

https://sysblok.ru/otkrytye-dannye/kak-raspredeljajutsja-krupnye-gosudarstvennye-subsidii/

Павел Лебедев
​​Покажи мне свой Spotify, и я покажу тебе, кто ты
#musicology #opendata

«Spotify опоздал» — говорят одни. «Spotify — всего лишь один из многих!», — говорят другие. «Spotify неудобен» — говорят третьи. А мы говорим: «У Spotify есть открытый API — и мы идем исследовать себя!»

Мы уже писали о том, как Spotify угадывает наши предпочтения в музыке. В этой статье мы попытаемся сами проанализировать наши музыкальные предпочтения с помощью WEB API от Spotify и понять, что о нашем вкусе говорит наш плейлист.

На своих серверах Spotify хранит информацию о каждом треке. Есть данные о размерности трека, его энергичности, темпе и прочие музыкальные характеристики. С ними мы и будем работать.

Какие задачи мы будем решать

• зарегистрируемся на Spotify как разработчики,
• создадим свое приложение,
• подключим наше приложение к Spotify API,
• получим информацию о своем плейлисте,
• сформируем из данных таблицу и скачаем ее на компьютер,
• визуализируем данные в IDE — в среде разработки, в которой мы будем писать код.

Подробное решение всех задач — в нашей статье: https://sysblok.ru/musicology/pokazhi-mne-svoj-spotify-i-ja-pokazhu-tebe-kto-ty/

Артур Хисматулин
​​Цифровой гербарий МГУ: новая жизнь исторической коллекции растений
#biology #opendata

Переход «в цифру» — уже давно не новость для различных коллекций. Множество музеев мира готовы принять посетителей в своих виртуальных стенах, библиотеки предоставляют открытый доступ к нужным книгам через интернет.

Не стали исключением и гербарии — научные коллекции засушенных растений по всему миру. И не зря. Ведь оцифровка коллекций — это не только «получение картинок», но и обработка и получение огромных массивов ботанической информации, большой шаг в эпоху больших данных для коллекций растений. Сегодня ботаника развивается в том числе и за счет обобщений крупных массивов информации, приемов математического моделирования и матстатистики.

Для второго по величине гербария нашей страны — коллекции МГУ имени М. В. Ломоносова — переход на новый уровень начался еще в 2015 году. И к 2020 году мы имеем большой структурированный портал, который помогает ботаникам из любой точки мира.

Что получили ученые после оцифровки

1. Доступность более чем 1 млн. изображений растений из любой точки мира.

2. Базу метаданных, которая также открыта для запросов ученых и представляет собой классический образец больших данных. И если отсканированные картинки — это наиболее видимый результат, то база данных цифрового гербария — это очень важная и ценная часть проекта именно с точки зрения возможностей анализа информации.

3. У каждого образца появился уникальный идентификатор — стало гораздо проще ссылаться на нужные образцы в своих статьях

4. Привязки к карте для более чем 50% образцов. Это очень ценная информация. Вопрос «где растет этот вид» — один из базовых в ботанике и по сей день не теряет актуальности, ведь в изменяющихся под влиянием человека условиях еще важнее знать «где что растет», чтобы потом можно было спрогнозировать «а будет ли расти там и там при таких и таких условиях». И здесь в игру вступает информация с этикеток гербария и ее «привязка» к карте.

Вплоть до 1990-х годов для составления гербариев GPS системы практически не использовались, и места сбора растений отмечали как «5 км к ЮВ от деревни X». Чтобы найти по словесным описаниям точку на современной карте требуется много времени и сил. Один человек за рабочий день может «привязать» от 50 до 300 точек.

В базе гербария МГУ таких точек уже 578063. Для их определения, помимо ручного труда, людям помогал специально настроенный алгоритм. Система группировала образцы, собранные в один день одним и тем же человеком и экстраполировала на эту группу геопривязку, если она имелась хотя бы для одного образца из группы.

Конечно, такая привязка не столь точна, как «ручная», но она тем не менее позволила уточнить расположение мест сбора многих тысяч растений. Такие автоматические привязки помечены в системе отдельным значком.

5. Названия растений на портале синхронизированы с международной базой данных названий «Catalogue of Life». Можно сразу посмотреть не только актуальное название растения, но и его положение в системе растительного мира и возможные синонимы.

6. Распознаны тексты этикеток (в том числе рукописных) для почти половины образцов

7. Гибкая система поиска позволяет найти нужное растение за пару минут, используя самые разные параметры: от названия растения до даты сбора образца.

Конечно же гербарий МГУ существует и в оффлайн формате. Образцы XVIII–XXI веков хранятся в специальных шкафах и ждут заинтересованных специалистов.

Однако перевод в цифровую форму не только открыл гербарий для пользователей со всего мира, но и сделал возможным детальный анализ данных по разнообразию и географии растений. Ну, а в периоды дистанционной работы гербария из-за пандемии его онлайн-портал — это единственная возможность ознакомиться с образцами и получить данные для своей курсовой, диссертации, научной статьи.

https://sysblok.ru/biologija/cifrovoj-gerbarij-mgu-novaja-zhizn-istoricheskoj-kollekcii-rastenij/

Ксения Дудова