Сезон дата-активизма в России открыт. Второй день я участвую в хакатоне #Декларабум [1], организованном Трансперенси Интернешнл-Россия. Организаторы предоставили участникам базу данных антикоррупционных и предвыборных деклараций более 50 тысяч должностных лиц в формате json (mongoDB). 2 важных сюжета:
1) Рост культуры данных в сообществе Декларатора. Если еще пару лет назад, набор машиночитаемых данных Декларатора составлял около 13 тысяч должностных лиц, то сейчас он вырос почти в 4 раза, а скорость с которой новые декларации переводятся в стандартизированный вид постоянно растет.
Почему это важно? На данный момент, антикоррупционные декларации, которые заполняют каждый год должностные лица, публикуются во всевозможных форматах – от табличек в экселе на несколько тысяч человек, до отсканированных pdf-документов. Проводить какой-либо анализ с разрозненными файлами сложно. Соответственно, приведение к единому стандарту и единой базе становится чрезвычайно важной задачей в контексте ответственности и подотчетности власти.
Известный программистам закон Линуса гласит: "при достаточном количестве глаз баги выплывают на поверхность". Декларатор как раз и занимается обеспечением, чтобы у деклараций чиновников появилось "достаточное количество глаз".
Если еще в прошлом году перед Декларатором стояла задача просто систематизировать все, что они насобирали (Андрей Жвирблис, руководитель Декларатора, тогда шутил, что проект страдает силлогоманией или патологическим накопительством), то в этом году есть четкий стандарт данных и участникам хакатона (около 10 проектов) предлагается работать именно с этим набором данных и сопоставлять его с другими источниками.
Как удалось резко повысить качество данных и их перевод в машиночитаемый вид? Во-первых, единый стандартизированный формат – Декларатор сначала разработал xml-формат деклараций, а потом уже и более современный – json (запущен буквально перед хакатоном). Т.е. обрабатывать декларации стало возможно не только руками (монотонный ручной труд), но и полуавтоматически (сначала скрипт автоматически собирает все в базу данных, а потом человек наносит последнии штрихи). Во-вторых, Декларатор ввели базовую геймификацию всем волонтерам, обрабатывающим декларации – участники получают 1 балл за один обработанный документ. Эта система не только позволила добавить мотивации волонтерам, но и упростила учет работы в самом проекте.
Пример Трансперенси показывает, что систематическая и умная работа с данными и мотивацией волонтеров приводит к экспоненциальному повышению производительности. Следовательно резко возрастает число степеней свободы для возможных инноваций, анализа, сервисов и т.д.
2) Второй сюжет – как раз про то, что прямо сейчас рождается на хакатоне на основе собранных данных. Это совершеннейшая фантастика, которую невозможно было представить еще 10 лет назад.
Во-первых, проект t4 – это чат-бот в Телеграме, который предлагает вам найти чиновника по базе декларатора. Далее бот ищет чиновника в базе rusprofile и предлагает вам на выбор оценить, какой найденный ИНН чиновника больше всего подходит владельцу декларации. По ИНН, как вы понимаете, можно найти много всего. В общем, очень ценный инструмент для журналистов-расследователей.
Во-вторых, проект "Своих не бросают", которую разрабатывают Ирина Долинина и Алеся Мароховская превращает всю базу данных Декларатора в огромный социальный граф (это такое облако соединенных точек) чиновников, который позволяет выделить устойчивые связи между т.н. "кланами" или "обоймами" чиновников, которые двигаются из ведомства в ведомство вслед за своим лидером если он меняет работу. Средний размер подобной видимой части обоймы (устойчивой группы) – около 4 человек, но неисключено, что некоторые группы могут быть значительно больше (за счет тех чиновников, которые занимают более низкие позиции и не подают декларации). В основном, говорят исследовательницы, феномен "обойм" прослеживается у сотрудников силовых ведомств (доступная им база, правда, пока не репрезентативна).
1) Рост культуры данных в сообществе Декларатора. Если еще пару лет назад, набор машиночитаемых данных Декларатора составлял около 13 тысяч должностных лиц, то сейчас он вырос почти в 4 раза, а скорость с которой новые декларации переводятся в стандартизированный вид постоянно растет.
Почему это важно? На данный момент, антикоррупционные декларации, которые заполняют каждый год должностные лица, публикуются во всевозможных форматах – от табличек в экселе на несколько тысяч человек, до отсканированных pdf-документов. Проводить какой-либо анализ с разрозненными файлами сложно. Соответственно, приведение к единому стандарту и единой базе становится чрезвычайно важной задачей в контексте ответственности и подотчетности власти.
Известный программистам закон Линуса гласит: "при достаточном количестве глаз баги выплывают на поверхность". Декларатор как раз и занимается обеспечением, чтобы у деклараций чиновников появилось "достаточное количество глаз".
Если еще в прошлом году перед Декларатором стояла задача просто систематизировать все, что они насобирали (Андрей Жвирблис, руководитель Декларатора, тогда шутил, что проект страдает силлогоманией или патологическим накопительством), то в этом году есть четкий стандарт данных и участникам хакатона (около 10 проектов) предлагается работать именно с этим набором данных и сопоставлять его с другими источниками.
Как удалось резко повысить качество данных и их перевод в машиночитаемый вид? Во-первых, единый стандартизированный формат – Декларатор сначала разработал xml-формат деклараций, а потом уже и более современный – json (запущен буквально перед хакатоном). Т.е. обрабатывать декларации стало возможно не только руками (монотонный ручной труд), но и полуавтоматически (сначала скрипт автоматически собирает все в базу данных, а потом человек наносит последнии штрихи). Во-вторых, Декларатор ввели базовую геймификацию всем волонтерам, обрабатывающим декларации – участники получают 1 балл за один обработанный документ. Эта система не только позволила добавить мотивации волонтерам, но и упростила учет работы в самом проекте.
Пример Трансперенси показывает, что систематическая и умная работа с данными и мотивацией волонтеров приводит к экспоненциальному повышению производительности. Следовательно резко возрастает число степеней свободы для возможных инноваций, анализа, сервисов и т.д.
2) Второй сюжет – как раз про то, что прямо сейчас рождается на хакатоне на основе собранных данных. Это совершеннейшая фантастика, которую невозможно было представить еще 10 лет назад.
Во-первых, проект t4 – это чат-бот в Телеграме, который предлагает вам найти чиновника по базе декларатора. Далее бот ищет чиновника в базе rusprofile и предлагает вам на выбор оценить, какой найденный ИНН чиновника больше всего подходит владельцу декларации. По ИНН, как вы понимаете, можно найти много всего. В общем, очень ценный инструмент для журналистов-расследователей.
Во-вторых, проект "Своих не бросают", которую разрабатывают Ирина Долинина и Алеся Мароховская превращает всю базу данных Декларатора в огромный социальный граф (это такое облако соединенных точек) чиновников, который позволяет выделить устойчивые связи между т.н. "кланами" или "обоймами" чиновников, которые двигаются из ведомства в ведомство вслед за своим лидером если он меняет работу. Средний размер подобной видимой части обоймы (устойчивой группы) – около 4 человек, но неисключено, что некоторые группы могут быть значительно больше (за счет тех чиновников, которые занимают более низкие позиции и не подают декларации). В основном, говорят исследовательницы, феномен "обойм" прослеживается у сотрудников силовых ведомств (доступная им база, правда, пока не репрезентативна).