Большие данные в биологии: как вы можете помочь науке
#biology
С появлением смартфона и интернета в классической биологии произошла революция, и от нее отделилась новая область знаний — информатика разнообразия. Теперь каждый человек может фотографировать природу и участвовать в развитии науки.
iNaturalist
Когда вы фотографируете, в exif-файл фотографии автоматически записываются координаты, дата и время съемки. Чтобы ваши фото помогали биологам, загружайте их на сайт iNaturalist. Движок сайта считывает все данные из exif-файла, а искусственный интеллект называет сфотографированный организм. Если он ошибся, неравнодушные пользователи поправят машину, и ее нейронная сеть станет компетентнее.
В итоге массив больших данных формируется в режиме реального времени. В библиотеке изображений уже 250 тысяч видов, снятых в своей среде обитания. В базе данных уже 32 миллиона наблюдений — серий из фотографий организма с разных ракурсов. Также у каждого наблюдения есть метаданные — метка на карте, дата и время съемки.
City Nature Challenge
Каждый апрель число наблюдений на в iNaturalist увеличивается на сотни тысяч, или даже на миллионы. Это происходит в ходе всемирных соревнований City Nature Challenge — чемпионата мира по документации городского биоразнообразия.
Соревнования проходят в течении четырех суток в режиме реального времени. Участники фотографируют на свои смартфоны и фотоаппараты растения, грибы и животных и загружают изображения на портал соревнований. В России для этого используются приложения iNaturalist и Seek или сайт inaturalist.org.
City Nature Challenge 2020 пройдет с 24 по 27 апреля. Обычно каждый участник соревнований видит рейтинг своего города, а также личный зачет в своем городе, стране и мировом табеле. В этом году мировой зачет отменен, так как велика вероятность, что некоторые города еще будут на карантине.
Подробности рассказывает доктор биологических наук Алексей Петрович Серегин: https://sysblok.ru/biologija/v-les-za-bolshimi-dannymi-kak-vashi-fotki-belok-i-gribov-pomogut-nauke/
#biology
С появлением смартфона и интернета в классической биологии произошла революция, и от нее отделилась новая область знаний — информатика разнообразия. Теперь каждый человек может фотографировать природу и участвовать в развитии науки.
iNaturalist
Когда вы фотографируете, в exif-файл фотографии автоматически записываются координаты, дата и время съемки. Чтобы ваши фото помогали биологам, загружайте их на сайт iNaturalist. Движок сайта считывает все данные из exif-файла, а искусственный интеллект называет сфотографированный организм. Если он ошибся, неравнодушные пользователи поправят машину, и ее нейронная сеть станет компетентнее.
В итоге массив больших данных формируется в режиме реального времени. В библиотеке изображений уже 250 тысяч видов, снятых в своей среде обитания. В базе данных уже 32 миллиона наблюдений — серий из фотографий организма с разных ракурсов. Также у каждого наблюдения есть метаданные — метка на карте, дата и время съемки.
City Nature Challenge
Каждый апрель число наблюдений на в iNaturalist увеличивается на сотни тысяч, или даже на миллионы. Это происходит в ходе всемирных соревнований City Nature Challenge — чемпионата мира по документации городского биоразнообразия.
Соревнования проходят в течении четырех суток в режиме реального времени. Участники фотографируют на свои смартфоны и фотоаппараты растения, грибы и животных и загружают изображения на портал соревнований. В России для этого используются приложения iNaturalist и Seek или сайт inaturalist.org.
City Nature Challenge 2020 пройдет с 24 по 27 апреля. Обычно каждый участник соревнований видит рейтинг своего города, а также личный зачет в своем городе, стране и мировом табеле. В этом году мировой зачет отменен, так как велика вероятность, что некоторые города еще будут на карантине.
Подробности рассказывает доктор биологических наук Алексей Петрович Серегин: https://sysblok.ru/biologija/v-les-za-bolshimi-dannymi-kak-vashi-fotki-belok-i-gribov-pomogut-nauke/
Цифровой гербарий МГУ: новая жизнь исторической коллекции растений
#biology #opendata
Переход «в цифру» — уже давно не новость для различных коллекций. Множество музеев мира готовы принять посетителей в своих виртуальных стенах, библиотеки предоставляют открытый доступ к нужным книгам через интернет.
Не стали исключением и гербарии — научные коллекции засушенных растений по всему миру. И не зря. Ведь оцифровка коллекций — это не только «получение картинок», но и обработка и получение огромных массивов ботанической информации, большой шаг в эпоху больших данных для коллекций растений. Сегодня ботаника развивается в том числе и за счет обобщений крупных массивов информации, приемов математического моделирования и матстатистики.
Для второго по величине гербария нашей страны — коллекции МГУ имени М. В. Ломоносова — переход на новый уровень начался еще в 2015 году. И к 2020 году мы имеем большой структурированный портал, который помогает ботаникам из любой точки мира.
Что получили ученые после оцифровки
1. Доступность более чем 1 млн. изображений растений из любой точки мира.
2. Базу метаданных, которая также открыта для запросов ученых и представляет собой классический образец больших данных. И если отсканированные картинки — это наиболее видимый результат, то база данных цифрового гербария — это очень важная и ценная часть проекта именно с точки зрения возможностей анализа информации.
3. У каждого образца появился уникальный идентификатор — стало гораздо проще ссылаться на нужные образцы в своих статьях
4. Привязки к карте для более чем 50% образцов. Это очень ценная информация. Вопрос «где растет этот вид» — один из базовых в ботанике и по сей день не теряет актуальности, ведь в изменяющихся под влиянием человека условиях еще важнее знать «где что растет», чтобы потом можно было спрогнозировать «а будет ли расти там и там при таких и таких условиях». И здесь в игру вступает информация с этикеток гербария и ее «привязка» к карте.
Вплоть до 1990-х годов для составления гербариев GPS системы практически не использовались, и места сбора растений отмечали как «5 км к ЮВ от деревни X». Чтобы найти по словесным описаниям точку на современной карте требуется много времени и сил. Один человек за рабочий день может «привязать» от 50 до 300 точек.
В базе гербария МГУ таких точек уже 578063. Для их определения, помимо ручного труда, людям помогал специально настроенный алгоритм. Система группировала образцы, собранные в один день одним и тем же человеком и экстраполировала на эту группу геопривязку, если она имелась хотя бы для одного образца из группы.
Конечно, такая привязка не столь точна, как «ручная», но она тем не менее позволила уточнить расположение мест сбора многих тысяч растений. Такие автоматические привязки помечены в системе отдельным значком.
5. Названия растений на портале синхронизированы с международной базой данных названий «Catalogue of Life». Можно сразу посмотреть не только актуальное название растения, но и его положение в системе растительного мира и возможные синонимы.
6. Распознаны тексты этикеток (в том числе рукописных) для почти половины образцов
7. Гибкая система поиска позволяет найти нужное растение за пару минут, используя самые разные параметры: от названия растения до даты сбора образца.
Конечно же гербарий МГУ существует и в оффлайн формате. Образцы XVIII–XXI веков хранятся в специальных шкафах и ждут заинтересованных специалистов.
Однако перевод в цифровую форму не только открыл гербарий для пользователей со всего мира, но и сделал возможным детальный анализ данных по разнообразию и географии растений. Ну, а в периоды дистанционной работы гербария из-за пандемии его онлайн-портал — это единственная возможность ознакомиться с образцами и получить данные для своей курсовой, диссертации, научной статьи.
https://sysblok.ru/biologija/cifrovoj-gerbarij-mgu-novaja-zhizn-istoricheskoj-kollekcii-rastenij/
Ксения Дудова
#biology #opendata
Переход «в цифру» — уже давно не новость для различных коллекций. Множество музеев мира готовы принять посетителей в своих виртуальных стенах, библиотеки предоставляют открытый доступ к нужным книгам через интернет.
Не стали исключением и гербарии — научные коллекции засушенных растений по всему миру. И не зря. Ведь оцифровка коллекций — это не только «получение картинок», но и обработка и получение огромных массивов ботанической информации, большой шаг в эпоху больших данных для коллекций растений. Сегодня ботаника развивается в том числе и за счет обобщений крупных массивов информации, приемов математического моделирования и матстатистики.
Для второго по величине гербария нашей страны — коллекции МГУ имени М. В. Ломоносова — переход на новый уровень начался еще в 2015 году. И к 2020 году мы имеем большой структурированный портал, который помогает ботаникам из любой точки мира.
Что получили ученые после оцифровки
1. Доступность более чем 1 млн. изображений растений из любой точки мира.
2. Базу метаданных, которая также открыта для запросов ученых и представляет собой классический образец больших данных. И если отсканированные картинки — это наиболее видимый результат, то база данных цифрового гербария — это очень важная и ценная часть проекта именно с точки зрения возможностей анализа информации.
3. У каждого образца появился уникальный идентификатор — стало гораздо проще ссылаться на нужные образцы в своих статьях
4. Привязки к карте для более чем 50% образцов. Это очень ценная информация. Вопрос «где растет этот вид» — один из базовых в ботанике и по сей день не теряет актуальности, ведь в изменяющихся под влиянием человека условиях еще важнее знать «где что растет», чтобы потом можно было спрогнозировать «а будет ли расти там и там при таких и таких условиях». И здесь в игру вступает информация с этикеток гербария и ее «привязка» к карте.
Вплоть до 1990-х годов для составления гербариев GPS системы практически не использовались, и места сбора растений отмечали как «5 км к ЮВ от деревни X». Чтобы найти по словесным описаниям точку на современной карте требуется много времени и сил. Один человек за рабочий день может «привязать» от 50 до 300 точек.
В базе гербария МГУ таких точек уже 578063. Для их определения, помимо ручного труда, людям помогал специально настроенный алгоритм. Система группировала образцы, собранные в один день одним и тем же человеком и экстраполировала на эту группу геопривязку, если она имелась хотя бы для одного образца из группы.
Конечно, такая привязка не столь точна, как «ручная», но она тем не менее позволила уточнить расположение мест сбора многих тысяч растений. Такие автоматические привязки помечены в системе отдельным значком.
5. Названия растений на портале синхронизированы с международной базой данных названий «Catalogue of Life». Можно сразу посмотреть не только актуальное название растения, но и его положение в системе растительного мира и возможные синонимы.
6. Распознаны тексты этикеток (в том числе рукописных) для почти половины образцов
7. Гибкая система поиска позволяет найти нужное растение за пару минут, используя самые разные параметры: от названия растения до даты сбора образца.
Конечно же гербарий МГУ существует и в оффлайн формате. Образцы XVIII–XXI веков хранятся в специальных шкафах и ждут заинтересованных специалистов.
Однако перевод в цифровую форму не только открыл гербарий для пользователей со всего мира, но и сделал возможным детальный анализ данных по разнообразию и географии растений. Ну, а в периоды дистанционной работы гербария из-за пандемии его онлайн-портал — это единственная возможность ознакомиться с образцами и получить данные для своей курсовой, диссертации, научной статьи.
https://sysblok.ru/biologija/cifrovoj-gerbarij-mgu-novaja-zhizn-istoricheskoj-kollekcii-rastenij/
Ксения Дудова
Как нейросеть узнает растения и почему она ошибается
#knowhow #biology
Автоматические определители живых организмов стали привычными приложениями на смартфонах любителей природы: достаточно просто навести камеру на растение или животное, чтобы определить, что это.
Любители природы разделились на два лагеря. Одни восторгаются такой простой возможностью познакомиться с природой поближе, другие утверждают, что правильно определить растение или животное с помощью этой технологии невозможно. Кто прав? Разбираемся, как устроены такие приложения и что у них под капотом.
Мы уже рассказывали о проекте iNaturalist — социальной сети для любителей природы, где каждый пользователь может загружать свои изображения, а эксперты определяют видовую принадлежность объекта. На данный момент на платформу загружено 10 880 718 фотонаблюдений растений, для которых эксперты определили видовую принадлежность.
На этой же платформе работает интерфейс автоматического распознавания видов. Фотографии, на которых растения уже определены, используются для обучения нейросетей, которые распознают виды.
В основе технологии распознавания объектов лежат механизмы компьютерного зрения, которые успешно применяются в разных областях — от машин-беспилотников до диагностики рака. Подробнее об этой технологии можно почитать в другой нашей статье.
Как работает распознавание растений в приложении iNaturalist
Алгоритмы конкретно для iNaturalist разработаны в 2017 году и периодически обновляются. Система по ряду параметров запоминает, какое фото к какой категории — к какому виду — относится. После того как пользователь загрузит фотографию, начинается ее анализ и сравнение полученных параметров с базой уже имеющихся фотографий.
Более 10 миллионов изображений — цифра внушительная и вроде бы достаточная для качественного обучения нейросети. Однако, посмотрев на структуру этих данных поближе, мы увидим, что они крайне неоднородны.
Есть широко распространенные виды с десятками тысяч фотографий со всего мира. Если на загруженном пользователем изображении широко распространенный вид, и в базе уже много его фотографий, то нейросеть с большей вероятностью его верно распознает.
А если вид редкий, да еще сфотографирован с необычного ракурса, то более вероятны ошибки со стороны системы. Есть огромный блок видов, для которых в базе не наберется и пяти фотографий. Причины могут быть разными: произрастание этих видов в труднодоступных местах, малая численность, сложность идентификации даже для специалистов. И по таким видам для обучения алгоритмов материала оказывается очень мало, ведь нейросеть — это не человек-эксперт. Она анализирует заданные параметры и имеет только тот опыт, который мы туда заложили.
Дополнительную сложность для алгоритмов дает фон, на котором сняты растения. Он бывает очень разным: это может быть и небо, и другие травы, и камни, и человеческие руки. Случаи, когда растение на фото почти сливается с другими травами, для распознавания особенно сложны. Многое зависит и от качества изображения: если все смазано и от цветка лишь кусок — такое растение даже опытный профессор не факт, что определит.
https://sysblok.ru/knowhow/kak-nejroset-uznaet-rastenija-i-pochemu-ona-oshibaetsja/
Ксения Дудова
#knowhow #biology
Автоматические определители живых организмов стали привычными приложениями на смартфонах любителей природы: достаточно просто навести камеру на растение или животное, чтобы определить, что это.
Любители природы разделились на два лагеря. Одни восторгаются такой простой возможностью познакомиться с природой поближе, другие утверждают, что правильно определить растение или животное с помощью этой технологии невозможно. Кто прав? Разбираемся, как устроены такие приложения и что у них под капотом.
Мы уже рассказывали о проекте iNaturalist — социальной сети для любителей природы, где каждый пользователь может загружать свои изображения, а эксперты определяют видовую принадлежность объекта. На данный момент на платформу загружено 10 880 718 фотонаблюдений растений, для которых эксперты определили видовую принадлежность.
На этой же платформе работает интерфейс автоматического распознавания видов. Фотографии, на которых растения уже определены, используются для обучения нейросетей, которые распознают виды.
В основе технологии распознавания объектов лежат механизмы компьютерного зрения, которые успешно применяются в разных областях — от машин-беспилотников до диагностики рака. Подробнее об этой технологии можно почитать в другой нашей статье.
Как работает распознавание растений в приложении iNaturalist
Алгоритмы конкретно для iNaturalist разработаны в 2017 году и периодически обновляются. Система по ряду параметров запоминает, какое фото к какой категории — к какому виду — относится. После того как пользователь загрузит фотографию, начинается ее анализ и сравнение полученных параметров с базой уже имеющихся фотографий.
Более 10 миллионов изображений — цифра внушительная и вроде бы достаточная для качественного обучения нейросети. Однако, посмотрев на структуру этих данных поближе, мы увидим, что они крайне неоднородны.
Есть широко распространенные виды с десятками тысяч фотографий со всего мира. Если на загруженном пользователем изображении широко распространенный вид, и в базе уже много его фотографий, то нейросеть с большей вероятностью его верно распознает.
А если вид редкий, да еще сфотографирован с необычного ракурса, то более вероятны ошибки со стороны системы. Есть огромный блок видов, для которых в базе не наберется и пяти фотографий. Причины могут быть разными: произрастание этих видов в труднодоступных местах, малая численность, сложность идентификации даже для специалистов. И по таким видам для обучения алгоритмов материала оказывается очень мало, ведь нейросеть — это не человек-эксперт. Она анализирует заданные параметры и имеет только тот опыт, который мы туда заложили.
Дополнительную сложность для алгоритмов дает фон, на котором сняты растения. Он бывает очень разным: это может быть и небо, и другие травы, и камни, и человеческие руки. Случаи, когда растение на фото почти сливается с другими травами, для распознавания особенно сложны. Многое зависит и от качества изображения: если все смазано и от цветка лишь кусок — такое растение даже опытный профессор не факт, что определит.
https://sysblok.ru/knowhow/kak-nejroset-uznaet-rastenija-i-pochemu-ona-oshibaetsja/
Ксения Дудова