Американские разработчики представили iNat2017 — датасет для распознавания отдельных видов животных и растений, состоящих из 859 тысяч фотографий, сделанных любителями с помощью приложения iNaturalist. Обученная с помощью такого датасета нейросеть умеет распознавать как отдельные виды, так и более высокие иерархические ранги. Точность распознавания отдельных видов, как сообщается в статье, опубликованной на сайте IEEE Explore, пока что не превышает 67 процентов.
Современные компьютерные алгоритмы достаточно продвинуты в области распознавания изображений и идентификации отдельных объектов на них: к примеру, весной прошлого года появилось приложение, которые умеет распознавать произведения искусства. Качество работы подобных систем напрямую зависит от разнообразия и величины обучающей и тестовой выборки: к примеру, система распознавания лиц в местах общего пользования сможет узнавать только тех людей, изображения которых она уже видела.
Разработка приложения, которое позволило бы распознавать все биологические объекты, поэтому, — задача непростая, но очень полезная. Разработчики из Калифорнийского технического института, Google и Технологического колледжа Корнеллского университета под руководством Гранта ван Хорна (Grant Van Horn) воспользовались помощью натуралистов-любителей — пользователей приложения iNaturalist, которое позволяет делать фотографии различных живых организмов и рассказывать о них. Для каждой фотографии в приложении есть текстовое описание с названием вида и других рангов иерархической классификации (класс, надкласс и так далее). Для того, чтобы повысить качество распознавания, ученые включили только те виды, фотографий которых было как минимум 20. Итого датасет состоит из 859 тысяч изображений более 5 тысяч видов животных и растений. Каждый объект на изображениях был вручную отмечен рамочкой.
Часть датасета использовали для обучения известных алгоритмов глубокого обучения, используемых для распознавания объектов: в частности, например, ResNet, одна из архитектур которой недавно научила компьютер предсказывать поведение собаки. Друга часть датасета была использована в качестве тестовой выборки. В зависимости от выбранного алгоритма и надкласса особи точность распознавания достигала 92 процентов; средняя точность распознавания, однако, не превышала 60 процентов, а для распознавания отдельных видов точность не превышала 67 процентов.
Авторы датасета отмечают, что низкая точность распознавания с использованием iNat2017 — это его особенность. Все снимки собраны любителями: они не только достаточно низкого качества, но и сделаны на разном фоне и с разным освещением. Использование такого датасета для обучения систем автоматического распознавания особей в дальнейшем поможет идентифицировать их в похожих условиях — in situ.
Недавно исследователи из Калифорнийского института в Беркли представили DeepDrive — самый большой на сегодняшний день датасет с изображениями для обучения беспилотных автомобилей. Данные собрали из 100 тысяч видео, снятых автомобилями.
Елизавета Ивтушок
Кратко объясняем ключевые термины из области ИИ
Любую технологию, связанную с искусственным интеллектом, сегодня принято называть нейросетью. На самом деле это далеко не всегда корректно: например, GPT-4 — языковая модель на базе нейросети. Вместе с научно-исследовательским Институтом искусственного интеллекта AIRI мы подготовили материал, который поможет разобраться в том, какие технологии сегодня используют разработчики систем искусственного интеллекта, и на базовом уровне понять, как устроены последние достижения в этой области.