Обучающая выборка крупных датасетов с изображениями частично совпала с тестовой

Немецкие разработчики проанализировали CIFAR-10 и CIFAR-100 — одни из крупнейших датасетов для обучения алгоритмов компьютерного зрения — и обнаружили в них пересечения тренировочной выборки и тестовых примеров. В CIFAR-10 таких дубликатов оказалось 3,3 процента, а в CIFAR-100 — 10 процентов, сообщается в препринте, опубликованном на arXiv.org.

При обучении алгоритмов распознавания изображений и других систем компьютерного зрения используются два типа выборок: тренировочная (обучающая) и тестовая. По первой выборке происходит настройка параметров работы системы (обучение), а вторая используется для оценки качества работы построенной модели. При создании датасетов, данные из которых попадут в ту или иную выборку, необходимо следить за тем, чтобы изображения в выборках не пересекались: использование одинаковых изображений в тренировочной выборке и тестовых примерах помешает оценить качество работы модели.

Разумеется, в первую очередь это должны учитывать создатели крупных датасетов, публикуемых в открытом доступе, таких, например, как датасеты CIFAR, собранные исследователями из Канадского института передовых технологий: суммарно две версии датасета насчитывают около 80 миллионов изображений (в CIFAR-10 они подразделены на 10 категорий, а в CIFAR-100 — на 100), они используются разработчиками уже почти 10 лет. Бьорн Барц (Björn Barz) и Йоким Денцлер (Joachim Denzler) из Йенского университета имени Фридриха Шиллера проанализировали датасеты CIFAR с помощью сверточной нейросети. Для каждого изображения в тренировочной и тестовой выборке они нашли ближайших соседей — этот метод позволил выделить изображения, которые полностью или частично совпадают в двух выборках.

Оказалось, что тестовая выборка CIFAR-10 совпадает с тренировочной на 3,3 процента, а для CIFAR-100 этот показатель достигает 10 процентов. Помимо одних и тех же изображений исследователи обнаружили и те, которые отличаются друг от друга мелкими деталями (например, цветом), а также изображения других, но очень похожих предметов.

С помощью того же алгоритма разработчики заменили дубликаты в тестовой выборке на изображения, подпадающие под те же категории, но из другого датасета. Полученные базы данных они выложили в открытый доступ (их датасет получил название ciFAIR), а также дополнили моделями, которые были предварительно на них натренированы.

В качества примера моделей, успешно обученных на CIFAR, можно вспомнить недавнюю разработку исследователей из MIT: в 2017 году они создали способ обмана систем классификации изображений, который работает даже на алгоритмах с закрытым исходным кодом.

Елизавета Ивтушок