Немецкие разработчики проанализировали CIFAR-10 и CIFAR-100 — одни из крупнейших датасетов для обучения алгоритмов компьютерного зрения — и обнаружили в них пересечения тренировочной выборки и тестовых примеров. В CIFAR-10 таких дубликатов оказалось 3,3 процента, а в CIFAR-100 — 10 процентов, сообщается в препринте, опубликованном на arXiv.org.
При обучении алгоритмов распознавания изображений и других систем компьютерного зрения используются два типа выборок: тренировочная (обучающая) и тестовая. По первой выборке происходит настройка параметров работы системы (обучение), а вторая используется для оценки качества работы построенной модели. При создании датасетов, данные из которых попадут в ту или иную выборку, необходимо следить за тем, чтобы изображения в выборках не пересекались: использование одинаковых изображений в тренировочной выборке и тестовых примерах помешает оценить качество работы модели.
Разумеется, в первую очередь это должны учитывать создатели крупных датасетов, публикуемых в открытом доступе, таких, например, как датасеты CIFAR, собранные исследователями из Канадского института передовых технологий: суммарно две версии датасета насчитывают около 80 миллионов изображений (в CIFAR-10 они подразделены на 10 категорий, а в CIFAR-100 — на 100), они используются разработчиками уже почти 10 лет. Бьорн Барц (Björn Barz) и Йоким Денцлер (Joachim Denzler) из Йенского университета имени Фридриха Шиллера проанализировали датасеты CIFAR с помощью сверточной нейросети. Для каждого изображения в тренировочной и тестовой выборке они нашли ближайших соседей — этот метод позволил выделить изображения, которые полностью или частично совпадают в двух выборках.
Оказалось, что тестовая выборка CIFAR-10 совпадает с тренировочной на 3,3 процента, а для CIFAR-100 этот показатель достигает 10 процентов. Помимо одних и тех же изображений исследователи обнаружили и те, которые отличаются друг от друга мелкими деталями (например, цветом), а также изображения других, но очень похожих предметов.
С помощью того же алгоритма разработчики заменили дубликаты в тестовой выборке на изображения, подпадающие под те же категории, но из другого датасета. Полученные базы данных они выложили в открытый доступ (их датасет получил название ciFAIR), а также дополнили моделями, которые были предварительно на них натренированы.
В качества примера моделей, успешно обученных на CIFAR, можно вспомнить недавнюю разработку исследователей из MIT: в 2017 году они создали способ обмана систем классификации изображений, который работает даже на алгоритмах с закрытым исходным кодом.
Елизавета Ивтушок
Это лучший результат с 2019 года
Все участники российской команды получили золотые медали на 35-й Международной олимпиаде по информатике (IOI) в Венгрии. Как сообщается на сайте Московского физико-технического института, в состав российской сборной вошли Гимран Абдуллин и Валерий Родионов из Казани и Иван Пискарев и Антон Степанов из Москвы. Возглавляли команду доцент факультета информационных технологий и программирования Университета ИТМО Андрей Станкевич и руководитель Центра развития IT-образования Московского физико-технического института Алексей Малеев. Это лучший результат российской сборной с 2019 года, когда также все участники получили золотые медали. Олимпиада проходила с 28 августа по 4 сентября и включала в себя два тура по пять часов, в течение которых нужно решить и запрограммировать три алгоритмические задачи. В прошлом году российская команда завоевала три золотые и одну серебряную медали.