18:50 11.04.19 1.2 IT

Обучающая выборка крупных датасетов с изображениями частично совпала с тестовой

Елизавета Ивтушок

Немецкие разработчики проанализировали CIFAR-10 и CIFAR-100 — одни из крупнейших датасетов для обучения алгоритмов компьютерного зрения — и обнаружили в них пересечения тренировочной выборки и тестовых примеров. В CIFAR-10 таких дубликатов оказалось 3,3 процента, а в CIFAR-100 — 10 процентов, сообщается в препринте, опубликованном на arXiv.org.

При обучении алгоритмов распознавания изображений и других систем компьютерного зрения используются два типа выборок: тренировочная (обучающая) и тестовая. По первой выборке происходит настройка параметров работы системы (обучение), а вторая используется для оценки качества работы построенной модели. При создании датасетов, данные из которых попадут в ту или иную выборку, необходимо следить за тем, чтобы изображения в выборках не пересекались: использование одинаковых изображений в тренировочной выборке и тестовых примерах помешает оценить качество работы модели.

Разумеется, в первую очередь это должны учитывать создатели крупных датасетов, публикуемых в открытом доступе, таких, например, как датасеты CIFAR, собранные исследователями из Канадского института передовых технологий: суммарно две версии датасета насчитывают около 80 миллионов изображений (в CIFAR-10 они подразделены на 10 категорий, а в CIFAR-100 — на 100), они используются разработчиками уже почти 10 лет. Бьорн Барц (Björn Barz) и Йоким Денцлер (Joachim Denzler) из Йенского университета имени Фридриха Шиллера проанализировали датасеты CIFAR с помощью сверточной нейросети. Для каждого изображения в тренировочной и тестовой выборке они нашли ближайших соседей — этот метод позволил выделить изображения, которые полностью или частично совпадают в двух выборках.

Оказалось, что тестовая выборка CIFAR-10 совпадает с тренировочной на 3,3 процента, а для CIFAR-100 этот показатель достигает 10 процентов. Помимо одних и тех же изображений исследователи обнаружили и те, которые отличаются друг от друга мелкими деталями (например, цветом), а также изображения других, но очень похожих предметов.

С помощью того же алгоритма разработчики заменили дубликаты в тестовой выборке на изображения, подпадающие под те же категории, но из другого датасета. Полученные базы данных они выложили в открытый доступ (их датасет получил название ciFAIR), а также дополнили моделями, которые были предварительно на них натренированы.

В качества примера моделей, успешно обученных на CIFAR, можно вспомнить недавнюю разработку исследователей из MIT: в 2017 году они создали способ обмана систем классификации изображений, который работает даже на алгоритмах с закрытым исходным кодом.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

18:00 23.07.25 4.1 IT Лингвистика История

Модель Aeneas поможет реконструировать латинские надписи

Ее обучили почти на 177 тысячах эпиграфических памятников

Михаил Подрезов

Исследователи из Google DeepMind и их коллеги представили мультимодальную генеративную модель «Aeneas», созданную для работы с эпиграфическими памятниками, которые сделаны на латинском языке. Ученые обучили модель почти на 177 тысячах надписей, относящихся к VII веку до нашей эры — VIII веку нашей эры. Эксперименты, проведенные с новым инструментом, показали, что он выступает хорошим помощником для лингвистов и историков, позволяя быстрее и качественнее определять время и место создания надписи, а также реконструировать недостающие части первоначального текста. Статью, посвященную разработке, опубликовали в журнале Nature.