Американские разработчики проверили работу восьми алгоритмов компьютерного зрения, используемых для определения объектов на изображениях, и выяснили, что они хуже распознают людей с темной кожей: в среднем на пять процентов. Препринт статьи опубликован на arXiv.org.
То, что нейросети и прочие алгоритмы машинного обучения отличаются предвзятостью, демонстрируют довольно часто. Причем это вина не разработчиков, а тех датасетов, которые они используют для обучения и тестирования своих моделей: они не отличаются разнообразием и, к примеру, в них часто больше светлокожих людей, чем темнокожих.
Такая проблема заметна при использовании алгоритма на практике: например, стоит вспомнить историю с алгоритмами Google, которые распознали двух темнокожих людей как горилл. При этом один случай, пусть и может вызвать скандал, не означает, что алгоритм всегда ошибается: несмотря на высокую точность работы многих нейросетей, они в принципе не могут быть безупречны — всегда остается шанс на погрешность. Предвзятость алгоритмов, поэтому, необходимо оценивать эмпирически, чтобы точно исключить влияние всех возможных побочных переменных.
Этим решили заняться исследователи из Технологического института Джорджии под руководством Бенджамина Уилсона (Benjamin Wilson). Они отобрали изображения пешеходов, которые используются для обучения алгоритмов компьютерного зрения, работающие, к примеру, в беспилотных автомобилях. Добровольцев попросили разметить людей на изображениях и присвоить им номер от 1 до 6 по шкале фототипов кожи Фитцпатрика.
Ученые выяснили, что все восемь алгоритмов хуже справляются с определением на изображениях пешеходов с более темной кожей (от 4 до 6 по шкале Фитцпатрика) — в среднем на пять процентов. При этом на разницу в точности не повлияло темное время суток или объекты, частично заслоняющие пешехода.
Разработчики считают, что причина плохого распознавания людей с более темной кожей может быть не только в том, что их недостаточно в выборке, но также и в том, что сам алгоритм может быть не настроен на то, что каких-то данных в обучающей выборке может быть недостаточно. В целом, проведенная работа показывает важность предварительного тестирования нейросетей и настройку их параметров в зависимости от выборки. Как отмечает в заголовке своей заметки MIT Technology Review, такая предвзятость может быть опасной в вопросах использования алгоритмов компьютерного зрения в беспилотных автомобилях: если система обнаруживает темнокожего человека с меньшей вероятностью, то она с большей вероятностью его собьет.
Один из способов бороться с предвзятостью подобных алгоритмов недавно предложили исследователи из Массачусетского технологического института: они добавили к сверточной нейросети нейросеть-автокодировщик, которая отмечает трудности распознавания отдельных особенностей в процессе работы и на основе этого регулирует обучающую выборку.
Елизавета Ивтушок