Функционирует при финансовой поддержке Федерального агентства по печати и массовым коммуникациям (Роспечать)

Нейросеть отучилась от предвзятости саморегуляцией выборки

Alexander Amini et al. / MIT, 2019

Американские разработчики представили алгоритм, который избавляет распознавание лиц от предвзятости. Для этого они добавили к сверточной нейросети, распознающей изображения людей, нейросеть-автокодировщик, которая следит за тем, как хорошо распознаются те или иные объекты, и меняет на основе этого обучающую выборку. Ученым удалось снизить предвзятость использованных в выборке данных с 28 до 9 процентов, при этом точность распознавания выросла. Результаты работы исследователи представят на конференции AIES 2019, которая сейчас проходит в Гонолулу; также доступен препринт статьи.

Одна из проблем, которая до сих пор существует в области машинного обучения, — это часто возникающая предвзятость алгоритмов: из-за особенностей собранных выборок, в которых часто недостает тех или иных данных, результаты их работы могут быть, например, выраженно сексистскими или расистскими. Бороться с такой предвзятостью предлагают по-разному: собирая более разнообразные данные (что может быть очень затратно и также предвзято, учитывая, что разметка таких данных часто проводится людьми) или же оптимизируя работу алгоритмов. 

Исследователи из Массачусетского технологического института под руководством Александра Амини (Alexander Amini) предложили новый способ избавления датасетов, содержащих лица людей, от предвзятости. Они решили добавить «выравнивание» выборки прямо в алгоритм глубокого обучения, который направлен на решение определенной задачи, например, на распознавание лица. Для этого они добавили к алгоритму нейросеть-автокодировщик, задача которой — подробно изучить распределение данных в обучающей выборке, анализируя результаты работы основной нейросети, которая определяет лица. К примеру, если в основе алгоритма распознавания лица находится бинарный классификатор, который определяет наличие волос на голове человека, и плохо распознает лысых людей, нейросеть-автокодировщик, которая избавляет его от предвзятости, получает сигнал о том, что для обучения ему нужно взять из выборки больше изображений лысых людей. Всего ученые использовали четыре параметра «настройки» используемых данных: они попытались избавить алгоритм от предвзятости в вопросах цвета кожи, пола человека, количества волос у него на голове и поворота головы.

Ученые взяли 400 тысяч изображений лиц: 80 процентов были взяты для обучения, а 20 процентов — для тренировки. В качестве основы алгоритма распознавания лиц была взята сверточная нейросеть. Ученые отметили, что в процессе обучения вероятность получения четырех случайных изображений, которые бы сильно отличались друг от друга, возрастала. Как утверждают сами авторы работы, им удалось снизить предвзятость работы алгоритма в вопросах использования данных из выборки с 28 до 9 процентов, при этом точность распознавания увеличилась с 95 до 97 процентов.

Авторы работы отметили, что та часть алгоритма, которая отвечала за избавление выборки от предвзятости, обучалась без учителя. По их мнению, такой способ может помочь системам компьютерного зрения использовать более взвешенные выборки, в конечном итоге избавляя алгоритмы от возможных проявлений дискриминации.

Иногда предвзятость больших данных становится и объектом исследования. Например, в прошлом году ученые использовали большое количество текстов, опубликованных в течение XX века, чтобы проследить за тем, как со временем менялось отношение к женщинам и азиатам.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.