Американские исследователи разработали метод, который, по их мнению, поможет избавить автоматическое распознавание изображений от предвзятого отношения к полу. Их алгоритм работает при помощи ограничений, которые накладываются на работу нейросети, и может снижать «сексизм» на 47,5 процентов. Статья доступна для прочтения на сайте Вашингтонского университета.
Автоматическое распознавание изображений с последующей языковой разметкой используется во многих технологиях, включая современные смартфоны. У всех систем компьютерного зрения, однако, есть существенный недостаток: обучаясь на определенной, часто ограниченной, выборке изображений, нейросеть может работать некорректно и предвзято в отношении отдельных представителей общества.
Авторы новой работы проверили работу двух алгоритмов: MLC, который размечает объекты изображения, и vSRL, который приписывает объектам изображения их семантические роли и действия. Результаты работы этих двух нейросетей показали, что 45 процентов всех действий и 37 процентов объектов при распознавании смещаются в сторону какого-либо пола сильнее, чем в два раза. Проанализировав используемые при обучении базы данных изображений, исследователи выяснили, что в imSitu, которая используется при обучении vSRL, количество изображений с готовящими женщинами в два раза превосходит количество изображений с мужчинами в такой же ситуации. Это приводит к тому, что только 16 процентам всех изображений с готовящими людьми приписывается агенс-мужчина. Из-за такого смещения в сторону одного пола нейросеть может работать некорректно.
Для решения этой проблемы исследователи разработали алгоритм, избавляющий искусственный интеллект от «гендерных предубеждений» при распознавании изображений. Этот алгоритм основывается на ограничении, в соответствии с которым объекты и действия на изображениях в тренировочной выборке соотносятся с субъектом определенного пола не чаще, чем в обучающей выборке. То есть, если количество изображений мужчин на кухне в обучающей выборке равно количеству изображений женщин на кухне, то к действию «готовить» или предмету «ложка» нейросеть должна приписывать мужчину так же часто, как и женщину.
Алгоритм работает при помощи метода ограниченной оптимизации. Сначала алгоритм рассчитывает смещение в сторону одного из полов, основываясь на распределении объектов одного пола в обучающей выборке и таком же распределении в результатах его работы. Если смещение существует, то алгоритм накладывает соответствующие ограничения на его работу. В результате исследователям удалось уменьшить предвзятость в отношении пола в работе нейросети, которая размечает семантические роли, на 40,5 процентов, а нейросети, которая размечает объекты на фотографии — на 47,5 процентов.
Авторы работы утверждают, что их алгоритм способен существенно уменьшить предвзятость по отношению к полу, которая может проявляться в работе нейросети, обученной на определенной выборке. Алгоритм ограничения при этом не снижает точность распознавания изображений.
Разработчики систем компьютерного зрения используют и другие методы оптимизации работы своих алгоритмов. Так, в нашей заметке вы можете узнать о том, как исследователи решили проблему некорректного распознавания фотографий лиц, прикрытых рукой.
Елизавета Ивтушок
Что такое опенсорс и почему он важен для IT-индустрии
Наверняка вам доводилось слышать выражение «опенсорс». Может быть, вы даже понимаете, что под этим термином скрывается «программное обеспечение с открытым исходным кодом». Но какие возможности такая открытость дает разработчикам и почему может быть выгодна обыкновенным пользователям? Рассказываем о разработке и значимости опенсорс-проектов.