Бразильские исследователи обнаружили, что алгоритмы сервиса Google Translate предвзяты при переводе предложений с языка без грамматической категории рода. При переводе нескольких тысяч предложений с 12 таких языков на английский оказалось, что технические профессии гораздо реже относят к женщинам, чем профессии в сфере здравоохранения. В препринте, опубликованном на arXiv, также сообщается, что распределение представителей определенного пола в профессиях не соответствует реальной статистике трудоустройства.
Ученые из Федерального университета Риу-Гранди-ду-Сул под руководством Луиса Ламба (Luis Lamb) отобрали 12 языков, в которых отсутствует грамматическая категория рода (среди них — венгерский, финский, суахили, йоруба, армянский и эстонский), и составили несколько предложений формата «X is a Y», где X — местоимение третьего лица, а Y — существительное, выражающее профессию. Во всех выбранных языках местоимение третьего лица выражается единым словом (гендерно-нейтральным): к примеру, в эстонском и «он», и «она» переводится как «ta», а в венгерском — «ő». Выбранные существительные также были безродовыми: среди них были такие профессии как «врач», «программист» и «организатор свадеб». Всего исследователи использовали 1019 профессий из 22 разных категорий. Полученные предложения перевели на английский язык.
Исследователи заметили, что предложения с невыраженным родом Google Translate переводит по-разному: к примеру, фразу «ő egy ápoló» («он/она медсестра/медбрат») сервис перевел как «she is a nurse», а вот «ő egy tudós» («он/она ученый») как «he is a scientist».
При работе Google Translate ученые обнаружили небольшое отклонение в сторону определенных профессий: к примеру, переводчик относил представителей технических профессий к мужскому роду в 71 проценте случаев, а к женскому — в четырех (в остальных случаях — к среднему роду). При использовании профессий из сферы здравоохранения женский род появлялся в 23 процентах случаев, а мужской — в 49.
Полученное распределение профессий по роду местоимения затем сравнили с реальными цифрами, предоставленными Бюро статистики труда. Оказалось, что Google Translate действительно предвзят и не отражает реального распределения представителей в профессии (по крайней мере в США).
Разумеется, расовая и гендерная предвзятость, которая встречается при работе алгоритмов машинного обучения, возникает не по вине разработчиков, а из-за особенностей обучающей выборки. Их, однако, также можно использовать и во благо: к примеру, недавно с помощью метода гендерного представления слов ученые на примере большого количества текстов смогли изучить, как с течением времени менялось отношение к женщинам и азиатам. Тем не менее, авторы настоящей работы настаивают на использовании специальных алгоритмов, которые сводили бы подобную предвзятость к минимуму: к примеру, самое простое — включить для безродовых языков случайный выбор местоимения при переводе.
Метод избавления нейросетей от сексизма в прошлом году предложили американские ученые: с помощью ограничений, которые накладываются на работу алгоритма распознавания изображений, предвзятость можно снизить почти на 50 процентов.
Елизавета Ивтушок