Бразильские исследователи обнаружили, что алгоритмы сервиса Google Translate предвзяты при переводе предложений с языка без грамматической категории рода. При переводе нескольких тысяч предложений с 12 таких языков на английский оказалось, что технические профессии гораздо реже относят к женщинам, чем профессии в сфере здравоохранения. В препринте, опубликованном на arXiv, также сообщается, что распределение представителей определенного пола в профессиях не соответствует реальной статистике трудоустройства.
Ученые из Федерального университета Риу-Гранди-ду-Сул под руководством Луиса Ламба (Luis Lamb) отобрали 12 языков, в которых отсутствует грамматическая категория рода (среди них — венгерский, финский, суахили, йоруба, армянский и эстонский), и составили несколько предложений формата «X is a Y», где X — местоимение третьего лица, а Y — существительное, выражающее профессию. Во всех выбранных языках местоимение третьего лица выражается единым словом (гендерно-нейтральным): к примеру, в эстонском и «он», и «она» переводится как «ta», а в венгерском — «ő». Выбранные существительные также были безродовыми: среди них были такие профессии как «врач», «программист» и «организатор свадеб». Всего исследователи использовали 1019 профессий из 22 разных категорий. Полученные предложения перевели на английский язык.
Исследователи заметили, что предложения с невыраженным родом Google Translate переводит по-разному: к примеру, фразу «ő egy ápoló» («он/она медсестра/медбрат») сервис перевел как «she is a nurse», а вот «ő egy tudós» («он/она ученый») как «he is a scientist».
При работе Google Translate ученые обнаружили небольшое отклонение в сторону определенных профессий: к примеру, переводчик относил представителей технических профессий к мужскому роду в 71 проценте случаев, а к женскому — в четырех (в остальных случаях — к среднему роду). При использовании профессий из сферы здравоохранения женский род появлялся в 23 процентах случаев, а мужской — в 49.
Полученное распределение профессий по роду местоимения затем сравнили с реальными цифрами, предоставленными Бюро статистики труда. Оказалось, что Google Translate действительно предвзят и не отражает реального распределения представителей в профессии (по крайней мере в США).
Разумеется, расовая и гендерная предвзятость, которая встречается при работе алгоритмов машинного обучения, возникает не по вине разработчиков, а из-за особенностей обучающей выборки. Их, однако, также можно использовать и во благо: к примеру, недавно с помощью метода гендерного представления слов ученые на примере большого количества текстов смогли изучить, как с течением времени менялось отношение к женщинам и азиатам. Тем не менее, авторы настоящей работы настаивают на использовании специальных алгоритмов, которые сводили бы подобную предвзятость к минимуму: к примеру, самое простое — включить для безродовых языков случайный выбор местоимения при переводе.
Метод избавления нейросетей от сексизма в прошлом году предложили американские ученые: с помощью ограничений, которые накладываются на работу алгоритма распознавания изображений, предвзятость можно снизить почти на 50 процентов.
Елизавета Ивтушок
Для этого физикам потребовалось четыре сверхпроводящих кубита
Российские ученые создали первую отечественную квантовую нейросеть на основе сверхпроводящих кубитов. Они применили к цепочке из четырех кубитов алгоритм глубокого машинного обучения с учителем, благодаря чему добились распознавания рукописного текста, а также решили три задачи классификации: определение четности, обнаружение меток рака молочной железы и определение марки вина. Исследование представлено в рамках VI Международной школы по квантовым технологиям, состоявшейся в начале марта 2023 года в Миассе, кратко о нем сообщает пресс-релиз и постер с докладом, поступившие в редакцию.