Системы распознавания речи хуже справились с речью афроамериканцев

Алиса Бахарева

Ученые выяснили, что системы распознавания речи крупнейших компаний обрабатывают речь темнокожих американцев хуже, чем светлокожих, а мужчин-афроамериканцев хуже, чем женщин. Это связано с особенностями афроамериканского английского языка: алгоритмы хуже настроены на понимание особенностей произношения и интонации этого диалекта, считают авторы работы. Статья опубликована в журнале Proceedings of the National Academy of Sciences.
Системы распознавания речи должны быть доступными и универсальными. Для этого необходимо обучать алгоритмы на образцах речи людей всех популяции в равной мере, однако это не всегда удается, и любые виды дискриминации, которые возникают в результате неравномерности исходных данных, становятся заметными, а иногда и опасными. Так, некоторые исследователи отмечают расовое неравенство в системах распознавания лиц, оценки риска в уголовном правосудии, рекламы в интернете. Существуют подозрения и о расовой дискриминации в распознавании речи, так как для каждого языка существует множество диалектов и акцентов, которые влияют на качество распознавания.

Эллисон Коенеке (Allison Koenecke) из Стэнфордского университета и ее коллеги оценили расовое неравенство в системах распознавания речи пяти компаний: Amazon, Apple, Google, IBM и Microsoft. Для этого алгоритмы применили к образцам речи из обширных сборников интервью темнокожих и светлокожих американцев. Текст, который получили в результате автоматического распознавания, сравнили с расшифровкой экспертов и подсчитали частоту ошибок.

Ученые оценили, насколько уровень ошибок распознавания связан с диалектом говорящих. В образцах речи подсчитали частоту встречаемости фонетических и грамматических особенностей афроамериканской разновидности английского языка.

Чтобы понять, в чем причина расового неравенства, проверили две гипотезы. Первая — что алгоритмы распознавания речи настроены на лексику и грамматику стандартного английского и хуже узнают характерные афроамериканские конструкции. Авторы работы оценили количество слов, которые встречались в образцах речи, но отсутствовали в словарях алгоритмов, а затем сравнили уровень сложности языка говорящих разных рас. Системы распознавания речи предсказывают каждое следующее слово в предложении, и чем неожиданнее для них будет фраза, тем меньше вероятность, что алгоритм правильно запишет ее.

Вторая гипотеза — что проблема заключается в акустической чувствительности программ: алгоритм знает слова и лексические конструкции, но не может расслышать их. Чтобы проверить это предположение, ученые сравнили точность распознавания одинаковых предложений, которые произносили люди разных рас.

Частота ошибок в распознавании речи афроамериканцев была в среднем вдвое выше, чем светлокожих. Больше это касалось черных мужчин (41 процент неправильно распознанных слов), чем женщин 30 процентов). На графике распределения средней частоты ошибок различие выражено сильнее: у 25 процентов афроамериканцев уровень неточностей был выше 50 процентов. Меньше двух процентов образцов речи белых американцев были распознаны с такой частотой ошибок.

Частота ошибок коррелировала с тем, насколько был выражен диалект говорящего — чем больше особенностей афроамериканского английского было в речи, тем хуже алгоритмы распознавали ее. Это объясняет и различие между темнокожими мужчинами и женщинами: последние в среднем говорили на языке, которые более приближен к стандартному английскому.

Количество слов, которых не было в словарном запасе алгоритмов, не отличалось значительно в речи американцев разных рас, а уровень сложности предсказания следующего слова для языка афроамериканцев был даже ниже. Значит, лексико-грамматические настройки систем распознавания речи — не причина расового неравенства. Зато одинаковые фразы алгоритм понимал почти в два раза хуже у темнокожих, чем у светлокожих американцев. Причина различий в качестве распознавания речи в том, что у людей разных этнических групп отличается произношение и интонация даже для одних и тех же фраз.

Современные технологии часто оказываются в центре споров о политкорректности. Так, ученые заметили, что в темного робота люди стреляют решительнее, чем в светлого, а алгоритмы машинного обучения перенимают от людей шовинистические наклонности.

Алиса Бахарева