Исследователи из лаборатории искусственного интеллекта Facebook Research создали алгоритм, позволяющий роботам или анимированным компьютерным агентам использовать мимику в разговоре подобно людям, меняя выражение лица в зависимости от эмоций собеседника. Для этого разработчики натренировали нейросеть на сотнях роликов с общением людей в Skype. Работа будет представлена на конференции IROS 2017 в конце сентября, также доступна ее текстовая версия.
Несмотря на множество разработанных человекоподобных роботов, взаимодействие людей с ними все еще остается проблемой, в основном из-за нереалистичности как самих роботов, так и их эмоций. Существует даже понятие «зловещей долины», описывающее эту проблему. Этот эффект впервые подробно описал японский ученый Масахиро Мори. Он выдвинул предположение о том, что человекоподобные роботы начинают вызывать отторжение при достаточно высокой, но не идеальной схожести с людьми, причем для анимированных роботов этот эффект выражен более ярко. Подробнее об этом парадоксе можно узнать в нашем исследование.
Исследователи из Facebook решили научить компьютерные системы реалистичной мимике, являющейся одним из основных компонентов дискуссий между людьми. Основу системы составляет глубокая нейросеть, которую исследователи натренировали на 250 видеозаписях дискуссий в Skype, суммарное количество кадров в которых составило около восьми миллионов. Поскольку в роликах лица обоих собеседников одновременно находятся на экране, алгоритм мог наблюдать за тем, как люди меняют выражение лица в ответ на эмоции и реплики собеседника. Например, когда человек активно вовлечен в диалог, он может несильно кивать, слушая собеседника, или улыбнуться, когда собеседник смеется.
Алгоритм воспринимал одного собеседника из видео как пользователя, а второго как агента, и выделял на их лицах 68 ключевых точек, описывающих выражение лица с высокой точностью. После тренировки нейросеть пыталась предсказать поведения агента.
Разработчики решили проверить свой алгоритм с помощью добровольцев с платформы Amazon Mechanical Turk. Им показывали два ролика, в которых на одного и того же собеседника реагировал агент на основе нового алгоритма, и алгоритма-конкурента. Пользователей просили оценить степень вовлеченности в диалог и реалистичности мимики. В результате участники тестирования высоко оценили алгоритм исследователей, в одной из конфигураций участники предпочли его в 90 процентах случаев. Исследователи отмечают, что несмотря на высокие результаты, пока они использовали довольно мало факторов, и в дальнейшем они собираются учитывать больше данных в своем алгоритме.
В начале 2017 года шведские ученые опубликовали исследование, в котором выяснили, что люди в разговоре склонны перехватывать инициативу сообразно гендерно-возрастным ролям в обществе. Также они дали рекомендации разработчикам роботов-собеседников, которые позволят таким роботам исправлять такую ситуацию, учитывая демографические данные при выборе собеседника, нуждающегося в поддержке.
*Facebook принадлежит компании Meta, деятельность которой в России запрещена.
Григорий Копиев