Корейские ученые научили трехмерную систему сопровождать речь жестами, использовав 52 часа записи выступлений спикеров на TED Talks. С помощью открытого алгоритма разметки позы OpenPose и рекуррентной нейросети им удалось научить систему сопровождать синтезированную речь правдоподобными жестами, а также использовать ее для управления говорящим гуманоидным роботом. Препринт статьи с описанием работы алгоритма опубликован на arXiv.org.
Помимо производства и обработки речи для эффективного общения с людьми роботы должны уметь пользоваться и невербальными средствами коммуникации. Одно из таких средств — выражение эмоций, и в них роботы уже преуспели: в этом году американские инженеры сконструировали робота, который умеет выражать эмоции не только с помощью изменяющегося на экране изображения, но также и используя специальные шипы, имитирующие мурашки на человеческой коже.
Другое полезное для роботов средство невербальной коммуникации — жесты. Научить им роботов решили корейские ученые из Научно-исследовательского института электроники и телекоммуникаций (ETRI) и Корейского института передовых технологий (KAIST) под руководством Янгву Юна (Youngwoo Yoon). Они собрали датасет из 52 часов записей выступлений спикеров на конференциях TED Talks. Жесты людей на видео были размечены с помощью открытого алгоритма OpenPose (использовались только движения головы, торса и рук) и соотнесены с отдельными акцентными словами фраз с помощью рекуррентной нейросети. В итоге получилась система, которая воспроизводит положение тела в трехмерном пространстве в соответствии с синтезированной речью.
Затем ученые попросили 46 человек оценить по шкале от 1 до 5, насколько производимые жесты, сопровождающие речь, антропоморфны, соответствуют сказанному и приятны на вид. Добровольцы оценивали движения созданных в OpenSpace «палочек» без видимого объекта: ученые использовали для сравнения пример из датасета (ground truth), пример, полученный с помощью разработанного алгоритма, случайно подобранные движения, движения, настроенные вручную, а также движения, полученные с помощью расчета ближайших соседей из датасета. Созданные алгоритмом жесты превзошли по всем параметрам все остальные методы, кроме ground truth.
Полученную систему использовали в настоящем гуманоидном роботе NAO (он часто используется в исследованиях взаимодействия роботов с людьми): авторы работы утверждают, что роботу удалось успешно воспроизвести заданные ему комбинации движений.
Разработчики отмечают, что использование в качестве данных для обучения видеозаписи выступлений на TED Talks позволило им убедиться в том, что производимые жесты проработаны и хорошо соответствуют речи. Тем не менее, следует учитывать то, что подобные лекции читают профессиональные спикеры, поэтому данные могут разниться с теми жестами, которые используются людьми в повседневной речи. Это, однако, уже вопрос дальнейшей обработки невербальных средств коммуникации самим роботом.
Похожий на OpenPose алгоритм PoseNet недавно использовали для создания своеобразного зеркала: оценивая позу человека во время движения ученые научили нейросеть искать и показывать снимки других людей в точно такой же позе.
Елизавета Ивтушок