Корейские ученые научили трехмерную систему сопровождать речь жестами, использовав 52 часа записи выступлений спикеров на TED Talks. С помощью открытого алгоритма разметки позы OpenPose и рекуррентной нейросети им удалось научить систему сопровождать синтезированную речь правдоподобными жестами, а также использовать ее для управления говорящим гуманоидным роботом. Препринт статьи с описанием работы алгоритма опубликован на arXiv.org.
Помимо производства и обработки речи для эффективного общения с людьми роботы должны уметь пользоваться и невербальными средствами коммуникации. Одно из таких средств — выражение эмоций, и в них роботы уже преуспели: в этом году американские инженеры сконструировали робота, который умеет выражать эмоции не только с помощью изменяющегося на экране изображения, но также и используя специальные шипы, имитирующие мурашки на человеческой коже.
Другое полезное для роботов средство невербальной коммуникации — жесты. Научить им роботов решили корейские ученые из Научно-исследовательского института электроники и телекоммуникаций (ETRI) и Корейского института передовых технологий (KAIST) под руководством Янгву Юна (Youngwoo Yoon). Они собрали датасет из 52 часов записей выступлений спикеров на конференциях TED Talks. Жесты людей на видео были размечены с помощью открытого алгоритма OpenPose (использовались только движения головы, торса и рук) и соотнесены с отдельными акцентными словами фраз с помощью рекуррентной нейросети. В итоге получилась система, которая воспроизводит положение тела в трехмерном пространстве в соответствии с синтезированной речью.
Затем ученые попросили 46 человек оценить по шкале от 1 до 5, насколько производимые жесты, сопровождающие речь, антропоморфны, соответствуют сказанному и приятны на вид. Добровольцы оценивали движения созданных в OpenSpace «палочек» без видимого объекта: ученые использовали для сравнения пример из датасета (ground truth), пример, полученный с помощью разработанного алгоритма, случайно подобранные движения, движения, настроенные вручную, а также движения, полученные с помощью расчета ближайших соседей из датасета. Созданные алгоритмом жесты превзошли по всем параметрам все остальные методы, кроме ground truth.
Полученную систему использовали в настоящем гуманоидном роботе NAO (он часто используется в исследованиях взаимодействия роботов с людьми): авторы работы утверждают, что роботу удалось успешно воспроизвести заданные ему комбинации движений.
Разработчики отмечают, что использование в качестве данных для обучения видеозаписи выступлений на TED Talks позволило им убедиться в том, что производимые жесты проработаны и хорошо соответствуют речи. Тем не менее, следует учитывать то, что подобные лекции читают профессиональные спикеры, поэтому данные могут разниться с теми жестами, которые используются людьми в повседневной речи. Это, однако, уже вопрос дальнейшей обработки невербальных средств коммуникации самим роботом.
Похожий на OpenPose алгоритм PoseNet недавно использовали для создания своеобразного зеркала: оценивая позу человека во время движения ученые научили нейросеть искать и показывать снимки других людей в точно такой же позе.
Елизавета Ивтушок
Они раскрываются и закрываются подобно бутонам
Американские инженеры разработали прототип децентрализованной системы для автоматической регулировки естественного освещения под названием Swarm Garden. Система состоит из множества отдельных роботов SGbot, каждый из которых может изменять свою форму, раскрываясь, как бутон. Роботы обмениваются информацией и действуют сообща, как единый рой. Они устанавливаются на окно и управляют количеством попадающего в помещение света за счет изменения величины собственной тени. Статья опубликована в журнале Science Robotics.