Корейские разработчики представили CAER-Net — алгоритм, который умеет распознавать эмоции человека не только по его лицу, но и ориентируясь на другие маркеры на изображении. Система основана на работе двух сверточных нейросетей, каждая из которых анализирует лицо человека в кадре и все остальное, кроме лица. Точность распознавания эмоций составляет более 73 процентов. Работа доступна на портале arXiv.org.
Для того, чтобы понять эмоциональное состояние другого человека, нужно не так много: у большинства эмоций есть своя устойчивая мимика и вербальные маркеры. Например, когда человек улыбается, мы можем сказать, что его, скорее всего, что-то обрадовало, а когда он хмурится — заключить, что он чем-то недоволен.
Такая концепция эмоционального познания звучит достаточно просто, но на деле же она чуть сложнее, и по одной улыбке заключить точно, что испытывает человек, удается редко (например, недавно мы писали о том, что эмоции воспринимаются в соответствии с личным опытом — даже если они более-менее очевидны). Для эффективного распознавания эмоций очень важен контекст той ситуации, которая послужила триггером к ее появлению; более того, оценка эмоций с учетом контекста в принципе наиболее точна.
Несмотря на то, что алгоритмы компьютерного зрения уже достаточно далеко продвинулись в распознавании человеческих эмоций (об этом мы писали в материале «Как настроение?»), их оценка по контексту все еще остается задачей, которая не решается автоматически. Исправить это решили исследователи из Университета Ёнсе (Сеул) под руководством Цзиюн Ли (Jiyoung Lee).
Архитектура их обучающей сети представляет собой систему из двух сверточных нейросетей, каждая из которых анализирует, с одной стороны, лицо человека на снимке, а с другой — то, что его окружает, при этом для каждой из сети то, что анализирует другая, остается недоступным. При анализе система определяет показатели изображений, которые соответствуют той или иной эмоции (всего для анализа ученые взяли шесть базовых эмоций, а также нейтральное выражение лица), после чего, на последних слоях, нейросети объединяются и выдают ответ (распознанную эмоцию) по показателям обеих.
Оказалось, что, несмотря на то, что такая нейросеть достаточно точно определяет эмоцию только по лицу, веса при ее работе иногда распределены таким образом, что по контексту эмоция распознается проще. Это позволило разработчикам заключить, что совместный анализ выражения лица и контекста ситуации (того, что происходит в кадре) может быть наиболее оптимальным и эффективным. Средняя точность распознавания эмоций составила 74,51 процента, что превосходит работу других алгоритмов, которые также протестировали авторы работы.
Для обучения и тестирования алгоритма исследователи собрали датасет из 13201 ролика (все ролики были взяты из популярных сериалов), из которых выделили более миллиона отдельных кадров, эмоции людей на них разметили вручную. Помимо самого алгоритма также важен и полученный исследователями датасет: в нем, в отличие от других баз данных, которые используются для автоматического определения эмоций, нет изображений, где лицо обрезано или его вообще не видно. Датасет находится в открытом доступе: в нем для обучения сторонних алгоритмов доступны как статичные кадры, так и отдельные ролики.
У автоматического распознавания эмоций достаточно широкое применение. Например, недавно компания Kia Motors представила систему, которая может оценить настроение человека в автомобиле и настроить под него обстановку в салоне.
Елизавета Ивтушок
Она расшифровала тона и слоги независимо друг от друга
Исследователи из Китая предложили модульную многопоточную нейронную сеть, которая на основе нейронных записей синтезировала речь на тоновом языке. С ее помощью удалось декодировать восемь тоновых слогов китайского языка. Авторы показали, что их метод точнее, чем классические базовые методы глубоких нейронных сетей. Исследование опубликовано в Science Advances.