Искусственный интеллект озвучил «немые» видео

Andrew Owens et al / ArXiv

Ученые из Массачусетского технологического института и Стэнфордской лаборатории искусственного интеллекта создали систему искусственного интеллекта, которая способна озвучить «немое» видео, генерируя звуки на основе предсказанных свойств объектов. Исследование авторов будет представлено на ежегодной конференции по машинному зрению и распознаванию образов (CVPR), также оно выложено на сайте ArXiv.

Для своей работы ученые использовали систему искусственного интеллекта на основе сверточной и рекуррентной нейросети. Они создали 977 видеороликов, в которых люди с помощью барабанной палочки бьют и царапают объекты из разных материалов, — в сумме было совершено 46577 действий. Исследователи вручную разметили видеоряд, указав тип материала, место удара, характер действия (удар или царапина), а также ответную реакцию на удар (разбрасывание, деформация или всплеск). Эти метки использовались только для того, чтобы оценить работу системы, а не для ее обучения.

Искусственный интеллект анализировал громкость и высоту звуков, соответствовавших разным типам взаимодействий. Чтобы предсказать, как звучит видео, он изучал отдельные кадры и звуки в них, а потом сопоставлял их с наиболее похожими из базы данных. 

После тренировки система научилась самостоятельно генерировать разнообразные звуки, начиная с глухих стуков и заканчивая шуршанием плюща. Звуки из базы данных в дальнейшем не использовались.


«Существующие подходы к искусственному интеллекту фокусируются только на одном из пяти органов чувств — например, специалисты по машинному зрению используют изображения, исследователи в области распознавания речи используют аудиодорожки. Эта работа приближает нас к имитации процесса обучения у человека, объединяя звук и зрение», — комментирует один из авторов работы.

Эффективность системы исследователи проверили, проведя онлайн-исследование на Amazon Mechanical Turk. Добровольцы должны были сравнить два варианта «озвучки» видеоролика и решить, какой из представленных вариантов соответствует настоящему звуку. В итоге в 40 процентах случаев искусственный интеллект смог обмануть людей. Наиболее реалистичными оказались звуки листьев и грязи (последний назвали истинным приблизительно в 62 процентах видеороликов), а наименее — дерева и металла (металл звучал натурально только в 18 процентах случаев).

Кроме того, искусственный интеллект научился определять твердость материала. Для этого ученые разделили все видео на две группы (твердые и мягкие материалы) и натренировали систему с помощью реальных звуков. В результате алгоритм смог определить по предсказанному звуку тип материала с точностью до 67 процентов.

Тем не менее, созданная учеными система еще требует доработки. Она умеет генерировать звуки, которые получаются при соприкосновении с объектом, однако, например, для шума ветра прямого контакта не требуется. Кроме того, алгоритм ошибается, когда объекты движутся слишком быстро, и не «попадает» в нужный момент.

Кристина Уласович

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.