Дисней научился автоматически переозвучивать фильмы

Студия переозвучивания

Wikimedia Commons

Ученые из Англии и США в сотрудничестве c компанией Disney создали алгоритм для автоматического переозвучивания видео. Он анализирует изменения в мимике говорящего и подбирает текст, при произнесении которого будет использованы те же движения. Работа будет опубликована на конференции ICASSP 2015, сейчас о ней можно прочитать на сайте Disney Research.

В основу нового метода положен анализ «динамических визем» (dynamic visemes): характерных движений лица во время речи. Программа покадрово записывает изменения в мимике человека, после чего параметризует их по формальным признакам: координатам разных точек губ, зубов, подбородка и так далее. Всего таких признаков оказалось около 50000, их сгруппировали в 150 классов.

Проанализировав базу видеозаписей, на которых люди зачитывают известный текст, ученые для каждого класса динамических визем составили таблицу соответствия. В ней указана степень схожести данного класса визем с той или иной фонемой, таким образом изображение сопоставляют со звуком и наоборот.

Например, ученые показали, что одна и та же последовательность лицевых движений одинаково хорошо соответствует следующим фразам: «clean swatches», «likes swats», «then swine», «need no pots», «tikes rush» и еще тысячам других.


Новизна такого подхода заключается в использовании динамических визем, а не статических, как это делалось раньше. Статические виземы ориентируются на застывшую мимику, а не на движения. Из-за этого для одной и той же последовательности выражений лица можно подобрать гораздо меньше фонем, чем в случае динамических визем.

Для наглядной демонстрации преимуществ нового подхода авторы использовали несколько алгоритмов для автоматического переозвучивания видео. В двух случаях они пользовались хорошо известными статическими методами, в последнем случае — новым методом с использованием динамических визем. Оказалось, что для коротких фраз новый подход выдает примерно в тысячу раз больше фонем, чем статический. Только для фраз длиной 15 слов и более статический метод «догоняет» динамический.



Проблема переозвучивания видео возникает каждый раз, когда в прокат выходит новый фильм: чтобы показать его в других странах, обязательно нужна переозвучка, однако даже небольшие несоответствия между движениями губ и слышимой речью могут вызывать дискомфорт при просмотре. По этой причине переводчикам-сценаристам приходится идти на множество ухищрений при написании нового текста. Новый метод позволяет даже для коротких фрагментов автоматически генерировать выборку из тысяч соответствующих фраз, что облегчит проблему написания текста, который бы хорошо соответствовал мимике актера.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.