Дисней научился автоматически переозвучивать фильмы

Студия переозвучивания
Wikimedia Commons
Ученые из Англии и США в сотрудничестве c компанией Disney создали алгоритм для автоматического переозвучивания видео. Он анализирует изменения в мимике говорящего и подбирает текст, при произнесении которого будет использованы те же движения. Работа будет опубликована на конференции ICASSP 2015, сейчас о ней можно прочитать на сайте Disney Research.
В основу нового метода положен анализ «динамических визем» (dynamic visemes): характерных движений лица во время речи. Программа покадрово записывает изменения в мимике человека, после чего параметризует их по формальным признакам: координатам разных точек губ, зубов, подбородка и так далее. Всего таких признаков оказалось около 50000, их сгруппировали в 150 классов.Проанализировав базу видеозаписей, на которых люди зачитывают известный текст, ученые для каждого класса динамических визем составили таблицу соответствия. В ней указана степень схожести данного класса визем с той или иной фонемой, таким образом изображение сопоставляют со звуком и наоборот.Например, ученые показали, что одна и та же последовательность лицевых движений одинаково хорошо соответствует следующим фразам: «clean swatches», «likes swats», «then swine», «need no pots», «tikes rush» и еще тысячам других.Проблема переозвучивания видео возникает каждый раз, когда в прокат выходит новый фильм: чтобы показать его в других странах, обязательно нужна переозвучка, однако даже небольшие несоответствия между движениями губ и слышимой речью могут вызывать дискомфорт при просмотре. По этой причине переводчикам-сценаристам приходится идти на множество ухищрений при написании нового текста. Новый метод позволяет даже для коротких фрагментов автоматически генерировать выборку из тысяч соответствующих фраз, что облегчит проблему написания текста, который бы хорошо соответствовал мимике актера.