Нейросеть научилась реалистично переносить мимику и движения головы

Christian Theobalt / YouTube

Американские исследователи создали нейросеть для реалистичного переноса мимики людей между видеозаписями. В отличие от предыдущих подобных разработок, она изменяет множество параметров головы человека: ее наклон, форму рта, направление взгляда и другие. Работа будет представлена на конференции SIGGRAPH 2018.

В последние несколько лет появилось большое количество работ и сервисов, использующих нейросети для переноса стиля или деталей между разными изображениями. Но некоторые исследователи занимаются более сложной задачей — реалистичным переносом движений и мимики между двумя видеозаписями людей. В этой области уже есть достаточно серьезные разработки, однако, все они обладают серьезными недостатками и не могут полноценно переносить мимику между лицами. Например, ученые из Вашингтонского университета научились переносить выражение лица и его наклон на объемную модель лица другого человека, а также реалистично вставлять речь в видеоролик, изменяя положение губ на видео. Другие исследователи научились переносить большую часть мимики на реальный ролик с другим человеком, но их алгоритм не учитывает положение головы на ролике, с которого производится перенос.

Теперь эти исследователи из Института информатики Общества Макса Планка и других немецких институтов объединились с коллегами из Франции, Великобритании и США и создали более совершенную версию алгоритма, позволяющую реалистично переносить поведение человека из одного видео в другое. В качестве исходных данных программа принимает два видеоролика, на которых крупным планом заснят человек. Затем из обоих роликов извлекаются основные параметры лиц — выражение лица, описываемое множеством признаков, положение головы и направление взгляда. После этого модели лица из целевого ролика присваиваются параметры движений модели из исходного ролика-образца, хотя само лицо берется из ролика с человеком, которому присваиваются новые эмоции. Затем алгоритм создает фотореалистичные рендеры целевого лица с новыми параметрами и эти рендеры передаются порождающей нейросети, которая превращает рендеры в реалистичный ролик.

Главное отличие нового алгоритма от предыдущих разработок в этой области заключается в том, что он реалистично переносит все движения исходного лица, а также реалистично подстраивает фон за лицом, анализируя другие кадры из ролика. Помимо этого алгоритм позволяет вручную в реальном времени изменять положение и выражение лица на ролике. Разработчики продемонстрировали различные сценарии использования нейросети и сравнение с аналогичными алгоритмами:


Авторы провели исследование на добровольцах и показали, что людям сложно понять, что показываемое им видео на самом деле создано нейросетью на основе ролика с другим человеком. Разработчики также рассказали о недостатках метода. Например, эффективность алгоритма, как и других нейросетей, сильно зависит от тренировочных данных, и, если он сталкивается с незнакомым ему выражением лица, на конечном видео могут появиться заметные артефакты вместо реалистично перенесенной мимики.

Поскольку подобные технологии, позволяющие создавать реалистичные ролики с другими людьми, вызывают опасения в обществе, недавно группа ученых, в которую входят два автора новой работы, создала алгоритм для выявления подобных подделок. Он может эффективно распознавать подмену мимики или самих лиц на видеороликах, причем даже сжатых.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.