Американские исследователи создали нейросеть для реалистичного переноса мимики людей между видеозаписями. В отличие от предыдущих подобных разработок, она изменяет множество параметров головы человека: ее наклон, форму рта, направление взгляда и другие. Работа будет представлена на конференции SIGGRAPH 2018.
В последние несколько лет появилось большое количество работ и сервисов, использующих нейросети для переноса стиля или деталей между разными изображениями. Но некоторые исследователи занимаются более сложной задачей — реалистичным переносом движений и мимики между двумя видеозаписями людей. В этой области уже есть достаточно серьезные разработки, однако, все они обладают серьезными недостатками и не могут полноценно переносить мимику между лицами. Например, ученые из Вашингтонского университета научились переносить выражение лица и его наклон на объемную модель лица другого человека, а также реалистично вставлять речь в видеоролик, изменяя положение губ на видео. Другие исследователи научились переносить большую часть мимики на реальный ролик с другим человеком, но их алгоритм не учитывает положение головы на ролике, с которого производится перенос.
Теперь эти исследователи из Института информатики Общества Макса Планка и других немецких институтов объединились с коллегами из Франции, Великобритании и США и создали более совершенную версию алгоритма, позволяющую реалистично переносить поведение человека из одного видео в другое. В качестве исходных данных программа принимает два видеоролика, на которых крупным планом заснят человек. Затем из обоих роликов извлекаются основные параметры лиц — выражение лица, описываемое множеством признаков, положение головы и направление взгляда. После этого модели лица из целевого ролика присваиваются параметры движений модели из исходного ролика-образца, хотя само лицо берется из ролика с человеком, которому присваиваются новые эмоции. Затем алгоритм создает фотореалистичные рендеры целевого лица с новыми параметрами и эти рендеры передаются порождающей нейросети, которая превращает рендеры в реалистичный ролик.
Главное отличие нового алгоритма от предыдущих разработок в этой области заключается в том, что он реалистично переносит все движения исходного лица, а также реалистично подстраивает фон за лицом, анализируя другие кадры из ролика. Помимо этого алгоритм позволяет вручную в реальном времени изменять положение и выражение лица на ролике. Разработчики продемонстрировали различные сценарии использования нейросети и сравнение с аналогичными алгоритмами:
Авторы провели исследование на добровольцах и показали, что людям сложно понять, что показываемое им видео на самом деле создано нейросетью на основе ролика с другим человеком. Разработчики также рассказали о недостатках метода. Например, эффективность алгоритма, как и других нейросетей, сильно зависит от тренировочных данных, и, если он сталкивается с незнакомым ему выражением лица, на конечном видео могут появиться заметные артефакты вместо реалистично перенесенной мимики.
Поскольку подобные технологии, позволяющие создавать реалистичные ролики с другими людьми, вызывают опасения в обществе, недавно группа ученых, в которую входят два автора новой работы, создала алгоритм для выявления подобных подделок. Он может эффективно распознавать подмену мимики или самих лиц на видеороликах, причем даже сжатых.
Григорий Копиев