Разработана технология, которая в скором времени сможет улучшить видеоконференции и дополнить виртуальную реальность. Ученые из Вашингтонского университета придумали систему, позволяющую вставлять стороннюю речь в видеоряд, практически точно воссоздавая артикуляционную мимику говорящего. Материалом для создания такой системы послужили 17 часов записей видеообращений 44-го Президента США Барака Обамы к американским гражданам. С препринтом статьи, которая будет представлена в августе на конференции SIGGRAPH 2017, можно ознакомиться на сайте университета.
Конвертирование аудиозаписей человеческого голоса в видео имеет огромное практическое применение: от улучшения видеоконференций, звук в которых очень часто отстает от видео, до использования в виртуальной реальности и кинопроизводстве. Такая технология разрабатывается уже очень давно, и материалом для нее служат видео, записанные в лабораторных условиях, на которых люди точно проговаривают отдельно взятые фонемы. До сих пор не было проведено работы по конвертации аудио в видео на основе реальных записей речи людей.
Авторы новой работы создали алгоритм реалистичного наложения сторонних аудиозаписей на видеоряд, изображающий говорящего человека. Их подход основывается на работе рекуррентных нейросетей. Из аудиозаписи сначала извлекаются отдельно взятые фонемы, из которых воссоздается артикуляционная мимика. На основе этого создается реалистичная форма губ, которая затем накладывается на нужное видео, а сам видеоряд настраивают так, чтобы движения головы говорящего выглядели естественно.
В результате исследователи совместили видеоряд обращений Барака Обамы к американским гражданам с аудио из других видео, в которых он говорит об отцовстве в эфире телешоу или о своем избрании в главные редакторы юридического журнала в 1990-ом году. Получившиеся фрагменты фрагменты при этом выглядят реалистично.
Созданная исследователями система улучшила подобную технологию, однако сама концепция наложения сторонней информации на видео не нова. В нашей заметке вы можете прочитать про технологию face2face, которая накладывает движения лица одного человека на видео, изображающее другого, а здесь — про разработку Disney Research, позволяющую проектировать грим на видео.
Елизавета Ивтушок
У пациентов с разным цветом кожи
Хала Муадди (Hala Muaddi) с коллегами по Клинике Майо разработала и успешно протестировала систему на основе машинного зрения для диагностики инфекций послеоперационных ран по фотографиям. Распознавание проходит в две стадии: идентификации хирургического разреза и идентификации инфекции в ране. Для обучения и тестирования системы использовали более 20 тысяч снимков, сделанных в течение месяца после операции более чем шестью тысячами пациентов (медианный возраст 54 года; 61,4 процента —женщины) девяти больниц Клиники Майо. Данные о развитии инфекций у них брали в базе программы NSQIP. Четыре разных модели распознавания подвергли десятикратной перекрестной проверке на достоверность. Результаты работы опубликованы в журнале Annals of Surgery.