Компания Google раскрыла технические подробности стенда для видеоконференций на основе 3D-экрана. Благодаря системе из нескольких камер стенд в реальном времени создает объемную модель человека и воспроизводит ее на таком же стенде с экраном, способным передавать объем без очков или других приспособлений. Статья будет представлена на конференции SIGGRAPH Asia, ее препринт доступен на сайте Google.
Классическая видеосвязь дает большее ощущение присутствия, чем общение голосом или текстом, но она все равно ограничена двумерным экраном. Инженеры работают над этой проблемой, создавая те или иные способы передачи объема. Самый простой из них (но все равно технически сложный сам по себе) — использовать дополнительные устройства, такие как 3D-очки или очки дополненной реальности. Куда сложнее сделать экран, который передавал бы объем без каких-либо дополнительных устройств.
Реализовать объемный экран тоже можно разными способами. Чаще всего применяют (в том числе уже и в серийных устройствах) дисплеи с лентикулярным растром или другими оптическими элементами, преломляющими лучи так, что с разных углов наблюдатель видит разную часть дисплея. Похожая технология (правда, не с преломлением, а отсечением лучей) использовалась в Nintendo 3DS еще десять лет назад.
Google на конференции I/O 2021 показала систему для видеоконференций, в которой тоже используется объемный дисплей. На тот момент компания почти не раскрывала технические подробности, но теперь она опубликовала статью, в которой разработчики под руководством Кевина Туна (Kevin Tong) рассказали о принципе работы системы.
Система представляет собой стенд, в котором пользователь сидит на определенном месте перед дисплеем. Это необходимо из-за конструкции дисплея — он основан на 65-дюймовой панели с разрешением 8K, покрытой лентикулярным растром. Линзы в растре рассчитаны на то, что наблюдатель будет находиться на расстоянии 1,25 метра, а его межцентровое расстояние (расстояние между центрами зрачков) составляет 63 миллиметра — это среднее значение для взрослых людей. Благодаря этому, а также тому, что в изображении половина пикселей рендерится для одного глаза, а вторая для другого, наблюдатель, сидящий в стенде, видит перед собой объемное изображение, немного отличающееся для каждого глаза.
Но в реальности человек не сидит неподвижно, поэтому эти параметры постоянно меняются. Инженеры решили эту проблему, дополнив лентикулярный растр быстрым отслеживанием головы, благодаря чему система может в реальном времени подстраивать показываемое изображение, «поворачивая» его.
Вторая, не менее важная часть стенда, — это система захвата. Она состоит из трех цветных камер глубины, двух инфракрасных, нескольких инфракрасных проекторов и ламп со стороны дисплея и одной большой инфракрасной подсветки. Все они помогают создавать в реальном времени высокоточную 3D-модель тела, на основе которой дисплей на другом конце воссоздает изображение, как бы снимаемое из центра дисплея (для настоящей съемки с этого ракурса необходим прозрачный дисплей, сделать который пока технически невозможно). Кроме объемного изображения, разработчики воссоздали с помощью массива микрофонов и двух динамиков реалистичный звук, который воспринимается как идущий из рта собеседника, а не с двух сторон.
Еще одна важная часть работы — сжатие данных. Разработчики отмечают, что при создании 3D-модели на стороне съемки объем данных не позволяет сжимать и передавать его в реальном времени, поэтому они решили передавать исходные, но сжатые видеопотоки. Один стенд в реальном времени передает на второй четыре цветных видеопотока и три потока с глубиной с частотой 60 кадров в секунду. В итоге они остановились на 10-битном кодеке H.265, который снизил объем передаваемых данных до 30-100 мегабит в секунду, в зависимости от движений человека и детализации его одежды.
Авторы отметили, что пока у системы есть недостатки. Среди прочего, они выделили артефакты изображения, а также то, что стенд позволяет наблюдать качественное и адаптивное объемное изображение только одному наблюдателю, движения которого отслеживает система.
Разработка Google — не первая система для видеозвонков с объемным экраном. Ранее мы рассказывали о канадском экране светового поля, который позволяет видеть объемное и зависящее от ракурса изображение человека сразу нескольким людям.
Григорий Копиев
Как люди будут искать информацию в будущем
Еще несколько лет назад интернет-пользователи часто сталкивались с нерелевантными ответами на запросы, поиск по картинкам казался чем-то невероятным, а перевод прямо с фото — ну просто мечтой. Разобрались, чего ждать от технологий поиска, и сделали важные уточнения у Ким Дрессендорфер — эксперта по искусственному интеллекту и данным и архитектора когнитивных решений для IBM. Интервью с ней состоялось на Global Innovation Forum 2022, который проходил в Ереване 5–6 октября.