Американские исследователи разработали алгоритм, создающий из двух снятых с близких ракурсов кадров новые снимки с других ракурсов. Его можно использовать для создания стереопар с помощью смартфонов с двумя камерами, рассказывают разработчики в статье, которая будет представлена на конференции SIGGRAPH 2018.
В последние два года многие смартфоны стали оснащаться модулями с двумя камерами. Некоторые производители используют их для увеличения четкости за счет совмещения снимков, другие устанавливают камеры с разными объективами. Кроме того их можно было бы использовать для создания стереопар, но в большинстве смартфонов с двойными камерами объективы располагаются на расстоянии примерно сантиметра друг от друга — в несколько раз меньшем, чем расстояние между зрачками человека.
Исследователи под руководством Ноя Снейвли (Noah Snavely) из Google разработали метод, позволяющий создавать на основе двух снимков с находящихся рядом камер множество снимков с других ракурсов, в том числе для создания стереопар. В отличие от предыдущих подобных разработок, позволяющих создавать фотографии с ракурсов, находящихся между двух исходных кадров, исследователи решили гораздо более сложную задачу и научились создавать снимки с ракурсов, не входящих в этот диапазон.
Исследователи использовали сверточную нейросеть, которая на основе полученной пары кадров создает многоплоскостное представление кадра, состоящее из нескольких десятков слоев, находящихся на равном расстоянии друг от друга. Каждый из этих слоев представляет собой кадр, несущий информацию о цвете и прозрачности областей на нем. Имея объемное представление сцены в кадре нейросеть может синтезировать фотографии с новых ракурсов, не совпадающих с исходными.
Разработчики натренировали нейросеть на более чем полутора тысячах роликов с YouTube с двигающейся возле статичных объектов камерой. В результате исследователи научились создавать стереопару с в восемь раз большим расстоянием между кадрами, чем в исходной паре снимков. Нейросеть научилась корректно обрабатывать отражения от глянцевых поверхностей, а также справляться с кадрами, снятыми как на улице, так и в помещениях или недалеко от предметов. Тем не менее, получаемые с ее помощью снимки зачастую имеют визуальные артефакты. Например, алгоритм не всегда корректно определяет глубину нахождения мелких объектов на сложном фоне из-за чего но новых кадрах эти объекты выглядят нереалистично.
Недавно индийские разработчики создали алгоритм, который умеет превращать размытое изображение в короткий видеоролик. Он анализирует артефакты движения на снимке и воссоздает из него картину происходящего в момент снимка.
Григорий Копиев
Неинвазивный декодер восстановил текст из корковых семантических представлений
Американские исследователи разработали неинвазивный декодер, который по активности мозга может реконструировать непрерывный текст — будь то история, которую человек слушает, или воображаемый рассказ, или даже суть видеоролика, в котором нет слов. Декодер обучали на данных фМРТ трех человек, которые 16 часов слушали истории. Модель не всегда могла предсказать точные слова по записям фМРТ, но передавала смысл историй. Результаты опубликованы в Nature Neuroscience. Чтобы записать нейронную активность, необходимую для декодирования речи, нужно установить электроды прямо на мозг. Этот способ используют в исследованиях с парализованными людьми, которые не могут говорить, но инвазивность такой процедуры ограничивает ее применение. Декодеры, использующие неинвазивные записи активности мозга, способны расшифровывать отдельные слова или короткие фразы, но неизвестно, могут ли эти декодеры работать с непрерывным естественным языком. Александр Хаc (Alexander Huth) из Техасского университета в Остине и его коллеги разработали декодер, который восстанавливает непрерывный текст из записей активности мозга, полученных неинвазивным способом — с помощью функциональной магнитно-резонансной томографии. Серьезным ограничением было то, что сигнал фМРТ не успевает за нейронной активностью. Функциональная магнитно-резонансная томография измеряет изменения кровотока, вызванные нейронной активностью в той или иной части мозга. Чтобы сигнал фМРТ увеличился или снизился, требуется около 10 секунд. За это время англоговорящий человек может услышать или произнести более 20 слов. Выходит, что слов для декодирования больше, чем изображений фМРТ. Ученые решили это проблему так: научили декодер угадывать последовательность слов, оценивая, насколько вероятно каждое возможное слово могло вызвать конкретную записанную реакцию мозга, — и так выбирать лучшего кандидата, то есть самое вероятное слово. Модель кодирования обучалась на сигналах фМРТ трех человек, записанных на протяжении 16 часов, пока люди слушали разные истории. Этого хватило, чтобы модель научилась предсказывать, какую реакцию мозга вызывают те или иные семантические признаки. Затем ученые предлагали испытуемым послушать истории, которые те еще не слышали, и записывали реакцию мозга. По этим записям декодер должен был реконструировать эти истории. Языковая модель — нейросеть GPT-1 — выдавала варианты слов, а модель кодирования оценивала вероятность того, что именно это слово могло продолжать историю. Декодер точно воспроизводил часть слов и фраз и улавливал суть многих других. Сгенерированные последовательности слов захватывали общий смысл новых историй. Сюжет, предсказанный декодером, напоминал сюжет реальной истории сильнее, чем если бы это было случайным совпадением (p < 0,05). Данные исследователи записывали с трех корковых сетей — классической языковой сети, сети теменно-височно-затылочной ассоциативной коры, и сети префронтальной коры. Сигналы каждой сети декодировались по-отдельности в каждом полушарии. Примечательно, пишут авторы, что большинство временных точек удавалось декодировать только по сигналам из ассоциативной (80–86 процентов) и префронтальной (46–77 процентов) сетей. И только 28–59 процентов временных точек были декодированы из речевой сети. Ученые пришли к выводу, что одни и те же слова могут быть закодированы в разных регионах мозга, и в будущем может быть достаточно записей активности отдельных областей. Еще авторы обнаружили, что по данным фМРТ декодер может предсказать смысл короткой истории, которую участник вообразил и рассказал про себя, или суть просмотренного видеоролика без слов. Однако декодирование воображаемой речи было не таким успешным, как декодирование услышанных историй, потому что модель кодирования обучали на реакциях мозга на воспринимаемую речь. Дополнительно участникам предложили послушать одновременно две истории, но обращать внимание только на одну, а вторую игнорировать. Расшифровка декодера была больше похожа на ту историю, к которой участники прислушивались. Декодер плохо расшифровывал сигналы мозга человека, на котором его не обучали. То есть нельзя обучить декодер на одном человеке и затем использовать его для «чтения мыслей» других людей. Точность декодирования, как выяснили авторы, зависела от объема данных, на которых обучали декодер. Кроме того, немного увеличить точность помогло увеличение отношения сигнала фМРТ к шуму. А еще декодер хуже справлялся со словами с определенными семантическими свойствами, независимо от шума. Более конкретные слова — night, door, restaurant, school и подобные — декодировались лучше, а слова вроде find, say, kind, get — хуже. Кроме того, что большинство существующих декодеров требует имплантации электродов в мозг, эти декодеры нередко опираются на данные речевых моторных зон, которые активны, когда субъект говорит или пытается говорить. В отличие от них, эта модель работает с сигналами областей мозга, которые кодируют семантические представления. Эти области активны даже когда человек слышит чужую речь или просто думает о том, что хочет сказать. Однако восстановить отдельные слова такой декодер часто не может. Подобным образом несколько лет назад исследователи научили нейросеть воссоздавать изображения по записям фМРТ. Хотя изображения получились абстрактными, в них можно было узнать закодированные картинки.