Американские исследователи разработали нейросеть, позволяющую кодировать растровое (дискретное) изображение, состоящее из отдельных пикселей, в непрерывное изображение. Это позволяет приближать изображение с небольшой воспринимаемой потерей качества. Ранее уже существовали алгоритмы, увеличивающие разрешение изображения при приближении, однако они адаптированы для работы с фиксированным разрешением, тогда как новый алгоритм может работать с разными масштабами, рассказывают авторы в статье на arXiv.org.
У нейросетей для работы с изображениями есть много практических применений, одно из которых — увеличение разрешения. В отличие от классических методов, таких как интерполяция, нейросеть «дорисовывает» детали на изображении большего разрешения и позволяет получать качество, почти не уступающее настоящим снимкам c более близкого расстояния. Разные реализации таких алгоритмов уже используются в популярных устройствах. К примеру, алгоритм DLSS позволяет занижать разрешение рендеринга в играх и в реальном времени повышать разрешение уже отрисованного изображения до исходного, тем самым позволяя тратить меньше ресурсов на получение изображения сравнимого качества. Кроме того, во многих смартфонах камеры увеличивают качество зума, совмещая несколько снимков и увеличивая разрешение при помощи нейросети.
Подобные алгоритмы в некотором смысле размывают понятие «разрешение», потому что позволяют менять его, но при этом они все равно взаимодействуют с дискретными изображениями и выдают дискретные изображения, пускай и лучшего качества. Одно из ограничений такого подхода заключается в том, что при обучении нейросети изображения из обучающей выборки приходится приводить к одному фиксированному разрешению, что приводит к потере качества для некоторых из них.
Исследователи из Калифорнийского университета в Сан-Диего и NVIDIA под руководством Сяолуна Вана (Xiaolong Wang) разработали алгоритм, позволяющий переводить исходное растровое изображение, состоящее из отдельных пикселей, в непрерывное представление без разрешения. По принципу работы алгоритм похож на недавние алгоритмы для 3D-моделирования с использованием неявно заданных поверхностей и нейросетевые алгоритмы для описания 2D-изображений с использованием неявно заданных функций. Во время работы они берут исходный объект в дискретном представлении и подбирают для него функцию, которая бы максимально точно описывала его и позволяла восстановить исходное изображение. Этот метод уже работает с простыми изображениями, например, с цифрами, однако чем больше деталей на изображении, тем сложнее подобрать качественно описывающую его функцию, поэтому на фотографиях он дает слабые результаты.
Главное новшество алгоритма, описанного в статье, заключается в том, что авторы предложили перейти от единой функции для описания всего изображения к набору локальных функций, описывающих его фрагменты. Изначально изображение переводится в карту признаков. Получая координаты места на изображении соответствующая локальная функция берет кодированное представление признаков на окружающей области изображения и возвращает предсказанные параметры пикселя. Это позволяет рендерить изображение произвольного разрешения.
Авторы обучали нейросеть на датасете DIV2K, предназначенном для обучения алгоритмов, увеличивающих разрешение. Он состоит из тысячи фотографий в разрешении 2K и их версий, уменьшенных в два, три и четыре раза. Задача алгоритма при обучении заключалась в том, чтобы, получив изображение с низким разрешением, создать локальные функции, позволяющие максимально точно восстановить изображение в полном разрешении.
После обучения авторы сравнили результаты нового алгоритма с аналогами на тестовой части DIV2K и четырех стандартных датасетах Set5, Set14, B100 и Urban100. Они провели качественно сравнение, показав результаты разных алгоритмов:
Также они провели количественное сравнение, измерив соотношение сигнала к шуму на изображениях, полученных разными алгоритмами. Результаты показали, что новый алгоритм дает более высокое значение отношения сигнала к шуму, причем отрыв новой нейросети увеличивался по мере возрастания кратности увеличения:
Недавно NVIDIA предложила новый метод сжатия видео для сервисов видеосвязи. Новый алгоритм периодически пересылает основной кадр с человеком, но основная часть данных, пересылаемая непрерывно, представляет собой карту частей лица, которая затем позволяет анимировать основной кадр при помощи нейросети.
Григорий Копиев
Неинвазивный декодер восстановил текст из корковых семантических представлений
Американские исследователи разработали неинвазивный декодер, который по активности мозга может реконструировать непрерывный текст — будь то история, которую человек слушает, или воображаемый рассказ, или даже суть видеоролика, в котором нет слов. Декодер обучали на данных фМРТ трех человек, которые 16 часов слушали истории. Модель не всегда могла предсказать точные слова по записям фМРТ, но передавала смысл историй. Результаты опубликованы в Nature Neuroscience. Чтобы записать нейронную активность, необходимую для декодирования речи, нужно установить электроды прямо на мозг. Этот способ используют в исследованиях с парализованными людьми, которые не могут говорить, но инвазивность такой процедуры ограничивает ее применение. Декодеры, использующие неинвазивные записи активности мозга, способны расшифровывать отдельные слова или короткие фразы, но неизвестно, могут ли эти декодеры работать с непрерывным естественным языком. Александр Хаc (Alexander Huth) из Техасского университета в Остине и его коллеги разработали декодер, который восстанавливает непрерывный текст из записей активности мозга, полученных неинвазивным способом — с помощью функциональной магнитно-резонансной томографии. Серьезным ограничением было то, что сигнал фМРТ не успевает за нейронной активностью. Функциональная магнитно-резонансная томография измеряет изменения кровотока, вызванные нейронной активностью в той или иной части мозга. Чтобы сигнал фМРТ увеличился или снизился, требуется около 10 секунд. За это время англоговорящий человек может услышать или произнести более 20 слов. Выходит, что слов для декодирования больше, чем изображений фМРТ. Ученые решили это проблему так: научили декодер угадывать последовательность слов, оценивая, насколько вероятно каждое возможное слово могло вызвать конкретную записанную реакцию мозга, — и так выбирать лучшего кандидата, то есть самое вероятное слово. Модель кодирования обучалась на сигналах фМРТ трех человек, записанных на протяжении 16 часов, пока люди слушали разные истории. Этого хватило, чтобы модель научилась предсказывать, какую реакцию мозга вызывают те или иные семантические признаки. Затем ученые предлагали испытуемым послушать истории, которые те еще не слышали, и записывали реакцию мозга. По этим записям декодер должен был реконструировать эти истории. Языковая модель — нейросеть GPT-1 — выдавала варианты слов, а модель кодирования оценивала вероятность того, что именно это слово могло продолжать историю. Декодер точно воспроизводил часть слов и фраз и улавливал суть многих других. Сгенерированные последовательности слов захватывали общий смысл новых историй. Сюжет, предсказанный декодером, напоминал сюжет реальной истории сильнее, чем если бы это было случайным совпадением (p < 0,05). Данные исследователи записывали с трех корковых сетей — классической языковой сети, сети теменно-височно-затылочной ассоциативной коры, и сети префронтальной коры. Сигналы каждой сети декодировались по-отдельности в каждом полушарии. Примечательно, пишут авторы, что большинство временных точек удавалось декодировать только по сигналам из ассоциативной (80–86 процентов) и префронтальной (46–77 процентов) сетей. И только 28–59 процентов временных точек были декодированы из речевой сети. Ученые пришли к выводу, что одни и те же слова могут быть закодированы в разных регионах мозга, и в будущем может быть достаточно записей активности отдельных областей. Еще авторы обнаружили, что по данным фМРТ декодер может предсказать смысл короткой истории, которую участник вообразил и рассказал про себя, или суть просмотренного видеоролика без слов. Однако декодирование воображаемой речи было не таким успешным, как декодирование услышанных историй, потому что модель кодирования обучали на реакциях мозга на воспринимаемую речь. Дополнительно участникам предложили послушать одновременно две истории, но обращать внимание только на одну, а вторую игнорировать. Расшифровка декодера была больше похожа на ту историю, к которой участники прислушивались. Декодер плохо расшифровывал сигналы мозга человека, на котором его не обучали. То есть нельзя обучить декодер на одном человеке и затем использовать его для «чтения мыслей» других людей. Точность декодирования, как выяснили авторы, зависела от объема данных, на которых обучали декодер. Кроме того, немного увеличить точность помогло увеличение отношения сигнала фМРТ к шуму. А еще декодер хуже справлялся со словами с определенными семантическими свойствами, независимо от шума. Более конкретные слова — night, door, restaurant, school и подобные — декодировались лучше, а слова вроде find, say, kind, get — хуже. Кроме того, что большинство существующих декодеров требует имплантации электродов в мозг, эти декодеры нередко опираются на данные речевых моторных зон, которые активны, когда субъект говорит или пытается говорить. В отличие от них, эта модель работает с сигналами областей мозга, которые кодируют семантические представления. Эти области активны даже когда человек слышит чужую речь или просто думает о том, что хочет сказать. Однако восстановить отдельные слова такой декодер часто не может. Подобным образом несколько лет назад исследователи научили нейросеть воссоздавать изображения по записям фМРТ. Хотя изображения получились абстрактными, в них можно было узнать закодированные картинки.