Исследователи из Сеульского университета создали Text2Action — нейросеть, которая превращает текстовое описание действия в анимацию движений трехмерной модели. Алгоритм работает на основе порождающей состязательной сети и с его помощью можно, например, научить робота понимать текстовое описание действий. Препринт статьи опубликован на сайте arXiv.
Человеческий язык и деятельность тесно связаны: люди способны как выполнять действия, основываясь на их языковом описании, так и описывать действия, наблюдаемые ими. Автоматизация подобной связи — задача сложная; решение ее, однако, важно для современного развития искусственного интеллекта. Авторы новой работы представили нейросеть, которая умеет превращать текстовое описание действия в его выполнение.
В основе алгоритма лежит порождающая состязательная сеть (англ. generative adversarial network, сокращенно GAN), основанная на модели Seq2Seq (sequence to sequence). Такая нейросеть учится зависимостям между входными и выходными данными, в данном случае — между полученным на вход предложением, обозначающим действие, и соответствующим анимированным изображением. Сама обработка текстовой информации и последующий процесс переработки ее в изображение основан на работе рекуррентных нейросетей.
Нейросеть обучили на общедоступной базе данных MSR-VTT, созданной Microsoft — в ней собраны видеоролики различных действий людей и их автоматическое письменное описание. Всего для обучения использовали 29770 пар «описание-видео». В результате нейросеть смогла не только превратить в анимированные модели отдельные предложения, совмещенные с видеорядом, но и создать новые модели на основе сразу нескольких пар «описание-видео». Результаты работы нейросети превосходят в реалистичности алгоритм, представленный ранее.
Кроме того, разработчики интегрировали новую нейросеть в Baxter — робота с открытым исходным кодом, который часто используется исследователями в проектах с машинным обучением (например, для тестирования работы нейроинтерфейса). Исследователям удалось научить робота выполнять действия на основе их текстового описания.
Вариации GAN используются для автоматического порождения изображений на основе различных данных. Так, например, здесь вы можете прочитать о pix2pix, которая превращает простые наброски в фотореалистичные портреты, а здесь — о нейросети, которая рисует оригинальные произведения искусства.
Специально к выходу новости редакция N+1 сделала стикерпак для Telegram: в нем использованы изображения трехмерной модели из статьи.
Елизавета Ивтушок