Нейросеть превратит слова в движения роботов

Модель действий серфингиста на доске в беспокойном океане
Ahn et al. / arXiv 2017
Исследователи из Сеульского университета создали Text2Action — нейросеть, которая превращает текстовое описание действия в анимацию движений трехмерной модели. Алгоритм работает на основе порождающей состязательной сети и с его помощью можно, например, научить робота понимать текстовое описание действий. Препринт статьи опубликован на сайте arXiv.
Человеческий язык и деятельность тесно связаны: люди способны как выполнять действия, основываясь на их языковом описании, так и описывать действия, наблюдаемые ими. Автоматизация подобной связи — задача сложная; решение ее, однако, важно для современного развития искусственного интеллекта. Авторы новой работы представили нейросеть, которая умеет превращать текстовое описание действия в его выполнение.
В основе алгоритма лежит порождающая состязательная сеть (англ. generative adversarial network, сокращенно GAN), основанная на модели Seq2Seq (sequence to sequence). Такая нейросеть учится зависимостям между входными и выходными данными, в данном случае — между полученным на вход предложением, обозначающим действие, и соответствующим анимированным изображением. Сама обработка текстовой информации и последующий процесс переработки ее в изображение основан на работе рекуррентных нейросетей.
Вариации GAN используются для автоматического порождения изображений на основе различных данных. Так, например, здесь вы можете прочитать о pix2pix, которая превращает простые наброски в фотореалистичные портреты, а здесь — о нейросети, которая рисует оригинальные произведения искусства.
Специально к выходу новости редакция N+1 сделала стикерпак для Telegram: в нем использованы изображения трехмерной модели из статьи.
Елизавета Ивтушок