Разработчик игры Modbox показал, что алгоритм GPT-3 для обработки естественного языка можно использовать в играх для создания интерактивных персонажей, которые могут ответить на произвольный вопрос игрока, а не только на несколько стандартных, выбранных разработчиками.
В современных играх, в которых игрок может взаимодействует с окружающими персонажами, практически всегда используется довольно старая и простая схема построения диалога: пользователю предоставляют на выбор несколько реплик, персонаж отвечает на них заготовленными предложениями, а оба текста предварительно озвучиваются актерами.
При этом современные алгоритмы для работы с речью ушли намного дальше и даже в смартфонах уже несколько лет есть встроенные голосовые помощники, которые могут ответить пользователю на различные вопросы. В последние годы прогресс в этом направлении ускорился: как в области реалистичного синтеза речи (к примеру, Google Duplex еще два года назад звучал практически неотличимо от человека), так и в области синтеза текста (самые яркие примеры — алгоритмы GPT-3 от OpenAI и Switch Transformers от Google).
Один из разработчиков игры Modbox Ли Вермёлен (Lee Vermeulen) показал, что уже существующих алгоритмов достаточно, чтобы создать гораздо более реалистичных игровых персонажей, которые способны отвечать на произвольные, а не предварительно записанные реплики. Сама игра представляет собой «песочницу», в которой пользователи сами могут создавать интерактивные элементы игры при помощи простого языка программирования.
Разработчик использовал связку из трех компонентов: встроенной в Windows службы распознавания речи для превращения вопроса игрока в текст, API GPT-3, который синтезирует ответ на реплику игрока, и сервиса Replica для преобразования текста от GPT-3 в речь (он также попробовал сервис Amazon Polly, но пришел к выводу, что он имеет более низкое качество звука).
Демонстрация позволяет игроку в VR-шлеме подойти к персонажу и начать говорить, после чего тот обращает на игрока внимание и слушает вопрос или другую реплику. В ролике можно увидеть, что оба персонажа, с которыми общался игрок, дают ему осмысленные ответы на вопросы разного рода (демонстрация диалога начинается с 4:24) :
Поскольку алгоритмы синтеза текста и речи работают в облаке, они возвращают данные не мгновенно, поэтому в некоторые моменты персонажи могут «зависать» на несколько секунд перед началом ответа. Однако это демонстрация самой возможности создания интерактивных персонажей, которую в будущем разработчики крупных студий могут реализовать в гораздо более совершенном виде.
Исследователи в области машинного обучения пытаются применять нейросетевые алгоритмы и для других игровых задач. Например, разработчики из Facebook создали алгоритм для создания миров и персонажей текстовых игр, а исследователи из OpenAI научили нейросетевых персонажей играть в прятки и в процессе игры вырабатывать оптимальную тактику, чтобы переиграть оппонента, в том числе с использованием подручных инструментов.
Григорий Копиев
Она расшифровала тона и слоги независимо друг от друга
Исследователи из Китая предложили модульную многопоточную нейронную сеть, которая на основе нейронных записей синтезировала речь на тоновом языке. С ее помощью удалось декодировать восемь тоновых слогов китайского языка. Авторы показали, что их метод точнее, чем классические базовые методы глубоких нейронных сетей. Исследование опубликовано в Science Advances.