Разработчики из Facebook заставили систему искусственного интеллекта, состоящую из «туриста» и «гида», искать дорогу в виртуальном Нью-Йорке. В эксперименте, описанном в препринте на arXiv.org, исследователи рассмотрели, как компьютерные алгоритмы могут ориентироваться в пространстве и сообщать информацию.
Один из подходов к машинному обучению подразумевает погружение одного или нескольких агентов в виртуальную среду. Они самостоятельно получают информацию о ней и выполняют задания. Этот способ тренировки позволяет добиться хороших результатов: например, именно так системы искусственного интеллекта смогли освоить паркур, научились описывать бытовые действия на видео и играть в Quake III Arena.
Созданная программистами система Talk The Walk состоит из двух агентов, которые общаются между собой на естественном или машинном языке. В ходе эксперимента «турист», заброшенный в случайную точку нью-йоркского района «Адская кухня», должен был найти дорогу к определенному пункту назначения с помощью «гида». Для этого он сообщал ему свое местоположение в той же форме, в какой бы это делал человек. После этого два агента начинали вести диалог: «турист» рассказывал о том, что он видит, а «гид» задавал уточняющие вопросы и направлял второго агента.
Система Talk The Walk впервые объединила в себе сразу три навыка: восприятие («турист», передвигающийся по городу), выполнение действий (навигация через виртуальную среду) и интерактивный диалог (общение «гида» и «туриста»). Для своей работы программисты отсняли 360-градусные панорамы «Адской кухни», однако «гид» для навигации использовал двумерную карту, он знал, где находится конечная точка пути, но ему было неизвестно местонахождение «туриста». «Турист», напротив, имел 360-градусный обзор среды, однако не знал, где расположен пункт назначения и как к нему добраться.
Для получения тренировочного набора данных разработчики привлекали волонтеров через сервис Amazon Mechanical Turk. Добровольцы вели между собой диалоги, периодически меняясь ролями. В общей сложности исследователи собрали более 10 тысяч успешных диалогов: людям требовалось, в среднем, 44 действия и 8-9 реплик, чтобы справиться с поставленной задачей.
В основу алгоритма лег разработанный исследователями механизм MASC (Masked Attention for Spatial Convolution), который позволяет быстро определить, какие ключевые слова находятся в ответах «гида» и какие из них наиболее важны, чтобы понять, куда двигаться. Специалисты Facebook отметили, что использование этого механизма удвоило точность результатов. При этом программа работает лучше, когда она самостоятельно генерирует сообщения, а не извлекает их из набора данных.
В будущем такой подход может улучшить работу систем искусственного интеллекта в целом. Например, подобный алгоритм может использоваться беспилотными автомобилями для поиска дороги, когда возникают проблемы с GPS, или роботы смогут подсказывать дорогу людям, основываясь на размытом описании.
Недавно инженеры разработали приложение для шлема HoloLens, которое может вести пользователя по заданному маршруту, сообщая ему о приближающихся поворотах и препятствиях. Компания Microsoft, в свою очередь, создала похожее приложение для смартфона, которое работает в паре с наушниками.
*Facebook принадлежит компании Meta, деятельность которой в России запрещена.
Кристина Уласович