Американские ученые разработали алгоритм, который позволил нейросетям предсказывать действия людей при встрече. Результаты работы будут представлены на Международной конференции по компьютерному зрению и распознаванию образов (CVPR 2016) в Лас-Вегасе, популярно о разработке пишет MIT News.
Сотрудники Массачусетского технологического института обучали искусственный интеллект на видеозаписях с YouTube и сериалах «Офис» и «Отчаянные домохозяйки». Предыдущие подходы к машинному предсказанию визуальных изображений включали анализ отдельных пикселей с последующим попиксельным созданием фотореалистичного изображения-прогноза, а также использование описаний сцен, сделанных людьми. Научный коллектив разработал алгоритм нейросетевого машинного обучения, который работает с целыми фрагментами изображений (например, набором пикселей, представляющих человеческое лицо) и на основании этого анализирует возможные версии того, как будет выглядеть следующая сцена. При этом за анализ каждого действия персонажей отвечала отдельная сеть алгоритма, а прогноз строился по результатам их совместной работы.
После обучения на 600 часах видеозаписей систему проверили на незнакомых для нее роликах. На первом этапе эксперимента искусственный интеллект должен был за секунду до события предсказать, как персонажи поведут себя при встрече: ударят по рукам, пожмут их, обнимутся или поцелуются. Ему удалось справиться с этой задачей в 43 процентах случаев, что на семь процентов выше результатов работы имеющихся алгоритмов.
Затем системе демонстрировали кадр видео и просили спрогнозировать, какой предмет появится на экране спустя пять секунд. Она справилась с этим на 30 процентов лучше, чем перед обучением, однако исследователи отметили, что ее средний результат не превышает 11 процентов. Люди успешно выполняли предложенные искусственному интеллекту задания в 71 проценте случаев.
По словам разработчика Карла Вондрика (Carl Vondrick), точность алгоритма пока недостаточна. Однако его последующие версии можно будет использовать в различных целях, таких как помощь роботам в планировании действий или вызов экстренных служб при фиксации происшествий камерами наблюдения.
Олег Лищук