Американские исследователи создали нейросеть, способную предугадывать действия собак исходя из изображения окружающей среды. Разработчики натренировали алгоритм на реальных записях действий собак от первого лица и научили корректно предугадывать их действия на пять кадров вперед, сообщается в работе, опубликованной на arXiv.org. Она будет представлена на конференции по компьютерному зрению CVPR 2018 в Солт-Лейк-Сити.
Нейросети часто применяют для работы с изображениями, но, как правило, их используют для распознавания объектов, переноса стиля и других задач, в которых алгоритм изначально имеет нужные ему данные. В последние годы исследователи начали создавать нейросети, которые могут анализировать имеющиеся изображения и на их основе создавать следующие. Например, американские исследователи в 2016 году создали алгоритм, который превращает отдельную фотографию в видео, показывающее, как будут развиваться события в кадре в следующую секунду.
Исследователи из Вашингтонского университета и Института Аллена в области искусственного интеллекта под руководством Али Фархади (Ali Farhadi) создали алгоритм, предсказывающий будущие действия собак на основе видеоряда. Чтобы обучить алгоритм, они создали большой датасет из множества записей ходьбы и других действий собаки от первого лица. Для этого исследователи закрепили на голове собаки камеру, которая снимала видео с частотой пять кадров в секунду. Помимо этого, на четырех лапах, хвосте и теле собаки были закреплены инерциальные датчики, записывающие ее движения. В результате исследователи получили датасет, состоящий из 24500 кадров, каждому из которых были сопоставлены данные о движениях собаки в момент кадра.
Исследователи создали три нейросетевые модели разной архитектуры для трех основных подзадач. Одна модель предугадывает будущие движения собаки на основе предыдущих. Вторая занимается планированием движений — анализирует два кадра и находит последовательность действий, нужную для того, чтобы собака попала из одного местоположения в другое. Третья модель учится классифицировать объекты в кадре и определять зоны, по которым собака может перемещаться. Модели имеют разные архитектуры и построены на основе долгой краткосрочной памяти и остаточной нейросети ResNet, часто используемой для подобных задач (например, недавно швейцарские инженеры с ее помощью научили дрон летать в городе на основе записей с видеорегистраторов).
После тренировки алгоритма на большей части кадров из датасета исследователи протестировали его на оставшихся кадрах, которые программа еще не видела. Они показали, что алгоритм может планировать движения подобно настоящей собаке. Например, нейросеть на основе пяти кадров, на которых человек кидает собаке мяч, смогла точно предсказать реакцию собаки на последующих пяти кадрах:
Исследователи считают, что в будущем алгоритм можно протестировать на данных с большего количества собак, большего набора датчиков, а также для других животных.
В прошлом году другая группа американских исследователей создала нейросеть, которая на основе данных об активности мозга птицы предсказывает, какую песню она будет петь через доли секунды.
Григорий Копиев