Facebook* собрала датасет видео от первого лица

Григорий Копиев

Исследователи из Facebook AI и 13 университетов собрали крупнейший датасет видеороликов, снятых от первого лица. Это позволит обучать алгоритмы очков дополненной реальности и голосовых помощников пониманию того, что именно делает человек, где он оставил те или иные предметы и другим подобным навыкам. Авторы рассказали о датасете в блоге Facebook AI, опубликовали статью на arXiv.org и пообещали выложить датасет на сайт до конца ноября.

Качество работы алгоритма машинного обучения напрямую зависит от того, на каких данных его обучали. В случае с алгоритмами, работающими с изображениями, важно не только то, видел ли алгоритм тот или иной тип объекта при обучении, но и с какого ракурса были снят объект на кадрах с обучающей выборки. При разработке умных гаджетов с камерами это имеет большое значение. Например, при работе в доме робот-пылесос и умные очки видят одни и те же предметы мебели, стены и бытовую технику, но с совершенно разных ракурсов, поэтому и обучающие данные для них должны соответствовать контексту их использования.

Исследователи из Facebook AI и 13 университетов собрали крупнейший датасет видеороликов, снятых от первого лица, чтобы помочь исследователям в обучении алгоритмов компьютерного зрения, анализирующий мир с человеческого ракурса. В создании датасета участвовали 855 добровольцев из 74 городов и 9 стран. Ролики были сняты камерами (а также умными очками), закрепленными на голове, причем для разнообразия данных использовали семь разных моделей. Во время съемки участники занимались повседневными делами: готовили еду, выбирали продукты в магазине, взаимодействовали с другими людьми и так далее. В сумме длительность роликов составляет 3025 часов.

Авторы датасета разметили ролики, составив для каждого из них описания текущих действий в кадре. Новое описание появляется примерно раз в четыре секунды, всего в датасете содержится 3,8 миллиона предложений, таких как «Человек берет вилку правой рукой». Для части роликов помимо видео и аннотаций есть и другие данные, которые могут помочь в восприятии среды алгоритмом: звук, трехмерная модель помещения, направление взгляда, данные об ускорении и наклоне, стереоскопические кадры, снятые носимой стереокамерой с одного человека, а также набор синхронизированных роликов, снятых разными людьми в одном месте и в одно время, например, во время настольной игры.

Помимо датасета авторы разработали пять задач (навыков) и создали для их решения пять моделей, с которыми, как они надеются, другие разработчики будут сравнивать свои новые алгоритмы:

Эпизодическая память, позволяющая алгоритму отвечать на вопросы о прошедших событиях, к примеру, «Где я забыл ключи?» и «Когда я поставил мясо в духовку?».
Предсказание будущих действий. В качестве примера авторы показали концепт умных очков, которые напомнят готовящему еду человеку, что он уже посолил блюдо, если увидят, что он несет солонку к сковороде.
Понимание текущих действий человека и состояния объектов в кадре.
Отслеживание разговора, то есть понимание кто, что и когда сказал в беседе.
Анализ взаимодействия между людьми, в частности понимание, что на носителя камеры смотрят или к нему обращаются.

Пока авторы опубликовали подробное описание датасета, процесса сбора данных, бенчмарков и целей работы. До конца ноября они планируют опубликовать на своем сайте датасет, который будет доступен после подписания лицензионного соглашения. Можно предположить, что датасет ограничат использованием лишь в исследовательских целях.

Facebook непосредственно заинтересована в таком датасете, потому что производит VR-шлем с режимом дополненной реальности, а также недавно представила умные очки с двумя камерами и голосовым управлением.

*Facebook принадлежит компании Meta, деятельность которой в России запрещена.

Григорий Копиев