Исследователи из Технологического института Джорджии при помощи глубокого обучения нейросетей смогли научить алгоритм определять по снимкам от первого лица характер активности, в которую вовлечен человек. С полным текстом исследования можно ознакомиться на сайте института.
В рамках исследования участник эксперимента на протяжении шести месяцев носил на груди смартфон в чехле. Установленное на мобильном устройстве приложение делало снимки от первого лица с частотой раз в минуту в первые недели исследования, позже интервал увеличили до одной фотографии раз в пять минут. При этом в обязанности испытуемого входило присвоение фотографиям меток о текущей активности. Одной из важных проблем при сборе данных авторы считали возможное нарушение неприкосновенности частной жизни как испытуемого и его семьи, так и людей, которые случайно попали в объектив камеры. Для того, чтобы учесть этот нюанс, испытуемый каждый вечер фильтровал снимки и удалял нежелательные, по его мнению, фотографии.
После того, как сбор данных был окончен, исследователи отобрали 40 тысяч фотографий, сделанных за этот период и правильно помещенных в одну из 19 категорий: работа по дому, вождение, готовка, физическая тренировка, чтение, выступление, собаки, отдых, еда, работа, разговор, просмотр телевизора, встреча, уборка, совместное времяпровождение, ходьба по магазинам, езда на велосипеде, семья и гигиена. Также для каждой фотографии было указано время, в которое сделан снимок.
Натренированная на этом наборе данных нейросеть по незнакомому снимку с нательной камеры того же испытуемого показала результат угадывания активности с точностью 83,07 процентов. При этом, отмечают исследователи, на переучивание для распознавания занятий другого человека в рамках существующих рубрик алгоритму требуется набор фотографий с аннотациями всего за два дня.
Поскольку у алгоритма есть возможность указать только одну рубрику, то основные сложности с распознаванием возникают именно тогда, когда несколько конфликтующих активностей определены на фотографии одновременно. В частности, авторы указывают, что хуже всего вышло с определением рубрик «работа по дому» и «разговор», поскольку нейросеть часто путает их с рубриками «уборка по дому», «работа» и «семья».
Как считают исследователи, одно из применений их разработки в будущем возможно в качестве универсального личного секретаря. Например, предугадав намерение ехать на автомобиле на работу, алгоритм сможет без вмешательства со стороны пользователя предупредить о пробке и проложить маршрут объезда еще до того, как человек соберется выходить из дома.