Машинное обучение помогло резиновой руке найти Уолли

Елизавета Ивтушок

Разработчики креативного агенства Redpepper построили робота, который умеет находить Уолли — персонажа детской игры-головоломки «Где Уолли?», цель которой — найти мальчика в полосатом свитере, шапке и очках среди множества людей и объектов. Система состоит из роботизированной руки, управляемой через Raspberry Pi, а также камеры, информация с которой анализируется при помощи алгоритмов компьютерного зрения AutoML Vision, разработанных Google, сообщает The Verge.

В январе этого года компания Google запустила облачный сервис AutoML — платформу, с помощью которой любой желающий сможет использовать алгоритмы машинного обучения для решения своих задач. Использование AutoML не требует навыков программирования: система обладает достаточно понятным интерфейсом и может быть использована для решения самых разных задач.

Одна из таких задач — автоматическое распознавание изображений. Недавно с помощью AutoML Vision, занимающегося решением задач компьютерного зрения, ученым удалось научить нейросеть определять по фотографии рамена место, в котором его приготовили. Теперь другая группа разработчиков применила сервис для решения другой задачи автоматического распознавания — визуального поиска.

Роботизированная рука оснащена камерой, которая управляется Raspberry Pi и при включении делает снимок страницы книги «Где Уолли?». Затем, при помощи алгоритмов компьютерного зрения OpenCV система отмечает на снимке лица. Обученные на портретах Уолли алгоритмы AutoML Vision ищут нужного персонажа, после чего рука показывает его в книге (в том случае, если персонажа распознали с точностью в 95 процентов или выше).

Главный инициатор проекта, технолог Redpepper Мэтт Рид (Matt Reed) отметил, что для обучения AutoML Vision понадобилось всего лишь чуть больше сотни изображений Уолли: 62 изображения головы и 45 снимков головы и тела. По словам Рида, самое быстрое время, за которое робот справился с задачей, — 4,45 секунды.

Игра «Где Уолли?» — классический пример использования при визуальном поиске «выделенности» (salience) объектов — тех свойств, с помощью которых можно различить объекты на общем фоне: в случае с игрой визуальное внимание будет распределено в сторону полосатых и красных объектов, в то время как остальные будут игнорироваться. В прошлом году ученые выяснили, что подобная «выделенность» также определяется и наличием у тех или иных объектов смысла относительно общей картины.

Елизавета Ивтушок