Apple впервые поделилась своими успехами в машинном обучении

Исследователи из Apple разработали метод улучшения синтетических изображений, предназначенных для тренировки нейросети. Это первая официально опубликованная в общем доступе работа, касающаяся разработок компании, препринт доступен на arXiv.org. 

Apple вплоть до недавнего времени придерживалась закрытой политики и информация о различных исследовательских работах компании, в том числе в сфере машинного обучения, не публиковалась в открытых источниках. Однако в декабре Руслан Салахутдинов, недавно возглавивший в Apple исследовательское подразделение, отвечающее за разработки в области искусственного интеллекта, заявил, что компания меняет свою политику и теперь работы будут публиковаться, а сотрудники смогут открыто взаимодействовать с научным сообществом.

В первой опубликованной Apple работе описывается метод улучшения синтетических размеченных изображений, которые используются для быстрого обучения нейросетей. При обучении крайне важен объем и качество данных, на примере которых обучается программа, однако в некоторых случаях подходящей информации может попросту не оказаться в нужном объеме — например, для тренировки нейросети, которая поможет управлять различными устройствами взглядом, необходимо большое количество размеченных фотографий глаз. Разметка больших баз вручную — трудоемкий процесс, поэтому исследователи, решающие подобные задачи, нередко используют вместо реальных фотографий рендеры изображения глаз.

У нейросетей, натренированных на синтетических изображениях, проявляется новая слабость — они хуже распознают реальные фотографии, поскольку они не использовались в обучении или использовались в значительно меньшем количестве, чем синтетические. Одно из возможных решений — использовать бóльшие вычислительные мощности при создании изображений для повышения их реалистичности, однако такой метод ведет к ощутимому удорожанию работы.

Чтобы решить существующие проблемы с генерируемыми изображениями разработчики из Apple решили использовать промежуточную нейронную сеть, которая помогает создавать набор данных для обучения. Программа использует размеченное синтетическое изображение и неразмеченную реальную фотографию для создания на выходе нового улучшенного изображения, которое сохраняет в себе направление взгляда и разметку от синтетического. Фактически, стиль фотографии переносится на сгенерированное изображение глаза — подробнее о том, как нейросети могут переносить стиль одного изображения на другое, можно прочитать в материале N+1 «На выставке Ван Гога».

Для проверки эффективности и правдоподобности улучшенных таким образом изображений авторы показывали десяти испытуемым 50 реальных фотографий и 50 улучшенных сгенерированных изображений. Одновременно каждый доброволец видел 20 картинок из обеих категорий и должен был отметить реальные и сгенерированные изображения. В результате из 1000 изображений испытуемые правильно отметили 517 (p = 0,148), что практически не отличается от случайного угадывания. В то же время, при демонстрации синтетических изображений без улучшения и реальных фотографий добровольцы отнесли к верной категории 162 картинки из 200 (p ≤ 10-8), что существенно отличается от случайного угадывания. 

Кроме проверки с помощью добровольцев авторы также проверили эффективность новых изображений с помощью нейросети, которую натренировали на улучшенных картинках. Алгоритм, обучавшийся на улучшенных изображениях, показал результат распознавания направления взгляда на 22,3 процента выше, чем такая же нейросеть, натренированная на обычных синтетических изображениях. Кроме того, «улучшенная» нейросеть точнее справилась с определением направления взгляда, чем другие алгоритмы, натренированные на реальных фотографиях из датасета MPIIGaze.

Правильное определение направления взгляда может быть использовано для управления устройствами в самых разных сферах — например, для перемещения в VR-играх, предсказывания маневров водителей до их совершения или управления военными беспилотниками.