Исследователи из Университета Центральной Флориды и Университета Карнеги — Меллон разработали алгоритм для создания множества реалистичных фотографий людей с лицами, частично заслоненными руками. Таким образом ученые пытаются решить проблему нехватки данных для обучения алгоритмов по распознаванию лиц и эмоций. Помимо этого они разработали модель для определения типа заслонения (рука или другой объект), а также заслоненных областей лица. Препринт исследования доступен на сайте arXiv.org, также об исследовании сообщает издание TechCrunch.
Из-за того, что руки имеют тот же цвет и текстуру, как и лицо, заслонение лица рукой представляет для алгоритмов по распознаванию лиц серьезную проблему. Многие из этих алгоритмов основаны на машинном обучении. Этот метод хорошо зарекомендовал себя во многих областях, но он требует больших объемов тренировочных данных. Поскольку фотографий на которых часть лица закрыта рукой не так много, разработчикам сложно натренировать свои алгоритмы на таких изображениях для корректного распознавания.
Американские исследователи решили самостоятельно создавать данные для тренировки алгоритмов. Их алгоритм сначала извлекает изображение рук и других объектов, таких как шарфы, из набора фотографий реальных людей с частично закрытыми лицами. Затем он выбирает из набора фотографий людей с незакрытыми лицами такие изображения, на которых человек расположен похожим образом. После этого происходит наложение, перед которым рука или другой заслоняющий объект подгоняется по цвету, качеству изображения и ориентации таким образом, чтобы конечное изображение выглядело максимально естественно.
Таким образом исследователи научились получать большие объемы изображений для обучения искусственного интеллекта. Одно из преимуществ такого подхода заключается в том, что получаемый набор данных состоит из пар идентичных фотографий людей, различающихся только наличием или отсутствием посторонних предметов на них. Это может значительно повысить эффективность обучения.
Специалисты из компании Apple в прошлом году разработали технологию улучшения синтетических изображений, используемых при тренировке нейросетей. Таким образом исследователи пытались решить ту же проблему — нехватку данных для обучения алгоритмов. Также в прошлом году другие исследователи выяснили, что системы распознавания лиц становятся менее эффективными при работе с большими объемами данных. Если предоставить таким системам не десятки тысяч фотографий, а сотни тысяч или более, алгоритмы заметно хуже справляются с поиском одинаковых лиц.
Григорий Копиев