Специалисты по машинному обучению из Лондонского университета королевы Марии создали программу Sketch-a-Net, распознающую рисунки-скетчи лучше, чем люди. Авторы предполагают, что подобный софт может послужить основой новых интерфейсов для устройств с сенсорным экраном. Препринт работы выложен на arXiv.org.
Алгоритм использовал сверточные нейронные сети (СНН) для преобразования рисунков в набор признаков, по которым в дальнейшем возможно обучение и распознавание. Авторы модифицировали популярные методы распознавания фотографий так, чтобы добиться максимальной эффективности именно для случая скетчей. Например, при подготовки снимков для распознавания нейросетью ученые выравнивали яркость и контраст снимков и избавлялись об информации о текстуре.
Основным новшеством программы стал анализ последовательности штрихов в рисунке. Тогда как в фотографии все пиксели создаются одновременно, в скетчах последовательность нанесения линий может нести дополнительную информацию. Например, часто при рисовании люди стараются сначала изобразить крупные объекты и лишь потом добавлять детали.
Готовую программу авторы тренировали на базе рисунков, созданной в Берлинском техническом университете. Она содержит скетчи, разбитые по категориями, причем каждый рисунок сопровождается информацией о том, какие линии были нарисованы первыми, какие последовали за ними и так далее. Всего для обучения было использовано 310 миллионов изображений. Треть рисунков из базы была оставлена для эксперимента, на них обучение не проводилось.
Результаты работы Sketch-a-Net ученые сравнили с данными аналогичных программ, большинство из которых были прямыми адаптациями сервисов для распознавания фотографий. По итогам оказалось, что новый алгоритм демонстрировал лучший процент корректно распознанных скетчей как по сравнению с другими программами (74,9 против 68,9), так и по сравнению с людьми (74,9 процента против 73,1).
Программы для анализа простых черно-белых изображений чаще всего используются в задачах распознавания рукописного текста. Тем не менее, авторы отмечают, что анализ скетчей открывает новые возможности в разработке интерфейсов. Например, иногда человеку бывает проще сделать набросок того, что он хочет найти, чем описывать это словами. Это особенно справедливо в случае покупок мебели, одежды или украшений. Использование автоматического распознавания в этом случае позволит упростить работу поисковых систем.