Специалисты по машинному обучению из Лондонского университета королевы Марии создали программу Sketch-a-Net, распознающую рисунки-скетчи лучше, чем люди. Авторы предполагают, что подобный софт может послужить основой новых интерфейсов для устройств с сенсорным экраном. Препринт работы выложен на arXiv.org.
Алгоритм использовал сверточные нейронные сети (СНН) для преобразования рисунков в набор признаков, по которым в дальнейшем возможно обучение и распознавание. Авторы модифицировали популярные методы распознавания фотографий так, чтобы добиться максимальной эффективности именно для случая скетчей. Например, при подготовки снимков для распознавания нейросетью ученые выравнивали яркость и контраст снимков и избавлялись об информации о текстуре.
Основным новшеством программы стал анализ последовательности штрихов в рисунке. Тогда как в фотографии все пиксели создаются одновременно, в скетчах последовательность нанесения линий может нести дополнительную информацию. Например, часто при рисовании люди стараются сначала изобразить крупные объекты и лишь потом добавлять детали.
Готовую программу авторы тренировали на базе рисунков, созданной в Берлинском техническом университете. Она содержит скетчи, разбитые по категориями, причем каждый рисунок сопровождается информацией о том, какие линии были нарисованы первыми, какие последовали за ними и так далее. Всего для обучения было использовано 310 миллионов изображений. Треть рисунков из базы была оставлена для эксперимента, на них обучение не проводилось.
Результаты работы Sketch-a-Net ученые сравнили с данными аналогичных программ, большинство из которых были прямыми адаптациями сервисов для распознавания фотографий. По итогам оказалось, что новый алгоритм демонстрировал лучший процент корректно распознанных скетчей как по сравнению с другими программами (74,9 против 68,9), так и по сравнению с людьми (74,9 процента против 73,1).
Программы для анализа простых черно-белых изображений чаще всего используются в задачах распознавания рукописного текста. Тем не менее, авторы отмечают, что анализ скетчей открывает новые возможности в разработке интерфейсов. Например, иногда человеку бывает проще сделать набросок того, что он хочет найти, чем описывать это словами. Это особенно справедливо в случае покупок мебели, одежды или украшений. Использование автоматического распознавания в этом случае позволит упростить работу поисковых систем.
Китайские специалисты занимаются строительством установки, которая будет использоваться для моделирования условий, возникающих при термоядерном взрыве. Как пишет South China Morning Post, новая установка, аналогичная американской Z-машине, будет использоваться для исследований в области высоких энергий и ядерных процессов в интересах китайских военных. Новая установка должна заработать в ближайшие несколько лет.