Программа обошла людей в способности понимать наброски

Тарас Молотилин

Специалисты по машинному обучению из Лондонского университета королевы Марии создали программу Sketch-a-Net, распознающую рисунки-скетчи лучше, чем люди. Авторы предполагают, что подобный софт может послужить основой новых интерфейсов для устройств с сенсорным экраном. Препринт работы выложен на arXiv.org.

Алгоритм использовал сверточные нейронные сети (СНН) для преобразования рисунков в набор признаков, по которым в дальнейшем возможно обучение и распознавание. Авторы модифицировали популярные методы распознавания фотографий так, чтобы добиться максимальной эффективности именно для случая скетчей. Например, при подготовки снимков для распознавания нейросетью ученые выравнивали яркость и контраст снимков и избавлялись об информации о текстуре.

Основным новшеством программы стал анализ последовательности штрихов в рисунке. Тогда как в фотографии все пиксели создаются одновременно, в скетчах последовательность нанесения линий может нести дополнительную информацию. Например, часто при рисовании люди стараются сначала изобразить крупные объекты и лишь потом добавлять детали.

Готовую программу авторы тренировали на базе рисунков, созданной в Берлинском техническом университете. Она содержит скетчи, разбитые по категориями, причем каждый рисунок сопровождается информацией о том, какие линии были нарисованы первыми, какие последовали за ними и так далее. Всего для обучения было использовано 310 миллионов изображений. Треть рисунков из базы была оставлена для эксперимента, на них обучение не проводилось.

Результаты работы Sketch-a-Net ученые сравнили с данными аналогичных программ, большинство из которых были прямыми адаптациями сервисов для распознавания фотографий. По итогам оказалось, что новый алгоритм демонстрировал лучший процент корректно распознанных скетчей как по сравнению с другими программами (74,9 против 68,9), так и по сравнению с людьми (74,9 процента против 73,1).

Программы для анализа простых черно-белых изображений чаще всего используются в задачах распознавания рукописного текста. Тем не менее, авторы отмечают, что анализ скетчей открывает новые возможности в разработке интерфейсов. Например, иногда человеку бывает проще сделать набросок того, что он хочет найти, чем описывать это словами. Это особенно справедливо в случае покупок мебели, одежды или украшений. Использование автоматического распознавания в этом случае позволит упростить работу поисковых систем.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

10:07 18.12.18 4.7 Оружие Наука

Китайцы занялись строительством Z-машины

Василий Сычев

Китайские специалисты занимаются строительством установки, которая будет использоваться для моделирования условий, возникающих при термоядерном взрыве. Как пишет South China Morning Post, новая установка, аналогичная американской Z-машине, будет использоваться для исследований в области высоких энергий и ядерных процессов в интересах китайских военных. Новая установка должна заработать в ближайшие несколько лет.