Нейросети научились судить о книге по обложке

Более 137000 книжных обложек, классифицированных по 20 категориям.
Изображение: Brian Kenji Iwana and Seiichi Uchida / arXiv.org
Команда японских исследователей создала программу для распознавания жанра книги по изображению ее обложки. Новый метод, основанный на четырехслойной сверточной нейросети, успешно предсказывал, к какому из 20 жанров в системе Amazon относится та или иная книга в 40 процентах случаев. Препринт исследования выложен на arXiv.org.
Сверточные нейросети традиционно используются в задачах анализа изображений, так как умеют выявлять особенности различного масштаба — от формы мазка на картине знаменитого художника, до сюжета в целом и наличия тех или иных объектов на картинке. Такой функционал позволяет создавать на основе сверточных нейросетей системы рекомендаций в онлайн-магазинах, а также потенциально использовать их в качестве автоматических «сортировщиков» товара.
Исходными материалами для авторов новой работы послужила подборка из 137788 книжных обложек, взятых с онлайн-магазина Amazon. Каждая книга характеризовалась одним из 20 жанров, а если на сайте было указано сразу несколько категорий, ученые использовали только первый из списка. В нейросети было задействовано четыре слоя: два сверточных и два связанных (они обрабатывали картинку без уменьшения ее размерности). Сеть обучали на 80 процентах выборки, а оставшиеся данные использовали для проверки ее работоспособности.
Разработчики проанализировали результаты обучения и пришли к выводу, что нейросети в целом очень хорошо замечали особенности тех или иных жанров, например, еду на обложке книг из категории «Кулинария». Однако если на обложке вместо этого была фотография шеф-повара, программа могла легко перепутать эту книгу с «Биографией» или «Политикой». Точно так же нейросеть путалась и с одноцветными обложками без картинок, так как этот стиль чаще всего соответствовал жанрам «Право» или «Религия».
В будущем исследователи планируют улучшить показатели своей программы за счет увеличения объема нейросети, чтобы распознавать большее число особенностей. Кроме того, авторы планируют добавить анализ текста, например, названий книг, чтобы повысить точность классификации.
Тарас Молотилин