Команда японских исследователей создала программу для распознавания жанра книги по изображению ее обложки. Новый метод, основанный на четырехслойной сверточной нейросети, успешно предсказывал, к какому из 20 жанров в системе Amazon относится та или иная книга в 40 процентах случаев. Препринт исследования выложен на arXiv.org.
Сверточные нейросети традиционно используются в задачах анализа изображений, так как умеют выявлять особенности различного масштаба — от формы мазка на картине знаменитого художника, до сюжета в целом и наличия тех или иных объектов на картинке. Такой функционал позволяет создавать на основе сверточных нейросетей системы рекомендаций в онлайн-магазинах, а также потенциально использовать их в качестве автоматических «сортировщиков» товара.
Исходными материалами для авторов новой работы послужила подборка из 137788 книжных обложек, взятых с онлайн-магазина Amazon. Каждая книга характеризовалась одним из 20 жанров, а если на сайте было указано сразу несколько категорий, ученые использовали только первый из списка. В нейросети было задействовано четыре слоя: два сверточных и два связанных (они обрабатывали картинку без уменьшения ее размерности). Сеть обучали на 80 процентах выборки, а оставшиеся данные использовали для проверки ее работоспособности.
Оказалось, что в 22 процентах случаев нейросеть правильно определяла жанр книги, однако в «Топ-3» правильный результат попадал с 40-процентной вероятностью. Таким образом, по словам авторов, их программа обрабатывала сложные случаи, когда два жанра описывались очень схожими сюжетами обложек, например, «Биографии и мемуары» и «Политика и социальные науки». При этом для таких жанров как «Компьютеры и технологии» и «Путешествия» распознавание не представляло больших проблем.
Разработчики проанализировали результаты обучения и пришли к выводу, что нейросети в целом очень хорошо замечали особенности тех или иных жанров, например, еду на обложке книг из категории «Кулинария». Однако если на обложке вместо этого была фотография шеф-повара, программа могла легко перепутать эту книгу с «Биографией» или «Политикой». Точно так же нейросеть путалась и с одноцветными обложками без картинок, так как этот стиль чаще всего соответствовал жанрам «Право» или «Религия».
В будущем исследователи планируют улучшить показатели своей программы за счет увеличения объема нейросети, чтобы распознавать большее число особенностей. Кроме того, авторы планируют добавить анализ текста, например, названий книг, чтобы повысить точность классификации.