Программу научили подписывать фотографии строчками из песен Тейлор Свифт

«...казалось, что он смотрел на меня так, как будто он был последней женщиной на планете, а я не намеревался ее отпускать» — отрывок из автоматического описания.

Кадр: Индиана Джонс и последний крестовый поход / Paramount Pictures

Аспирант Торонтского университета Райан Кирос создал алгоритм, который генерирует литературные подписи к фотографиям, используя для этого заранее подобранный набор текстов. Программный код находится в открытом доступе на github.com, а в качестве источников Райан предлагает использовать библиотеку любовных романов или подборку текстов Тейлор Свифт. Подробнее о работе можно прочесть в неофициальном релизе от автора.

Алгоритм получил название neural-storyteller («нейронный рассказчик»), так как в его основе лежит реккурентная нейронная сеть. Для создания подписи к снимку программа проходит несколько шагов: обучение одной сети на «литературном» источнике и представление текстовых пассажей в виде векторов, обучение другой сети для распознавания объектов на фотографиях и создания их векторных представлений.

Для сопоставления двух векторных пространств автор предположил, что общий «стиль» текстового источника можно представить как среднее значение векторов, соответствующих различным его предложениям. Используя такой подход, Райан создал простой механизм, сопоставляющий «простое» текстовое описание картинки (x) с «литературным» (F(x)): пусть c — усредненный вектор, соответствующий «простым» текстовым описаниям, а b — аналогичный вектор для «литературного» формата, тогда F(x) = x - c + b.

Описанный подход позволяет использовать в качестве «литературного» источника любую библиотеку, содержащую достаточно большое количество текстов. Автор для примера использовал коллекцию любовных романов, а также подборку произведений певицы Тейлор Свифт, что в итоге придало большинству сгенерированных описаний романтический окрас.



Сам Райан отмечает, что проект, в том виде, в котором он существует сейчас, несет скорее развлекательный характер. Тем не менее, ученый полагает, что его работа позволяет оценить способности нейронных сетей к автоматическому созданию литературного текста. В своем блоге Райан высказывает надежду, что в какой-то момент усреднение и полуавтоматическое написание книжек станет основным инструментом писателей.


Идеей складывания и вычитания «стилей», представленных в виде векторов, автор, по собственным словам, вдохновился из другой недавней работы по нейросетям. В ней ученые «перерисовывали» знаменитые картины, накладывая на них характерный стиль других авторов. Так, например, «Звездную ночь» ван Гога изобразили в стиле «Крика» Мунка.

Тарас Молотилин

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.