Группа специалистов по анализу данных из Эссекского университета (Великобритания) научила искусственный интеллект определять эмоциональный профиль больших прозаических произведений. На основании этого профиля компьютерная программа может с вероятностью в 50 процентов определить, к какому жанру относится тот или иной роман или повесть. Работа опубликована в журнале PLoS ONE.
Для своего исследования ученые использовали 3377 текстов из библиотеки Project Gutenberg, которые были очищены от посторонней информации (метки библиотеки и пр.) и разбиты на шесть жанров: роман тайн, фэнтэзи, ужасы, вестерн, научная фантастика. Этот массив текстов был проанализирован посредством метода анализа тональности текстов (сентимент-анализ). Обычно он применяется для оценки мнений авторов текста по отношению к каким-либо объектам, и соответственно, выявляет три типа оценок: позитивные, негативные и нейтральные. Однако авторы работы применили его более изощренный вариант, выявляющий шесть базовых эмоций по Полу Экману (психологу, ставшему прототипом главного героя в сериале «Теория лжи»): гнев, отвращение, страх, радость, печаль и удивление.
Каждому слову в тексте присваивалась эмоциональная тональность и ее балльная оценка. Для этого использовался уже существующий семантический тезаурус WordNet-Affect, состоящий из совокупности синонимов (синсетов), описывающих или относящихся к какой-либо из шести базовых эмоций. После этого определялась эмоциональная тональность каждой законченной сентенции из романа или повести, а также общая эмоциональная динамика на протяжении всего произведения. Вот так, например, выглядит эмоциональный профиль романа Мэри Шелли «Франкенштейн, или Современный Прометей».
Видно, что на протяжении всего романа эмоции постоянно и неуклонно нарастают. Доминируют среди них страх и гнев. А ближе к середине романа резко усиливается печаль. Этот эмоциональный профиль значительно отличается от романа тайн, Энн Остин «Убийство на мосту», где эмоции постоянно колеблются, и доминирует удивление.
Используя алгоритм машинного обучения — случайный лес из 1500 деревьев, ученые обучили искусственный интеллект определять жанр художественного текста по его эмоциональному профилю. Точность опознания жанра составила 50 процентов против 17 процентов при случайном угадывании. Более того, большинство ошибок было в неверной классификации ужасов как научной фантастики, грань между которыми довольно тонка. При этом решающим признаком — эмоциональным дискриминатором между жанрами — стала динамика такой эмоции как страх.
Важно отметить, что исследователи получили и один противоречивый результат — практически во всех текстах (в том числе и двух вышеприведенных) доминирующей и наиболее ярко выраженной была эмоция радости. И хотя ученые напрямую не указывают это в статье, но, по всей видимости, абсолютный приоритет радости — это скорее аберрация, обусловленная недоработанностью метода сентимент-анализа для больших художественных текстов и особенностями семантического тезауруса WordNet-Affect, в котором слов-синсетов, связанных с радостью, значительно больше, нежели чем для других эмоций. Косвенно это подтверждает и тот факт, что радость не является важным эмоциональным дискриминатором для определения жанра произведений.