Ученые из Ланкастерского университета предложили новый метод цифровой обработки литературных произведений, позволяющий визуализировать места действия в них с помощью автоматического распознавания текста, геоинформационных систем (ГИС) и 3D-анимации. На разработку такой системы, которая позволит читателям увидеть «настоящую» анимированную карту Средиземья из трилогии Дж.Р.Р. Толкиена и любые другие локации, описанные в мировой литературе, выделен крупный грант. Об этом сообщается на сайте университета.
Применение алгоритмов машинной обработки текстов к художественной литературе сегодня относится к специальной области знаний — digital humanities (общепринятого русского перевода этого термина пока не существует). Один из ее разделов — визуализация художественных текстов. Например, литературоведы из Стенфордского университета, о которых мы писали ранее, создали эмоциональную карту Лондона благодаря компьютерному анализу английских романов XVIII и XIX века. Британские литературоведы из Университета Честера и Ланкастерского университета уже совмещали цифровую обработку текстов с данными геоинформационных систем: предметом их анализа стали путевые дневники англичан, путешествовавших по Озерному краю в XVIII веке. Таким образом ученые хотели выяснить, насколько эмоциональное описание тех или иных участков местности зависит от реального маршрута, которым двигался автор.
Существуют также алгоритмы, позволяющие визуализировать текстовые описания. Одним из примеров такого рода можно назвать проект WordsEye, предназначенный для 3D-моделирования на основании словесного описания какой-либо сцены.
Новый проект Ланкастерского университета, под который Исследовательский совет по искусству и гуманитарным наукам Великобритании (AHRC) выделил 914 тысяч фунтов стерлингов, нацелен на создание трехуровнего программного обеспечения, которое само, без прямого участия человека, будет извлекать из художественных текстов элементы для геолокации и на их основе строить анимированные 3D-изображения соответствующих мест. Основная сложность проекта заключается в создании «подлинной» карты вымышленного мира, который никак не будет связан с реальным.
Работу планируется провести в три этапа. Первый год уйдет на обработку массива текстов, в ходе которого программа будет учиться находить такие вербальные элементы, которые подходят для визуализации, и переводить их в в формат XML. В течение второго года программа будет учиться ужимать каждый литературный текст до XML-описания определенных местностей и с помощью алгоритмов 3D-моделирования создавать для него визуальный географический справочник. На третий год программа займется визуализацией конкретных сцен в соответствии с сюжетом произведения с использованием программного обеспечения для игровых движков.
Подробности того, как именно будет реализован алгоритм работы искусственного интеллекта на каждом из предполагаемых этапов, в пресс-релизе не раскрываются.
В результате будет создан крупный веб-сайт с большой картографической базой, которая, как считает руководитель проекта Салли Бушелл, окажет важное влияние на процесс образования. Авторы проекта полагают, что их проект не заменит процесс чтения визуализацией, но поможет сопоставлять прочитанный текст с его 3D-проекцией.
Ученые и раньше работали с литературными текстами, используя компьютерное программирование. Например, в марте 2016 года канадские программисты компании Maluuba разработали алгоритм, позволяющий находить ответы на вопросы в незнакомом тексте. Программу, построенную на нейронной сети, ученые протестировали на книге «Гарри Поттер и Философский камень», доля правильных ответов составила выше 70 процентов. Подробнее об алгоритме можно почитать в нашем материале.
Эрика Ефремова