Алгоритм от DeepMind восстановит утерянные фрагменты древнегреческих текстов

Елизавета Ивтушок

Исследователи из DeepMind и Оксфордского университета представили PYTHIA — эпиграфический алгоритм, который восстанавливает все возможные варианты утраченных надписей на памятниках древнегреческого языка. Алгоритм на основе энкодера и декодера с долгой краткосрочной памятью анализирует оставшиеся фрагменты текста и дополняет надписи с учетом контекста, пользуясь известным ему словарем. Представленная система в предсказании утерянных фрагментов в среднем делает меньше ошибок, чем специалисты в области древнегреческой эпиграфики. Препринт с описанием работы алгоритма опубликован на arXiv.org, кратко о нем сообщается в блоге DeepMind.

Расшифровке надписей на твердых (например, каменных или мраморных) лингвистических памятниках посвящена отдельная научная дисциплина — эпиграфика. Из-за того, что большинство памятников сохраняются не полностью, специалистам в этой области приходится восстанавливать утраченные фрагменты текста. По сути, если утрачено всего несколько отдельных графем, зная язык оригинала и исторический контекст (чаще всего памятники хорошо датируются, а многие древние языки изучены достаточно подробно) расшифровать текст не очень сложно. Сложность задачи повышается, когда пропусков много — здесь для решения неоднозначности приходится использовать и контекст сохраненных на памятнике фрагментов.

Новый алгоритм, разработанный исследователями под руководством Янниса Ассаэля (Yannis Assael) из DeepMind, хорошо подходит для тех случаев, когда восстановление утраченных фрагментов текста может занять много времени как раз из-за неоднозначности написанного и множества вариантов. Для обучения алгоритма они использовали корпус древнегреческой письменности PHI: из него взяли тексты, датированные периодом с седьмого века до нашей эры по пятый век нашей эры.

На основе PHI ученые собрали новый корпус PHI-ML. Для него исследователи составили частотный словарь всех встречающихся символов, на основе чего определили основной «алфавит»: в него вошли 147 символов, включая все буквы алфавита, знаки препинания и другие служебные знаки (например, обозначение длины гласного) а также — дополнительно — тире для обозначения пропущенных мест и знак вопроса для обозначения тех знаков, которые затем должны быть предсказаны моделью. Из корпуса также убрали лингвистическую разметку, сделанную составителями корпуса. Всего в корпус PHI-ML вошли 3,2 миллиона слов.

Сам алгоритм PYTHIA (он назван в честь древнегреческой жрицы Пифии, которая, по преданиям, обладала даром предсказания) включает в себя энкодер и декодер, каждый из которых основан на нейросети с долгой краткосрочной памятью (LSTM). Алгоритм получает на вход текст, где пропущенные фрагменты заменены на тире, а те, которые надо предсказать, — на знак вопроса. Изначально необходимые знаки предсказываются с учетом таблицы их векторного представления — грубо говоря, на пустые места в словах вставляются наиболее вероятные по частотности буквы. Дополнительно для улучшения качества работы к системе был подключен словарь из 100 тысяч самых частотных слов в корпусе: для конечного предсказания алгоритм ориентируется в том числе и на него.

Работу PYTHIA сравнили с несколькими алгоритмами на основе анализа n-граммов, а также попросили расшифровать недостающие фрагменты нескольких исследователей, которые занимаются древнегреческой эпиграфикой. Частота ошибок (с учетом ошибок первого и второго рода) алгоритма составила 30,1 процента — он делает меньше ошибок, чем все остальные алгоритмы и профессионалы-люди (для них частота ошибок составила 57,3 процента). Вероятность правильного ответа в 20 первых предсказаниях модели составила 73,5 процента, что также лучше, чем у всех остальных алгоритмов. Наибольшей эффективности алгоритм достигал по мере роста величины контекста: так, для лучшей работы, по словам ученых, PYTHIA необходимо учитывать минимум 500 рядом стоящих символов.

По мнению авторов, представленный алгоритм может значительно упростить и повысить эффективность расшифровки утерянных фрагментов древних текстов — разумеется, если для них соберется достаточно большой корпус. Стоит отметить, что полагаться в эпиграфике только на алгоритмы все равно нельзя — во многом потому, что точность предсказания далека от идеала. При этом сокращение возможных вариантов расшифровки с помощью PYTHIA, скорее всего, сильно поможет исследователям. Исходный код алгоритма, а также собранный корпус авторы работы выложили в открытый доступ.

Одним из самых интересных с точки зрения эпиграфики исторических памятников по праву можно назвать Розеттский камень, надписи на котором сделаны на древнегреческом, а также на египетском — иероглифическим и демотическим письмом. Именно этот памятник в начале XIX века помог лингвистам дешифровать египетские иероглифы. Больше о Розеттском камне вы можете узнать в нашем материале «Почувствуй себя Шампольоном» — там же мы подготовили для вас лингвистические задачки по расшифровке древних письмен.

Елизавета Ивтушок