Искусственный интеллект определил язык рукописи Войнича. Получился иврит

Фрагмент рукописи Войнича

Beineke Library

Поправка: После того как эта новость уже была опубликована, один из авторов обсуждаемой в ней работы, Гжегож Кондрак, прислал в редакцию N + 1 письмо со ссылкой на научную статью, в которой описываются полученные им и Брэдли Хауэром результаты. Оказалось, что статья была опубликована в 2016 году. Подробнее о том, почему ученым до сих пор не удается расшифровать манускрипт Войнича, вы можете прочитать в этом материале, который лингвист Александр Пиперски написал для N + 1.

Канадские лингвисты применили алгоритм искусственного интеллекта для расшифровки рукописи Войнича, написанной на неизвестном языке. Исследователи утверждают, что им удалось прочесть первое предложение, а также определить язык манускрипта — им оказался иврит, сообщает канал CTV News. Публикации в рецензируемом журнале о результатах работы на данный момент нет, и другие ученые относятся к этому заявлению с осторожностью.

Рукопись Войнича представляет собой иллюстрированную книгу, созданную в Центральной Европе в XV–XVI веках неизвестным автором. Она была названа по имени коллекционера Уилфрида Войнича (Wilfrid Voynich), который приобрел ее в 1912 году у иезуитов в местечке неподалеку от Рима. Сейчас она хранится в библиотеке Йельского университета. Книга написана на неизвестном языке с помощью алфавита, насчитывающего 20–25 букв: исключение составляют лишь несколько десятков знаков, встречающихся в рукописи всего один-два раза. Рукопись состоит из 240 страниц из тонкого пергамента и поделена на шесть разделов, которые сопровождаются рисунками.

Несколько лет назад удалось установить, что текст рукописи Войнича подчиняется закону Ципфа, статистически описывающему встречаемость слов в естественных языках. Это говорит в пользу вполне осмысленного содержания книги. Тем не менее, расшифровать ее язык до сих пор никому не удалось, хотя сделать это пытались многие. В их число вошли такие известные криптологи, как Уильям Фридмен, который во время Второй мировой войны взломал код японской шифровальной машины PURPLE, и британец Джон Тилтмен, считавшийся одним из лучших криптологов времен Второй мировой, — однако они не добились успеха.

Гжегож Кондрак (Grzegorz Kondrak) и Брэдли Хауэр (Bradley Hauer) из Альбертского университета попытались разгадать тайну рукописи Войнича с помощью алгоритма искусственного интеллекта. Для обучения алгоритма использовалась Всеобщая декларация прав человека, переведенная на 380 языков. Как заявляют разработчики, их программа научилась определять язык с 97-процентной точностью. При этом как именно проверялся алгоритм, не сообщается.

Статистический анализ манускрипта, выполненный алгоритмом, показал, что его текст написан на иврите. Кондрак и Хауэр предположили, что в книге используется шифр, при котором буквы в каждом слове меняются местами, а гласные опускаются. Исходя из этого допущения, они попытались перевести первое предложение рукописи Войнича с иврита. По версии авторов, оно звучит так: «Она дала рекомендации священнику, хозяину дома, и мне, и людям» («She made recommendations to the priest, man of the house and me and people»).

Среди первых 72 слов книги, по заявлению авторов, также встречаются слова «крестьянин», «свет», «воздух» и «огонь». Это говорит в пользу гипотезы, что манускрипт Войнича мог служить фармакопеей, то есть сводом правил, которыми руководствуются при изготовлении, хранении и назначении лекарственных препаратов. Кондрак признает, что искусственного интеллекта недостаточно для расшифровки кодекса. В процессе необходимо участие людей, так как только они поймут синтаксис и смысл слов.

Эксперты восприняли сообщения о расшифровке скептически. «Пока нет полноценной научной статьи, рассказывающей об исследовании, что-то сказать сложно. По тому, что опубликовано в канадской прессе, создается впечатление, что авторы изучали частотные распределения символов, при этом допуская мысль о том, что буквы в словах могут быть переставлены местами. Это не самая обычная ситуация, которая возникает при автоматическом определении языка по тексту: обычно компьютерная лингвистика имеет дело с текстами, в которых буквы идут в нормальном порядке, и тогда частотность букв и их сочетаний позволяет легко определить, на какой из известных языков больше всего похож текст. Но есть риск, что, допуская произвольные перестановки букв в слове, авторы дали себе слишком много свободы: подозреваю, что так можно обнаружить в манускрипте Войнича почти любой язык. Я верю, что у них были какие-то способы оценивать статистическую значимость результата и ранжировать вероятности для разных языков, но пока нет подробностей, полагаться на это нельзя», — сказал N+1 лингвист Александр Пиперски, научный сотрудник ВШЭ и доцент РГГУ.

«Еще одна важная проблема — собственно лингвистическая: нет сомнений, что авторы сравнивали частотность символов с современными языками. Но ведь манускрипт Войнича был написан в XV веке, и понятно, что за это время сильно изменились и языки, и системы письма. Даже если взять русский язык, в современном тексте не будет, например, буквы „ъ“ в конце слов и буквы „ѣ“, а значит, частотное распределение букв совсем не такое, как в XV веке. И, конечно, остаются и филологические вопросы, связанные с интерпретацией. Авторы исследования говорят, что среди первых четырех слов одного из разделов нашлись слова „крестьянин“, „свет“, „воздух“ и „огонь“, которые хорошо вписываются в трактакт по ботанике. Но здесь нет ни одного слова именно про растения — и ясно, что если бы на картинках были изображены не растения, а скажем, виды оружия, мы бы так же легко сказали, что это слова из трактата об оружии, а если бы нашлись другие слова, мы бы и их подогнали под ботанику. Первая фраза — „Она дала советы священнику, хозяину, мне и людям“ без более широкого контекста тоже выглядит как подгонка под ответ», — считает ученый.

Кроме того, жаль, что Грег Кондрак с ходу противопоставляет себя другим специалистам по манускрипту Войнича. «Они боятся, что компьютеры их заменят», — говорит Кондрак — но вообще-то математические методы, а значит, и компьютеры используются в дешифровке уже много лет, в том числе и при анализе манускрипта Войнича. Например, Алиса Кобер в первой половине XX века проделала много технической работы с греческим линейным письмом Б — и наверняка была бы только рада, если бы часть ее взял на себя компьютер. Но алгоритмы-то все равно пока приходится придумывать человеку, так что Кондрак просто стал еще одним из людей, высказавших гипотезу о манускрипте Войнича, а не первопроходцем, который перевернул мир дешифровки», — заключает Пиперски.

Недавно испанский издательский дом Siloé получил право на публикацию ограниченной серии копий рукописи Войнича. По мнению сотрудников Библиотеки Бейнеке, где хранится рукопись, публикация поможет приблизиться к прочтению таинственного текста.

Кристина Уласович




Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.