Поправка: После того как эта новость уже была опубликована, один из авторов обсуждаемой в ней работы, Гжегож Кондрак, прислал в редакцию N + 1 письмо со ссылкой на научную статью, в которой описываются полученные им и Брэдли Хауэром результаты. Оказалось, что статья была опубликована в 2016 году. Подробнее о том, почему ученым до сих пор не удается расшифровать манускрипт Войнича, вы можете прочитать в этом материале, который лингвист Александр Пиперски написал для N + 1.
Канадские лингвисты применили алгоритм искусственного интеллекта для расшифровки рукописи Войнича, написанной на неизвестном языке. Исследователи утверждают, что им удалось прочесть первое предложение, а также определить язык манускрипта — им оказался иврит, сообщает канал CTV News. Публикации в рецензируемом журнале о результатах работы на данный момент нет, и другие ученые относятся к этому заявлению с осторожностью.
Рукопись Войнича представляет собой иллюстрированную книгу, созданную в Центральной Европе в XV–XVI веках неизвестным автором. Она была названа по имени коллекционера Уилфрида Войнича (Wilfrid Voynich), который приобрел ее в 1912 году у иезуитов в местечке неподалеку от Рима. Сейчас она хранится в библиотеке Йельского университета. Книга написана на неизвестном языке с помощью алфавита, насчитывающего 20–25 букв: исключение составляют лишь несколько десятков знаков, встречающихся в рукописи всего один-два раза. Рукопись состоит из 240 страниц из тонкого пергамента и поделена на шесть разделов, которые сопровождаются рисунками.
Несколько лет назад удалось установить, что текст рукописи Войнича подчиняется закону Ципфа, статистически описывающему встречаемость слов в естественных языках. Это говорит в пользу вполне осмысленного содержания книги. Тем не менее, расшифровать ее язык до сих пор никому не удалось, хотя сделать это пытались многие. В их число вошли такие известные криптологи, как Уильям Фридмен, который во время Второй мировой войны взломал код японской шифровальной машины PURPLE, и британец Джон Тилтмен, считавшийся одним из лучших криптологов времен Второй мировой, — однако они не добились успеха.
Гжегож Кондрак (Grzegorz Kondrak) и Брэдли Хауэр (Bradley Hauer) из Альбертского университета попытались разгадать тайну рукописи Войнича с помощью алгоритма искусственного интеллекта. Для обучения алгоритма использовалась Всеобщая декларация прав человека, переведенная на 380 языков. Как заявляют разработчики, их программа научилась определять язык с 97-процентной точностью. При этом как именно проверялся алгоритм, не сообщается.
Статистический анализ манускрипта, выполненный алгоритмом, показал, что его текст написан на иврите. Кондрак и Хауэр предположили, что в книге используется шифр, при котором буквы в каждом слове меняются местами, а гласные опускаются. Исходя из этого допущения, они попытались перевести первое предложение рукописи Войнича с иврита. По версии авторов, оно звучит так: «Она дала рекомендации священнику, хозяину дома, и мне, и людям» («She made recommendations to the priest, man of the house and me and people»).
Среди первых 72 слов книги, по заявлению авторов, также встречаются слова «крестьянин», «свет», «воздух» и «огонь». Это говорит в пользу гипотезы, что манускрипт Войнича мог служить фармакопеей, то есть сводом правил, которыми руководствуются при изготовлении, хранении и назначении лекарственных препаратов. Кондрак признает, что искусственного интеллекта недостаточно для расшифровки кодекса. В процессе необходимо участие людей, так как только они поймут синтаксис и смысл слов.
Эксперты восприняли сообщения о расшифровке скептически. «Пока нет полноценной научной статьи, рассказывающей об исследовании, что-то сказать сложно. По тому, что опубликовано в канадской прессе, создается впечатление, что авторы изучали частотные распределения символов, при этом допуская мысль о том, что буквы в словах могут быть переставлены местами. Это не самая обычная ситуация, которая возникает при автоматическом определении языка по тексту: обычно компьютерная лингвистика имеет дело с текстами, в которых буквы идут в нормальном порядке, и тогда частотность букв и их сочетаний позволяет легко определить, на какой из известных языков больше всего похож текст. Но есть риск, что, допуская произвольные перестановки букв в слове, авторы дали себе слишком много свободы: подозреваю, что так можно обнаружить в манускрипте Войнича почти любой язык. Я верю, что у них были какие-то способы оценивать статистическую значимость результата и ранжировать вероятности для разных языков, но пока нет подробностей, полагаться на это нельзя», — сказал N+1 лингвист Александр Пиперски, научный сотрудник ВШЭ и доцент РГГУ.
«Еще одна важная проблема — собственно лингвистическая: нет сомнений, что авторы сравнивали частотность символов с современными языками. Но ведь манускрипт Войнича был написан в XV веке, и понятно, что за это время сильно изменились и языки, и системы письма. Даже если взять русский язык, в современном тексте не будет, например, буквы „ъ“ в конце слов и буквы „ѣ“, а значит, частотное распределение букв совсем не такое, как в XV веке. И, конечно, остаются и филологические вопросы, связанные с интерпретацией. Авторы исследования говорят, что среди первых четырех слов одного из разделов нашлись слова „крестьянин“, „свет“, „воздух“ и „огонь“, которые хорошо вписываются в трактакт по ботанике. Но здесь нет ни одного слова именно про растения — и ясно, что если бы на картинках были изображены не растения, а скажем, виды оружия, мы бы так же легко сказали, что это слова из трактата об оружии, а если бы нашлись другие слова, мы бы и их подогнали под ботанику. Первая фраза — „Она дала советы священнику, хозяину, мне и людям“ без более широкого контекста тоже выглядит как подгонка под ответ», — считает ученый.
Кроме того, жаль, что Грег Кондрак с ходу противопоставляет себя другим специалистам по манускрипту Войнича. «Они боятся, что компьютеры их заменят», — говорит Кондрак — но вообще-то математические методы, а значит, и компьютеры используются в дешифровке уже много лет, в том числе и при анализе манускрипта Войнича. Например, Алиса Кобер в первой половине XX века проделала много технической работы с греческим линейным письмом Б — и наверняка была бы только рада, если бы часть ее взял на себя компьютер. Но алгоритмы-то все равно пока приходится придумывать человеку, так что Кондрак просто стал еще одним из людей, высказавших гипотезу о манускрипте Войнича, а не первопроходцем, который перевернул мир дешифровки», — заключает Пиперски.
Недавно испанский издательский дом Siloé получил право на публикацию ограниченной серии копий рукописи Войнича. По мнению сотрудников Библиотеки Бейнеке, где хранится рукопись, публикация поможет приблизиться к прочтению таинственного текста.
Кристина Уласович
Это щелевые сонорные
Психологи изучили, как используют обсценную лексику носители разных далеких друг от друга языков. Оказалось, что люди чаще всего считают щелевые сонорные звуки, соответствующие буквам l, w, y и r, менее подходящими для нецензурной лексики, чем другие, — и это не зависит от языка, на котором они говорят. Исследование опубликовано в Psychonomic Bulletin & Review. Один из главных принципов теории знака, описанный еще в XX веке Фердинандом де Соссюром, гласит: связь между двумя компонентами знака — означающим (акустическим образом) и означаемым (понятием) — произвольна, то есть никакие свойства означаемого не выражаются в означающем. Это значит, что звучание слова никак не связано с его значением. Но бывают исключения: например, между звучанием и значением звукоподражаний (гав-гав) есть вполне определенная связь. Да и некоторые другие слова на разных языках звучат очень похоже. Так, например, в разных языках в слове нос часто (но не всегда) встречается носовой звук [n]. А гласный звук [i] и другие высокочастотные звуки часто связаны с чем-то маленьким. Это так называемая звуковая символика. Возможно, нецензурная лексика тоже подчиняется подобным закономерностям: какие-то звуки делают ругательства более ругательными, а другие, наоборот, — менее. Некоторые авторы полагают, что матерные слова богаты взрывными звуками, такими как [b], [p], [t], [k], но эти выводы основаны только на нескольких индоевропейских языках. Теперь исследователи с факультета психологии Ройял Холлоуэй Лондонского университета Шири Лев-Ари (Shiri Lev-Ari) и Райан Маккей (Ryan McKay) решили выяснить, есть ли фонетические закономерности в ругательствах разных языков. Для этого они провели три исследования. В пилотное исследование ученые пригласили по 20 носителей пяти далеких друг от друга языков: иврита, хинди, венгерского, корейского и русского. Участников попросили вспомнить «самые вульгарные» выражения, которые используют люди, когда очень расстроились или когда хотят кого-то сильно оскорбить. В окончательные списки принимались только те слова и фразы, которые предлагали минимум двое носителей из группы. После исключения повторов (вроде fuck, fucking, fucker) и расовых оскорблений на каждом языке осталось от 14 (венгерский) до 34 выражений (иврит); на русском в финале осталось всего 26 оскорблений. Каждый согласный звук ученые отнесли к какой-либо фонетической группе. Так, например, фрикативы — что-то вроде всем знакомых шипящих: сюда относятся звуки, которые соответствуют буквам s, z, h, f, x и подобные, их обозначают так: [s], [z], [ʃ], [ȝ], [f], [v], [θ], [ð], [x], [ɣ], [h], [ɦ], [χ], [ħ] и [ʕ]. Аффрикаты — звуки букв c и j — [ʦ], [ʣ], [ʧ], и [ʤ]. Носовые — обозначаемые как [m], [n], [ŋ] и [ɲ]. Аппроксиманты или щелевые сонорные — звуки букв l, w и y, которые обозначают как [l], [ʟ], [ʅ], [ʎ], [w], [j], и все звуки, которые можно обозначить буквой r. Чтобы выяснить, как часто звуки из разных фонетических групп встречаются в ругательствах, авторы сравнивали частоту встречаемости каждой фонетической группы в обсценных выражениях с частотой их встречаемости в контрольных словах — списках Сводеша. Оказалось, что чаще всего в ругательствах не хватает звуков-аппроксимантов, обозначаемых буквами l, r, w, и y. В следующем исследовании авторы проверили, чувствуют ли эту звуко-символическую ассоциацию носители разных языков. В нем 215 человек — носители арабского, китайского, финского, французского, немецкого и испанского — оценивали пары незнакомых иноязычных слов. Людям сказали, что одно слово в паре ругательное, а другое — нет, и нужно определить, где какое. На самом же деле оба слова были псевдословами, основанными на существующих. Так, например, из русского слова спина получилась версия с аппроксимантом — спила, и без — спича. Зачитывал слова робот, а не человек — это было сделано, чтобы не давать участникам интонационных подсказок. Гипотеза ученых подтвердилась: если в слове были аппроксиманты, люди реже относили слово к нецензурным. Причем так поступали даже носители французского, хотя в их языке нецензурные выражения нередко включат аппроксиманты. По мнению ученых это значит, что такое ощущение языка не отражает лингвистические знания, а затрагивает основные когнитивные предубеждения. В завершение авторы составили список «смягченных ругательств» на английском. Он содержал 67 слов, которые произошли от 24 более грубых ругательств. Так, например, мягкие версии fuck — frigging и effing. Анализ всех этих слов показал, что в смягченных ругательствах содержалось гораздо больше аппроксимантов, чем в оригинальных словах. Возможно, эти звуки и делают ругательства не такими грубыми. То есть если человек хочет сделать слово менее обидным — он скорее всего добавит в него звуки, соответствующие буквам l, r, w или y. Авторы считают, что звуковая символика, которая связывает определенные звуки с конкретными значениями, более распространена, чем считалось прежде. Подобная чувствительность к языку проявляется в эффекте «буба-кики»: резко-звучащие псевдослова люди обычно ассоциируют с чем-то острым, а мягкие и округлые — с круглым. А вот шимпанзе, гориллы и бонобо, эту связь, видимо, не чувствуют.