Как статистика пересмотрела авторские права Эсхила на «Прометея прикованного»
Нам известны имена более 50 древнегреческих трагиков и названия сотен пьес, но от большинства из них сохранились только названия или малые фрагменты, не позволяющие как-то охарактеризовать авторский стиль. Все аттические трагедии, что мы можем атрибутировать, принадлежат Эсхилу (семь), Софоклу (семь) или Еврипиду (18). Однако уже не первый век филологи сомневаются в двух из них: «Ресе» и «Прометее прикованном». Почему? И как выяснить, не пробрался ли в триумвират великих классиков кто-то четвертый, если оригинальных рукописей у нас нет, а новых свидетельских показаний, скорее всего, у нас никогда уже не будет? N+1 рассказывает об истории этого филологического детектива и показывает, что говорит нам о «деле трагиков» метод, взятый учеными на вооружение в начале XXI века.
Как и большинство произведений древнегреческой литературы, «Рес» и «Прометей прикованный» дошли до нас в благодаря тому, что их копии сохранили византийцы. В копиях указаны имена авторов, но скептиков это не убеждает: возможно, в атрибуции этих текстов ошибались еще александрийские филологи, комментарии которых также до нас дошли. Более того, александрийские комментаторы отмечали, что уже некоторые их современники сомневались в авторстве «Реса». Прямо вопрос об авторстве «Реса» поднял в XVI веке гуманист Жозеф Скалигер. В одном из своих трудов он вскользь заметил, что автор «Реса» — poeta grandiloquentior, «поэт более велеречивый», чем Еврипид, язык персонажей которого довольно близок к разговорному. Многие исследователи подхватили эту мысль, она часто встречается у скептиков до сих пор, и, видимо, оказалась достаточно убедительна для авторов русскоязычной «Википедии» — на соответствующей странице эту трагедию приписывают не Еврипиду, но анонимному драматургу.
В авторстве «Прометея прикованного» впервые усомнились в XIX веке немецкие филологи. Аргументы скептиков сводились к тому, что в остальных пьесах Эсхил демонстрирует почтение к Зевсу, а в «Прометее» тот выступает как жестокий тиран и самодур. Сейчас очевидно, в споре об авторстве подобные аргументы следует принимать во внимание в последнюю очередь — почему бы не предположить, что Эсхил со временем просто изменил свое отношение к Зевсу? И вообще, как можно говорить об авторском отношении к персонажу, если драма на то и драма, что вся речь в ней принадлежит не автору, а действующим лицам? И, наконец, правильно ли мы, современные читатели, интерпретируем характеры персонажей 2500-летней давности: что странного в том, что верховный бог сегодня справедлив и милосерден, а завтра жесток и своеволен?
Итого: оригинальных рукописей аттических драматургов у нас нет — почерковедческую экспертизу мы провести не можем. Как установить авторство?
Надо заметить, что каким бы абстрактным ни казалось понятие «велеречивость», его оказалось возможно точно измерить. Это два параметра: количество разных слов в тексте («богатство словаря») и средняя частотность каждого слова (то есть количество употреблений каждого из слов в тексте, деленное на количество его употреблений в рассматриваемом корпусе текстов).
Что мы имеем в виду под «словами»
Под «словами» можно понимать очень разные объекты. Чтобы не погружаться в лингвистическую терминологию, под «словом» мы подразумеваем последовательность символов между знаками препинания (включая пробелы). То есть «кушал» и «кушаю» — это два разных слова, «будем кушать» — два других слова. Более того, «лён» и «лен» таким образом — тоже два разных слова, так что при анализе необходимо стандартизировать орфографию текста.
Подсчеты частотности слов показывают, что Еврипид бывал «более велеречив» и в своих поздних трагедиях. Например, в «Троянках», трагедии поздне-среднего периода, отношение «длины словаря» (количество разных слов в тексте) к длине текста равно 0,5, а в «Ресе» оно 0,51 — то есть примерно такое же. При этом в «Троянках» 7398 слов, а в «Ресе» — 5628. А если взять среднестатистический куске из «Троянок» такой же длины, как целый «Рес», — то эта метрика станет уже 0,61.
Но сам по себе «критерий велеречивости», хотя и позволяет наконец-то взять и что-то посчитать, не так хорош, как кажется на первый взгляд. Богатство словаря и изысканность слов сильно зависят от авторской воли. Автор может одно произведение (или его отрывок) наполнить высокопарной лексикой, а другое произведение, наоборот, сделать более разговорным. В те времена, когда еще не было модно подсчитывать частотности слов, сторонники авторства Еврипида вполне соглашались с тем, что в «Ресе» драматург «более велеречив», но давали этому другое объяснение, нежели скептики: «Рес», по их мнению, относится к раннему творчеству Еврипида, когда он еще подражал своим учителям, Софоклу и Эсхилу — а в более зрелые годы он выработал свой стиль, менее возвышенный, чем у старших современников. Правда, до нас не дошли сведения ни об одной постановке «Реса», и потому в пользу ранней датировки говорят только косвенные аргументы.
Казалось бы, настоящий простор для статистического исследования должно предоставлять стиховедение. Сотни строк, написанные разными вариациями одного и того же размера (для трагедии это в первую очередь
и анапестический диметр, аналоги русского шестистопного ямба и четырехстопного анапеста), должны отличать одного автора от другого, ведь разные авторы должны предпочитать разные ритмические вариации.
Например, в «Прометее» из 773 ямбических триметров 12 начинаются с двух кратких и одного долгого слога (1,55 процента), тогда как в остальных трагедиях Эсхила этот показатель колеблется от 0,2 процента (в «Просительницах», где всего 1 такая строка) до 0,8 процентов (в «Агамемноне, где их 7). Но, во-первых, само это явление очень редкое. А во-вторых, у другого трагика, Софокла, в «Филоктете» из 1078 ямбических строк 17 обладают этим свойством (1,58 процента), а в «Электре» — всего 1 из 1126 (0,09 процента). И это не заставляет никого сомневаться в том, что «Электра» и «Филоктет» написаны одним автором.
Примерно так обстоит дело с большинством стиховедческих аргументов. Те же черты стиха, которые резко выделяют «Прометея» на фоне трагедий Эсхила — например, большая доля каталектических (укороченных) анапестов в репликах актеров — в действительности объясняются небольшим общим количеством анапестов, и, как следствие, искаженной статистикой. Наконец, утверждение о том, что стиховые особенности произведения, отличающие одного автора от другого, появляются помимо воли автора, крайне сомнительно. Почти на любой аргумент стиховедов за или против той или иной атрибуции можно возразить, что в этом конкретном произведении автор решил поэкспериментировать со стихотворным размером.
Поэтому в вопросах атрибуции текста лучше всего использовать количественные параметры текста, которые отражают разницу между авторами, но о которых сами авторы не задумываются, когда пишут. Американский физик Томас Менденхолл предложил в качестве такого параметра среднюю длину слов, но в дальнейшем оказалось, что этот параметр не работает (по крайней мере на материале тех текстов, в атрибуции которых никто не сомневается). Достаточно взять, например такой набор текстов и привести среднюю длину слова в каждом из них.
Очевидно, никакой связи средней длины слова с авторством не существует.
Поиск «следов», которые автор оставляет в тексте, довольно безуспешно продолжался на протяжении всего XX века. Перелом случился в 2002 году, когда Джон Берроуз опубликовал статью «‘Delta’: a Measure of Stylistic Difference and a Guide to Likely Authorship».
Из всех слов человек меньше всего задумывается над употреблением самых частотных: союзов, предлогов, частиц, артиклей (в тех языках, где они есть), глаголов-связок и т. д. Берроуз установил, что если взять достаточно длинные тексты одного автора, то частотность этих слов в разных текстах будет довольно похожа, а у разных авторов — различаться. На этом основании можно посчитать стилометрическое расстояние между двумя текстами (оно же дельта).
Специально для этого была разработана библиотека Stylo для языка R, которая позволяет не только считать дельты, но и представлять результаты подсчета в наглядных картинках.
Общий принцип подсчета состоит в следующем. В каждом тексте корпуса, который мы изучаем, подсчитывается частотность каждого слова. Далее составляется рейтинг частотности слов во всем взятом корпусе. Из этого рейтинга берутся n так называемых MFW (most frequent words), срез верхушки этого рейтингового списка (величина n определяется исследователем). Например, для английских текстов в топ-10 MFW обычно попадают слова the, and, of, a, to, in, his, with, is, but.
Также из MFW можно отбраковывать те слова, которые встречаются в одном тексте корпуса, но не встречаются в других. С очевидностью, слово «Рес» употребляется в одноименной трагедии достаточно часто, чтобы забраться в общем рейтинге корпуса довольно высоко. Но трагедия о защитнике Трои, убитом Одиссеем, в корпусе аттических трагиков только одна — поэтому из подсчетов «Реса», сверхчастнотного для этой трагедии, можно убрать. Тут есть некоторая проблема: только 177 слов в корпусе присутствуют более чем в 90 процентах текстов, а этого слишком мало — для достоверности лучше проверять стилометрическую дистанцию и на массиве и 100, и 200, и 500, а иногда и больше слов.
Также можно брать не все тексты целиком, а только одинаковые по величине их части. Эта опция бывает полезна при исследовании корпуса, в который попадают тексты самой разной длины. Однако в нашем случае это совершенно необязательно, поскольку трагедии по этому параметру вполне сопоставимы.
Формулы, по которым определяется дельта, различны. Из всего их многообразия мы опишем две: классическую дельту Берроуза и дельту Эдера.
Дельта Берроуза вычисляется по следующей формуле:
Из этой формулы видно, что если некое слово из MFW имеет в корпусе (включая текст А) примерно одну и ту же частотность (стандартное отклонение невелико), а в тексте В — совершенно другую, то вклад этой словоформы в расстояние от А до В будет велик. Напротив, если частотность словоформы сильно меняется от текста к тексту (стандартное отклонение велико), то вклад в формулу будет незначителен.
Дельта Эдера:
Дельта Эдера отличается от дельты Берроуза на множитель, который повышает вес в формуле более частотных словоформ и понижает вес менее частотных. Этот множитель был введен специально для высокофлективных языков (таких, как древнегреческий), где необходимо включать в MFW больше словоформ. Дело в том, что все многообразие служебных слов слабофлективного языка (например, английского или тем более китайского и кхмерского) «укладывается» в самую верхушку MFW (100-150 слов), тогда как для флективного языка многие служебные слова (например, артикль) имеют множество словоформ, и длину MFW следует увеличить до 300-500, чтобы в них попало больше служебных слов. Разумеется, туда попадут и многие полнозначные слова, и, чтобы их вклад в формулу был меньше, чем, скажем, соединительного союза, и придуман этот множитель.
Когда в 2013 году вышел роман «Зов Кукушки» под псевдонимом «Роберт Гэлбрейт», в авторстве заподозрили Джоан Роулинг (ее предыдущая книга «Случайная вакансия» вышла в филиале того же издательского дома, что и «Зов Кукушки»). Журналисты The Sunday Times, проверяя эту гипотезу, использовали программу JGAAP (Java Graphical Authorship Attribution Program), разработанную Патриком Джуолой, профессором Университета Дюкейна. JGAAP — это аналог R Stylo, написанный на языке Java. Программа показала, что «Зов кукушки» больше похож на тексты Роулинг, чем на чьи-либо другие. На следующий день знаменитая писательница призналась в мистификации.
Прежде чем продемонстрировать результаты работы метода Берроуза на материале древнегреческой драмы, скажем, что он был успешно опробован на десятках языков и сотнях достоверно атрибутированных текстов. Метод дает сбои, по-видимому, только в двух случаях:
В случае корпуса древнегреческой трагедии эти условия не выполняются, так что оснований не доверять результатам работы программы у нас нет.
Итак, мы знаем, что дельта (стилометрическое расстояние) между текстами больше, если тексты не похожи друг на друга по частотностям MFW, и меньше, если они похожи. После попарного подсчета дельт между текстами следует этап графического представления данных. Здесь мы ограничимся кластерным анализом.
Этот метод позволяет нам «упаковать» все тексты нашего корпуса в «родственные» группы максимально плотно. В пару объединяются сначала тексты А и В, расстояния между которыми наименьшие. Затем считается среднее расстояние между третьим текстом, С и каждым текстом кластера АВ, а также расстояние от С до каждого из остальных текстов. Если С ближе к кластеру, то он присоединяется к нему «сверху». Если же С ближе к какому-то D из еще не выбранных текстов, то образуется кластер CD. И так продолжается до тех пор, пока самый удаленный от всех текст не займет свое место в каком-либо кластере. Вот как выглядит «филогенетическое древо» 32 аттических трагедий, посчитанное по дельте Эдера.
Здесь кажется, что подозрения скептиков имеют под собой основания: и «Рес», и «Прометей прикованный» выбиваются из рядов других текстов. Более того, «Прометей» покидает кластер Эсхила и переходит к Софоклу.
Давайте пойдем дальше. Добавим в наш корпус полностью сохранившиеся и достаточно длинные тексты того же периода в наиболее близком к ней жанре — это комедии Аристофана. Комедиограф также писал для театра и был современником «отцов трагедии». Кроме того, логичнее сравнивать корпус древнегреческих трагедий с другими драматическими текстами, а не философскими трактатами. Также добавим в корпус Еврипида еще один текст, сатировскую драму «Циклоп» (единственная в своем жанре — сочетает элементы трагедии и комедии), которая к трагедиям не относится, но в авторстве которой мы уверены.
Все тексты, в авторстве которых никто не сомневается, оказываются в одном кластере при любых параметрах подсчета дельты. Даже в сверхкратком (в нем всего 4123 слова, что ниже рекомендуемого при работе со Stylo минимума) и принадлежащем другому жанру «Циклопе» стиль Еврипида узнаваем.Это заставляет доверять результатам нашего анализа на всем материале древнегреческой драмы.
Что касается «Реса», то практически при любой формуле дельты, размере MFW (даже при MFW = 50) и проценте отбраковки, включении или невключении в корпус комедий Аристофана, трагедия остается вместе с другими текстами Еврипида, причем всегда встает ближе к ранним работам, чем к поздним. Тот факт, что он оказывается сгруппирован с «Циклопом», заведомо принадлежащим Еврипиду, а не занимает отдельную ветвь дерева, говорит также в пользу авторства Еврипида.
А вот с «Прометеем», который возбудил подозрения намного позже, чем «Рес», все намного интереснее.
Он практически ни при каких параметрах не оказывается ближе к Эсхилу, чем к Еврипиду или Софоклу. Причем, если продолжать «крутить» параметры анализа, эта трагедия «перепрыгивает» из кластера Софокла в кластер Еврипида и обратно, и неизменно занимает в них самое верхнее положение. Так при кластерном анализе не ведет себя ни спорный «Рес», ни маленький «Циклоп», и ни одна достоверно атрибутированная драма. И вот это с высокой степенью вероятности уже указывает на то, что «Прометей прикованный» действительно был написан каким-то современником Эсхила, Софокла и Еврипида, но вряд ли кем-либо из них троих.
Теперь мы можем вернуться к спору об авторстве двух аттических трагедий с нашим решением. Сомнения в том, что «Рес» принадлежит перу Еврипида, стилометрический анализ не подтверждает. А вот из библиографии Эсхила «Прометея прикованного» стоит, по-видимому, вычеркивать. Несомненно, аргументация «от статистики» остается все еще косвенной — находка V века до нашей эры, прямо свидетельствующая о том, кто был автором «Прометея», моментально поставит жирную точку в этом вопросе. Но пока таковой нет, аргумент от стилометрии остается самым сильным.
Дмитрий Крылов