Теория дрейфа генов и изменяемость языков

Алексей Касьян Лингвист

Мнение редакции может не совпадать с мнением автора

Статья группы ученых из Пенсильванского университета (США), применивших методы популяционной генетики для оценки роли случайности в эволюции языка, сразу привлекла внимание профессиональных лингвистов благодаря неожиданности своего подхода и спорному характеру выводов. Мы уже опубликовали один отклик такого рода, на этот раз в спор с американскими учеными, биологами и специалистами по теории игр, вступает сотрудник Института языкознания РАН, доктор филологических наук Алексей Касьян.

Когда лингвист не может объяснить нерегулярность, он говорит: «По аналогии» (профессиональная шутка).

Недавно в журнале Nature вышла статья (Newberry et al. 2017), авторы которой (среди которых, как водится, нет лингвистов в традиционном понимании) предложили, а точнее развивают идею, предложенную несколько ранее другими исследователями, что языковые изменения в языке популяции — это аналог дрейфа генов в генофонде популяции. Скажем, кто-то начинает употреблять какую-нибудь инновационную языковую форму (например, «текёт» вместо «течёт»), постепенно количество носителей этой формы может начать расширяться, через N поколений бóльшая часть людей или вся популяция начинает говорить «текёт».

Авторы разработали некий алгоритм, позволяющий оценить вероятность p нулевой гипотезы, то есть вероятность того, что данное диахроническое изменение (данное нам в количественной динамике на некотором промежутке времени) распространилось и закрепилось в языке случайно в силу стохастических процессов.

Практическое применение таково: мы, лингвисты, берем некоторое изменение в языке, оцениваем p нулевой гипотезы. Если p >= 0,05, то расслабляемся и говорим, что перед нами результат случайного процесса. Если p < 0,05, значит не случайность и мы должны попытаться найти сущностное объяснение языковому изменению. NB: авторы статьи берут довольно щадящий порог 0,05, а также смотрите ниже сомнения по поводу поправки на множественный эксперимент.

В качестве основы авторы применяют модель Райта-Фишера (Wright-Fisher), которая традиционно используется для описания дрейфа генов. Я не математик, поэтому не могу судить об особенностях матаппарата. Один из ключевых моментов: насколько корректно авторы отработали поправку на множественный эксперимент (описание на странице 1 Приложений). Тут хотелось бы получить комментарий математика.

Необходимо сказать, что модель Райта-Фишера учитывает как наследственную передачу генов, так и параллельный перенос генов. Это важно, поскольку тут есть различие между биологической эволюцией (в основном с наследственной передачей) и изменением языка. Конечно, речевые особенности, в том числе, передаются и по наследству (по понятным причинам, обычно от матери/бабушки к ребенку, а не от отца), но все-таки в основном языковые изменения — это *горизонтальный перенос генов* (индивидуум меняет свою речь под влиянием среды). То есть подростком или даже еще ребенком человек переучивается под господствующий узус — поэтому диалектные черты не выживают при переезде носителя в город и тому подобное.

При любой попытке перенести биологические техники в языкознание встает вопрос, есть ли сущностное и философское обоснование применимости данной модели к языку. И совсем не всегда, даже в случае очень громких статей на лингвистические темы, публикуемых биологами в высокоимпактных журналах, ответ звучит как «да».

Касательно Newberry et al. 2017 я бы выделил такие спорные пункты.

1. Горизонтальный перенос речевых особенностей — не рандомный процесс. В каждой социолингвистической ситуации обычно есть более «агрессивные» индивидуумы, которые навязывают свои речевые особенности менее «агрессивным».

Обычно (но не всегда) такое навязывание происходит со стороны культурно доминирующей группы, речь которой воспринимается как более престижная. Причем такая навязывающая группа может быть как большинством в популяции (например, носитель диалекта приехал в город и подстраивает свою речь под городское койне), так и меньшинством (например, при прескриптивной языковой политике государства небольшая прослойка носителей «литературного языка» может насадить свои нормы среди значительной части населения).

Пример: в 90-е годы у слово «риск» появилась субпарадигма множественного числа — «риски». Это черта профессионального банковского сленга (как множественное число существительных «хлебА», «пивА» у пищевиков), которая, однако, проникла в общий узус, видимо, из-за престижности данной сферы деятельности.

Это уже прямо противоречит стохастической концепции дрейфа генов: языковые изменения часто диктуются разными социальными детерминантами (почему мы взяли в свою речь жаргонизм «риски», но продолжаем говорить о сортах пива, а не о «пивах»?).

В принципе, насколько я знаю, модель Райта-Фишера позволяет учесть селективную ценность конкретного гена (аллеля), если эти дополнительные условия прописать в модель. Но для языковых изменений выявить эти детерминанты и дать им количественную оценку (особенно для социолингвистической ситуации двух-трехвековой давности) в большинстве случаев невозможно.

2. Аналогия, как бы над этим объяснением мы ни шутили, — это довольно активно действующий механизм языковых изменений. Есть зоны, где аналогия типологически частотна. Это, например, избавление от фонетических чередований внутри парадигмы, если эти чередования на данном этапе языка уже больше не автоматичны (так русская парадигма рука — руке вытеснила древнерусскую парадигму рука — руцѣ). Или же уподобление числительных друг другу (в славянских языках восемь получило конечный -мь по аналогии с семь). Это фактор, который в каждом конкретном случае имеет разную силу, но как эту силу измерить и как ее включить в модель Райта-Фишера?

3. Кроме того, язык худо-бедно, но представляет из себя систему. Это значит, что многие (хотя явно не все и не всегда) признаки могут тянуть за собой изменение соседних признаков. То, что внешне кажется случайным и немотивированным изменением, на самом деле при аккуратном анализе может получить убедительное объяснение как следствие из каких-либо смежных процессов. Самый тривиальный пример: изменение одного звука в другой, например i > e, должно каузировать переход какого-нибудь другого гласного в i, так как i-образный звук обязан присутствовать в языке (типологически исключения есть, но они единичны). Если слово со значением ‘arm’ переживет семантический сдвиг в ‘hand’, это может каузировать сдвиги у смежных анатомических терминов (‘upper arm’ > ‘arm’, ‘shoulder’ > ‘upper arm’). И так далее.

4. Несколько странное впечатление производят и сами примеры из истории английского языка, которыми авторы иллюстрируют свой метод. В примере №1 авторы исследуют динамику болтанки между регулярной и нерегулярной формами прошедшего времени (вроде dwelled ~ dwelt) за последние 200 лет.

Рассматриваются 36 глаголов. У некоторых нерегулярная форма постепенно заменяется на регулярную (например, spilt → spilled), у некоторых наоборот нерегулярная форма вытесняет старую регулярную (wedded → wed).

Авторы приходят к выводу, что для 30 глаголов нулевая гипотеза (= стохастический дрейф генов) имеет p ≥ 0,05, следовательно, по мнению авторов, ее нужно принять и не пытаться найти какое-то объяснение таким тенденциям у данных слов, они обусловлены случайностью.

А для 6 глаголов нулевая гипотеза имеет p < 0,05 (lighted → lit, waked → woke, sneaked → snuck, dived → dove; wove → weaved, smelt → smelled). Значит, по мнению авторов, есть у этих слов какая-то содержательная причина для такого развития.

Но ведь вряд ли осмысленно рассматривать эти 30 и 6 глаголов отдельными группами. Вариативность форм прошедшего времени в 36 глаголах — явление одного порядка, причем без какого-либо очевидного объяснения.

Авторы пытаются прибегать к аналогическому выравниванию по сходно звучащим глаголам (рифме). Мол, dived → dove по аналогии с формой прошедшего времени drove. Но почему же этому не воспрепятствовала аналогия с регулярными глаголами thrive, survive, revive, derive, deprive, contrive, arrive? Смотрите Extended Data Table 2, где авторы приводят основные рифмы к 36 исследуемым глаголам.

В целом, однако статья полезна.

Во-первых, факт, что лингвисты (в силу традиционного филологического образования) слишком редко задумываются о возможности, что исследуемая конфигурация могла сложиться случайно. И генерят различные спекулятивные теории там, где можно принять нулевую гипотезу (то есть совершают ошибку 1-го рода, false positive). Статья Newberry et al. 2017 может привлечь внимание к этой проблеме.

Во-вторых, не исключено, что социолингвистические доминанты и аналогическое давление как-то удастся встроить в модель. И тогда ее применение к лингвистическому материалу станет намного более обоснованным, чем сейчас.

А ответ на вопрос, как подобного толка междисциплинарные статьи проникают в высокоимпактные журналы, мы попытались дать в заметке «Славянский язык идиш и другие издержки системы peer review в междисциплинарных исследованиях» (ТрВ, 26.07.2016, № 209 с. 6–7).

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

Не хватает слов

Российские биологи определили механизмы гибридной стерильности у самцов полевок