Лингвисты из Массачусетского технологического института статистически подтвердили «гипотезу минимизации длины зависимости», согласно которой порядок слов во всех человеческих языках не допускает слишком далекого расположения зависимых слов в предложении. По словам ученых, им впервые удалось показать верность этой гипотезы на большой выборке языков из 10 языковых семей. Исследование опубликовано в журнале Proceedings of the National Academy of Sciences, кратко о нем пишет Science.
Основой исследования стали 37 корпусов текстов на разных языках, в основном состоящие из современных новостных, публицистических и художественных текстов. Длина зависимости для каждого из слов во всех предложениях анализировалась автоматически с помощью специального алгоритма.
Длиной зависимости называют число слов, которое отделяет зависимое слово от управляющего (head) слова. Сами авторы поясняют это на примере предложения John threw out the trash («Джон выбросил мусор», дословно «Джон бросил вон этот мусор»). В нем глагол «бросать» управляет существительным «мусор», поэтому для понимания смысла предложения требуется прочитать (или услышать) оба слова.
В данном случае между зависимыми словами всего три интервала, но в более сложных предложениях длина зависимости может быть гораздо выше. Кроме того, одно и то же предложение может существовать в нескольких вариантах с разной длиной зависимости. Например: John threw out the old trash sitting in the kitchen и John threw the old trash sitting in the kitchen out. Гипотеза минимизации длины говорит о том, что в природных языках — по сравнению с полностью случайной моделью — существует предпочтение в сторону уменьшения этого расстояния.
Исследование показало, что во всех 37 языках такое предпочтение действительно существует: средняя длина зависимости в текстах из корпуса короче, чем в этих же текстах, но случайно перемешанных. Однако разница между естественным текстом и его случайной моделью у разных языков очень сильно отличается. В некоторых (английском, португальском, итальянском) длина зависимости гораздо ниже, чем при свободном порядке слов, в других языках (в латыни, немецком и турецком), разница очень небольшая, но, по словам авторов, все же статистически значимая (p<0,0001).
Гипотеза минимизации длины зависимости опирается на интуитивное представление о том, что внимание человека при речи и слушании ограничено. Следовательно, на понимание предложения с высокой длиной зависимости должно уходить больше усилий (и, в конце концов, метаболической энергии), чем на понимание предложения с низкой длиной. Физиологических данных о том, что это так, пока нет. Однако новая работа поддерживает гипотезу со стороны лингвистики.