Статистика помогла лингвистам разобраться в пересечениях синтаксических связей

C. Gómez-Rodríguez and R. Ferrer-i-Cancho / Physical Review E, 2017

Испанские лингвисты нашли статистическую модель, которая с очень небольшой ошибкой предсказывает вероятность обнаружить в предложениях пересечения синтаксических связей между зависимыми словами. Применимость модели была показана для 30 языков различных языковых семей, пишут ученые в Physical Review E.

Если структуру предложения представить в виде последовательности слов, соединенных друг с другом связями грамматической зависимости, то окажется, что в подавляющем большинстве случаев (в совершенно разных языках) предложения строятся так, чтобы эти соединения не пересекались между собой. Поскольку пересечения синтаксических связей встречаются довольно редко, а те предложения, в которых они все-таки есть, часто труднее для понимания, то можно сделать вывод, что существуют какие-то специальные ограничители, которые не дают построить предложение по-другому.

Однако такие конструкции, хоть и не часто, но все-таки встречаются, и объяснить их простым грамматическим запретом нельзя. Поэтому для объяснения их редкости обычно рассматривают две возможные причины: грамматический запрет, который регулируется каким-то скрытым параметром и может быть в некоторых случаях обойден, или последовательное действие ограничительных правил, связанных непосредственно с пересечением синтаксических связей.

Лингвисты Карлос Гомес-Родригес (Carlos Gómez-Rodríguez) из Университета Ла-Коруньи и Рамон Феррер-и-Канчо (Ramon Ferrer-i-Cancho) из Политехнического университета Каталонии решили для объяснения этого эффекта не рассматривать возможные причины низкой вероятности пересечения синтаксических связей, а найти такую математическую модель, которая объясняла бы их статистически и могла предсказать вероятность появления таких пересечений в предложениях. В качестве такой модели ученые предложили использовать линейную последовательность из связанных между собой отдельных элементов. Каждый элемент обозначает одно слово в предложении, а связь между элементами — грамматическую зависимость. При этом «выгодность» той или иной конфигурации определяется в первую очередь стремлением минимизировать длину связей между элементами (у этого стремления существует и доказанная простая психологическая аргументация: чем больше расстояние между двумя связанными в предложении словами, тем оно сложнее для понимания).

Рассматриваемая линейная система в таком случае характеризуется двумя параметрами: числом пересечений синтаксических связей и их суммарной длиной. Однако минимизация обоих этих параметров не приведет к нужному результату: в случае минимизации числа пересечений их количество было бы всегда равно нулю (что неверно), а стремление к минимальной суммарной длине связей сложно реализовать при реальном использовании языка. Поэтому для описания линейной системы ученые предложили использовать статистический подход: случайное линейное ранжирование с некоторыми ограничениями на суммарную длину зависимостей. Используя такой подход, авторы работы рассчитали вероятность пересечения двух пар связанных слов в предложении в зависимости от расстояния между словами в каждой паре для предложений различной длины (от 4 до 16 слов).

Оценив вероятность найти в предложении пару связанных слов той или иной длины и просуммировав все вероятности с учетом этого ограничения, можно с определенной ошибкой рассчитать вероятность встретить в предложении хотя бы одно пересечение зависимостей. Ошибка предсказания увеличивается при росте числа слов в коротких предложениях, но если предложение достаточно длинное (больше 10 слов), то она становится постоянной и не превышает 5 процентов.

Чтобы доказать, что предложенная модель описывает реальные языки, ученые провели статистический анализ предложений различной длины с известным деревом грамматических зависимостей из 30 различных языков (в разных языках рассматривалось от 429 до 74843 предложений). Оказалось, модель предсказывает вероятность пересечений зависимостей с очень хорошей точностью (погрешность составила от 1,5 до 3,2 процента), при этом лучше всего с результатами модели согласуются арабский язык, хинди и японский. Ученые полагают, что хорошее согласие между предсказаниями модели и реальными языками означает, что, скорее всего, пересечения зависимостей появляются из-за того, что зачастую связанные слова приходится разносить на достаточно большое расстояние друг от друга. При этом стремление к их отсутствию для языка естественно и не требует специальных грамматических запретов.

По словам авторов работы, несмотря на то, что их исследование было полностью посвящено лингвистическим линейным последовательностям, предложенная модель может использоваться и в других системах, основанных на пространственных сетях с возможными пересечениями. Ученые предполагают, что одними из таких систем могут быть, например, дорожные сети.

В поиске законов, определяющих законы структуры и развития языка, ученые нередко прибегают к методам, используемым в других науках. Например, недавно с помощью подходов популяционной генетики ученые попытались доказать, что в некоторых случаях изменения при эволюции языка являются не обусловленными, а случайными.

Александр Дубов

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.