Лингвисты научились автоматически определять родство языков

Таисия Филиппова

Международная группа лингвистов разработала новый эффективный инструмент автоматического определения языкового родства. Aлгоритм Infomap выявляет этимологическое родство слов в разных языках с вероятностью 89 процентов. Отчет об исследовании опубликован в журнале PLoS One.

Важным инструментом выявления генетического родства языков сегодня является идентификация когнатов — слов, имеющих общее происхождение. Этот метод позволяет лингвистам сделать выводы о развитии языков на протяжении тысяч лет и получить новые данные об истории человечества в дописьменную эпоху.

В последние годы активно развивающиеся методы компьютерной обработки позволили создать обширные базы языковых данных, такие как Glottolog и Ethnologue. Однако пока лишь малая часть из более чем 7000 описанных на сегодняшний день языков проанализирована с точки зрения их генетических связей. Это не удивительно, учитывая, что классические сравнительные исследования в лингвистике по-прежнему основаны на ручной работе экспертов с детальным знанием конкретных языков.

Неоспоримое преимущество компьютерных методов заключается в вычислительных скоростях, но до настоящего времени скептики критиковали существующие алгоритмы за большой процент ошибок, ставящих под сомнение их эффективность. В новой работе, опубликованной в конце января, сообщается о том, что международной группе лингвистов в ходе серии тестов удалось добиться удивительной точности выделения генетически связанных слов в родственных языках.

Для определения возможностей автоматического анализа языкового родства исследовательской группой Рассела Грея (Russell D. Gray) были подобраны четыре опубликованных в свободном доступе алгоритма автоматического обнаружения когнатов на основе библиотеки LingPy: Turchin Method, Edit Distance Method, SCA Method и LexStat Method. В дополнение к ним, специально для исследования, был разработан новый алгоритм Infomap.

LingPy — Python Library for Historical Linguistics — представляет собой набор модулей Python с открытым исходным кодом для анализа данных и их визуализации в сравнительно-историческом языкознании.

Отобранные алгоритмы основаны на одном из двух подходов к установлению генетического родства между словами: не связанном с конкретным языком, основанном на формальном сходстве фонем в Turchin, и связанном с конкретными языками на основе известных для них рядов регулярных фонетических соответствий в Edit Distance, SCA, LexStat и Infomap.

Согласно методу П. В. Турчина, алгоритм определяет как этимологически связанные все слова с одинаковым значением, у которых две первые согласных фонемы относятся к одному классу по А. Б. Долгопольскому.

В свою очередь алгоритм Infomap, как и остальные лингвоспецифические методы в LingPy, основан на процессе преобразования матрицы попарных расстояний слов с одинаковым значением методом иерархической кластеризации в граф, вес ребер которого устанавливается с учетом регулярных фонетических соответствий между рассматриваемыми языками. Впервые в Infomap для анализа графа был применен метод случайных блужданий, применяющийся для анализа сетей в биоинформатике и теории коммуникаций. Это сократило количество ложных срабатываний и позволило идентифицировать заимствования.

В ходе исследования для каждого из методов на тренировочных пакетах данных был откалиброван порог наибольшей точности попаданий. В результате, при анализе тестового набора алгоритмам удалось достичь нестандартно высокого процента верного определения родственных слов — от 82 процентов (Turchin) до 89 процентов (Infomap) относительно данных, полученных вручную.

Этот результат доказывает возможность высокой эффективности применения автоматических методов в сравнительно-историческом языкознании. Авторы исследования полагают, что применение этих инструментов значительно ускорит установление генетических связей между малоизученными языками, выделение новых языковых семей. Оно также позволит решить проблему сравнения языков из различных семей, что до этого было практически невозможно из-за объема данных, подлежащих обработке.

Ранее другая международная группа ученых применила новаторский метод компьютерной обработки фонетического состава слов, взятых из лексикона почти половины языков мира. В результате им удалось поставить под сомнение одно из фундаментальных понятий современной лингвистики о произвольном характере связи между фонетическим звучанием слов и их значением. По мнению исследователей, можно говорить о неких исторически базовых механизмах порождения речи, благодаря которым в разных регионах мира люди независимо друг от друга давали сходным явлениям и понятиям фонетически похожие названия.

Елизавета Власова

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.