Ответственными за изменения языка назвали редкоупотребляемые слова

Испанско-германский коллектив математиков предложил новую методику для сравнивания крупных наборов данных, таких как книги, музыка или последовательности ДНК. Ученые проанализировали с ее помощью книги, выпущенные в 1850, 1900 и 1950-х годах, и выяснили, что наибольшая разница в их языке вызвана редко встречающимися словами. Кроме того, математикам удалось оценить скорость изменения книжного английского языка. По словам авторов, выводы работы применимы и для русского и испанского языков. Исследование опубликовано в журнале Physical Review X, кратко о нем сообщает Physics.

Авторы модифицировали известную функцию, используемую для анализа различий между двумя наборами символов — расстояние Йенсена—Шенона. Под символами здесь могут пониматься как ноты так и отдельные слова или последовательности оснований в ДНК. Для вычисления расстояния с помощью оригинальной функции необходимо составить таблицу частоты встречаемости символов в двух текстах. Затем вероятности встретить то или иное слово-символ используются для суммирования данных в таблицах по отдельности и в третьей таблице, в которой эти вероятности оказываются средним арифметическим двух основных. По разности между суммами двух отдельных таблиц и третьей таблицы определяется расстояние между текстами. 

При этом, в суммировании вероятности возводят в некоторую степень — при вычислении метрики Йенсена—Шенона она равна единице. В новой работе математики посмотрели, как изменятся расстояние между книжными текстами при изменении этой степени. К примеру, если сделать эту степень равной нулю, то в расстоянии будет учитываться лишь количество разных слов, встречающихся в тексте. По словам авторов, это позволяет лучше бороться с «шумом», вызванным строками таблиц с самыми редкими словами. Этот шум отражает случайный характер появления редких слов в книгах и проявляется даже в очень крупных конечных выборках, состоящих из миллиардов слов.

Исследователи использовали в своем анализе данные сервиса Google ngram. Этот сервис, используя данные книг, хранящихся в Google Books, анализирует частоту встречаемости слов в книгах, изданных в данный год. Как отмечают математики, наиболее выразительной для анализа результатов была степень равная двойке. 

Авторам удалось показать, что наибольший вклад в расстояние между текстами вносят слова, относящиеся скорее к «хвосту» таблицы с частотой встречаемости слов. Методики, использовавшиеся для анализа текстов раньше, различить эти вклады не могли. Кроме того, математики попытались определить скорость изменения книжного языка — скорость роста расстояний между текстами. Оказалось, что эта зависимость близка к параболической, иными словами расстояние между двумя текстами, выпущенными в 1850 и 1900 году скорее всего будет в четыре раза меньше, чем расстояние, между текстами выпущенными в 1850 и 1950 годах.

Владимир Королёв

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Создан алгоритм для складывания «непроливаемого» оригами любой формы