Французские лингвисты проанализировали речь носителей 17 различных языков и выяснили, что их можно объединить скоростью передачи информации. Для этого ученые рассчитали скорость речи 170 носителей и информационную плотность одного слога каждого из их языков и выяснили, что для всех них характерна скорость передачи информации в 39,15 бита в секунду. Вероятно, этот показатель может претендовать на роль универсального параметра, характерного для всех естественных языков, пишут ученые в Science Advances.
За всю историю существования человечества появилось множество (по разным подсчетам от четырех до семи тысяч) различных языков. Отследить их появление чаще всего удается только до какого-то общего языка-предка или праязыка: скажем, для индоевропейских языков принятым праязыком считается праиндоевропейский. По предку, можно понять, почему и чем языки из одной языковой семьи схожи.
При этом, разумеется, должно существовать и то, что объединяет все языки вне зависимости от их семей — некая универсальность, присущая им всем. Язык прежде всего — это средство коммуникации, поэтому следы языковой универсальности необходимо в первую очередь искать в живой человеческой речи. В прошлом году ученым, к примеру, удалось обнаружить, что замедление артикуляции перед существительными характерно для носителей девяти естественных языков из разных семей.
Лингвисты под руководством Франсуа Пеллегрино (François Pellegrino) из Лионского университета решили подсчитать скорость передачи информации для одной единицы в речи 17 языков представителей австроазиатских, индоевропейских, сино-тибетских, тюркских, уральских, и тай-кадайских семей, а также баскского, японского и корейского. В качестве языковой единицы для анализа ученые выбрали слог. Выбранные для анализа языки существенно отличаются количеством возможных для них слогов: скажем, в английском языке слогов около семи тысяч, в то время как в японском — всего лишь несколько сотен. При этом и японский, и английский позволяют своим носителям одинаково эффективно передавать информацию друг другу. Интересно, поэтому, посмотреть, как различается информационная плотность каждого слога и то, как от нее зависит скорость передачи информации.
Для этого ученые попросили 170 носителей 17 использованных языков прочитать 15 коротких семантически связанных текстов: тексты необходимо было прочитать несколько раз, чтобы в итоговой версии участники не сбивались и читали текст четко. Записи зачитанных текстов разделили на отдельные слоги: следует уточнить, что учитывались только канонические для определенного слова слоги вне диалектных вариантов.
Далее ученые рассчитали два параметра: скорость речи (количество слогов, произнесенных в секунду) и информационную плотность (сколько информации в битах несет один слог в языке). Последний параметр рассчитали по письменному корпусу каждого языка: от отражает то, сколько бит информации переносит каждый отдельный слог (если просто — сколько семантической информации несет один слог языка на основе одинаковых по содержанию текстов из разных языков).
Несмотря на то, что языки отличались как по информационной плотности, так и по скорости речи, ученые заметили закономерность: менее «плотные» языки отличаются быстрой речью, в то время как языки с большей информационной плотностью — речью медленнее. Например, во вьетнамском — языке с плотностью 8 бит на слог — скорость речи составляла около 5 слогов в секунду, в то время как в финском информационная плотность была около 5,5 бита на слог, а скорость речи — чуть больше 7 слогов в секунду. С учетом наличия подобной линейной зависимости авторы рассчитали, что в среднем во всех изученных языках скорость передачи информации (информационная плотность умноженная на скорость речи) составляет около 39,5 бита в секунду.
Несмотря на то, что в выборку ученых попали языки из разных семей, говорить об универсальности этого параметра пока что рано (хотя на нее обратили внимание в редакционной заметке Science). Интересно, однако, то, что авторы обнаружили обратную зависимость между скоростью речи и информативностью языка: по мнению ученых, это отражает взаимодействие биологических и эволюционных особенностей народа и параметров языка, на котором они говорят.
Разумеется, это не единственная попытка ученых систематизировать языки в виде двоичного кода. Весной американские психологи подсчитали, сколько бит информации о своем родном языке к 18 годам выучивает носитель английского и выяснили, что всю эту информацию можно разместить на обычной дискете объемом в 1,5 мегабайта.
Елизавета Ивтушок