Французский физик сравнил языки, построенные с помощью взвешенной контекстно-независимой грамматики, со статистической механикой, и описал в рамках этого подхода обучение детей первому языку. В частности, ученому удалось показать, что при введении новых скрытых параметров и усложнении распределения весов, которое сопровождает обучение, энтропия языка уменьшается, то есть он становится более осмысленным. При этом переход между состояниями знания и незнания языка напоминает фазовый переход, происходящий при спонтанном нарушении симметрии. Статья опубликована в Physical Review Letters, кратко о ней сообщает Physics, препринт работы выложен на сайте arXiv.org.
Когда дети учатся говорить, их не заставляют зубрить принципы построения утвердительных и вопросительных предложений, правила склонения прилагательных и существительных, неправильные глаголы и всевозможные исключения. Единственное, с чем может оперировать ребенок — это примеры «правильных» словосочетаний и предложений. Тем не менее, к трем годам он каким-то образом усваивает эти правила и может самостоятельно строить осмысленные предложения. Более того, в настоящий момент в мире насчитывается более шести тысяч языков, некоторые из которых совершенно друг на друга не похожи, — однако каждому из этих языков дети учатся говорить одинаково успешно, поэтому ученые с большим интересом изучают этот процесс. Вероятно, одно из первых исследований вопроса принадлежит еще Святому Августину, то есть датируется четвертым веком нашей эры.
Интересным образом обучение ребенка описывает теория принципов и параметров, разработанная американским лингвистом Ноамом Хомским. Согласно этой теории, каждый ребенок от рождения наделен некоторым набором универсальных принципов, общих для всех языков, а в процессе обучения подстраивает параметры этих принципов под грамматику определенного языка. При этом предполагается, что параметры бинарны, то есть принимают только значения «да» и «нет». Например, один из параметров определяет, в каком порядке в предложении стоит сказуемое и подлежащее. К сожалению, подтвердить эту теорию, то есть установить исходное множество параметров и их значения для всех существующих языков, до сих пор не удалось. Более того, некоторые ученые считают, что такой большой набор параметров не только излишен, но и сильно тормозит обучение, а потому выглядит неправдоподобно.
Французский физик Эрик Дежьюли (Eric DeGiuli) нашел новые аргументы в пользу теории принципов и параметров, описав изучения первого языка с помощью простой физической аналогии. Чтобы объяснить суть этой аналогии, сначала разберемся с общими правилами, по которым строятся грамматика практически всех известных языков. Впервые эти правила формализовали в середине прошлого века Эмиль Пост и Ноам Хомский, разработавшие порождающую грамматику. Порождающая грамматика состоит из алфавита скрытых символов, алфавита наблюдаемых символов и набора правил, по которым преобразуются цепочки символов. В качестве примера рассмотрим грамматику, которая состоит из наблюдаемых символов «(» и «)», скрытого символа «S» и набора из трех правил {S→SS, S→(S), S→()}. После небольшого размышления можно сообразить, что язык, определенный такой грамматикой, состоит из корректных наборов скобок. Например, предложение «(())()» можно получить с помощью следующей цепочки действий: S → SS → (S)S → (())S → (())().
Наиболее общее правило, по которому строятся предложения генеративной грамматики, выглядит следующим образом: a1a2⋯an → b1b2⋯bm, где символы ai принадлежат скрытому алфавиту, а символы bj — объединению скрытого и наблюдаемого алфавита. Тем не менее, все существующие языки, за исключением языка бамбара и швейцарского диалекта немецкого языка, строятся по упрощенному набору правил, для которых n = 1 и m > 1. Такая грамматика называется контекстно-свободной. Любой набор преобразований, с помощью которых строится предложение контекстно-свободной грамматики, можно представить в форме двоичного дерева. В корне этого дерева лежит произвольный символ из скрытого алфавита, а все листья содержат наблюдаемые символы. Кроме того, чтобы отличить осмысленные предложения («кот ел суп») от грамматически верных, но фактически бессмысленных («суп ел кота»), каждому правилу преобразования символов нужно сопоставить определенный вес. Чем выше удельный вес предложения в таком языке, тем более оно осмысленно.
Эрик Дежьюли заметил, что такой подход к построению языка очень напоминает статистическую механику. Так же, как во взвешенной контекстной грамматике вес предложения складывается из произведения весов внутренних узлов и листьев его дерева, в статистической механике статистический вес конфигурации частиц складывается из произведения статистических весов каждой частицы. Следовательно, для каждого предложения можно определить энергию и энтропию, а затем рассчитать вероятность его появления (для этого придется ввести статистическую сумму языка). Более того, такой подход позволяет оценить осмысленность языка, построенного с помощью взвешенной контекстной грамматики: чем меньше его суммарная энтропия, тем больше информации он несет.
Поэтому французский физик предлагает смотреть на изучение первого языка следующим образом. В начале обучения ребенок совершенно не знает правил языка, а потому стартует с небольшого набора скрытых символов и правил, приписывая всем правилам однородно распределенные веса. В ходе обучения он добавляет новые скрытые символы и подстраивает веса, причем в каждый момент веса распределены по закону Гаусса. Последнее требование физик объясняет медленным развитием языка, благодаря которому язык остается более-менее понятным в каждый момент времени. Постепенно распределения все больше и больше отклоняются от однородного распределения, внутренности деревьев разрежаются, а средняя «температура» языка падает. Наконец, в какой-то момент эти процессы ускоряются, а энтропия системы резко падает — симметрия системы спонтанно нарушается, и в ней происходит фазовый переход. Ученый даже явно выписывает параметр порядка, который связан с этим переходом и напоминает намагниченность ферромагнетика. Кроме того, физик замечает, что если на язык действует какое-то внешнее «поле», то фазовые переходы, связанные со значением разных параметров, могут произойти в разное время. Например, ребенок, изучающий английский язык, сначала усвоит, что подлежащее стоит перед сказуемым, а потом запомнит правила спряжения глаголов.
Чтобы проверить эту догадку, физик смоделировал 7200 языков, содержащих 27 наблюдаемых букв и имеющих фиксированное значение поверхностной разреженности. Для каждого языка ученый построил 200 предложений и рассчитал суммарную энтропию. В результате Дежьюли удалось подтвердить, что у языков с низкой энтропией дерево предложений более разреженное, то есть средняя температура ниже, а распределения весов сильнее отклоняются от однородного распределения.
Конечно, эти наблюдения нельзя считать надежным подтверждением теории принципов и параметров. Тем не менее, Дежьюли указывает, что с его помощью можно объяснить некоторые наблюдаемые явления — например, резкий переход между состояниями ребенка, когда он лопочет бессвязные слова и начинает строить осмысленные предложения. Также автор статьи считает, что теория фазовых переходов может пригодиться лингвистам, в частности, при построении множества скрытых параметров, объединяющих известные языки. Так или иначе, это довольно интересный взгляд на старую проблему.
В сентябре прошлого года Эрик Дежьюли разработал статистическую теорию поля, которая объясняет поведение аморфных твердых тел с произвольной внутренней структурой в двух и трех измерениях. До этого физики умели описывать только частный случай аморфных тел — двумерные сыпучие системы.
Физические теории часто находят применение в совершенно неожиданных местах. Например, теорию перколяции можно использовать для оценки общей устойчивости и уязвимостей транспортных сетей, а теорию гелеобразования — для поиска экстремистских групп в социальных сетях.
Дмитрий Трунин