«Язык как инстинкт»

Как мы воспринимаем речь

Мнение редакции может не совпадать с мнением автора

Мы точно не знаем, как люди научились пользоваться языком, однако большинство ученых склоняется к тому, что это происходило постепенно. В  книге «Язык как инстинкт» (издательство «Альпина нон-фикшн»), переведенной на русский язык Анастасией Пучковой, нейропсихолог и лингвист Стивен Пинкер выдвигает идею о том, что наша способность к языку является врожденной и сформировалась в процессе естественного отбора. Предлагаем вам ознакомиться с фрагментом о восприятии речи и нашей способности распознать слова даже там, где их нет.

Звуки тишины

В студенческие годы я работал в лаборатории Университета Макгилла, где изучали восприятие речи на слух. С помощью компьютера я синтезировал сигналы, накладывая друг на друга два звука, и определял, звучат ли они как единый плотный звук или как два отдельных. Однажды в понедельник утром случилось нечто странное: то, что я синтезировал, внезапно стало напоминать хор : (биип-бууп-бууп) (биип-бууп-бууп) (биип бууп-бууп) ХАМПТИ-ДАМПТИ-ХАМПТИ-ДАМПТИ-ХАМПТИ-ДАМПТИ (биипбууп-бууп) (биип бууп-бууп) ХАМПТИ-ДАМПТИ-ХАМПТИ-ДАМПТИ-ХАМПТИ-ДАМПТИ-ХАМПТИ-ДАМПТИ (биип бууп-бууп) (биип бууп-бууп) (биип бууп-бууп) ХАМПТИ-ДАМПТИ (биип бууп-бууп) ХАМПТИ-ДАМПТИ (биип бууп-бууп). Я проверил осциллограф: два звуковых сигнала, как и должно быть. Видимо, дело только в моем восприятии. Прикладывая небольшие усилия и несколько раз повторяя запись, я мог слышать то биипы, то жевунов. Когда в лабораторию зашла моя однокурсница, я рассказал ей о своем открытии и добавил, что жду не дождусь, когда смогу поделиться этим с профессором Брегманом — заведующим лабораторией. Она же посоветовала мне не рассказывать никому, кроме профессора Позера (руководителя программы психопатологии).

Спустя годы я понял, какое открытие тогда сделал. Психологи Роберт Ремез, Дэвид Пизони вместе со своими коллегами, более смелыми, чем я, опубликовали в журнале Science статью о синусоидальном синтезе речи. Они объединили три колебательных звуковых сигнала. С физической точки зрения эти сигналы не были речью, но их звуковые контуры соответствовали интонационному контуру предложения Where were you a year ago? ‘Где ты был год назад?’ Волонтеры описывали то, что они слышат, как «фантастические звуки» или как «звуки компьютера». Другой группе волонтеров сказали, что воспроизводимые звуки получены с помощью не очень хорошего устройства, синтезирующего речь. Им удалось разобрать бóльшую часть слов, а четверть испытуемых смогла точно записать предложение. Наш мозг способен распознать человеческую речь даже в звуках, которые лишь отдаленно напоминают ее. Тот же эффект позволяет скворцам майна нас дурачить. Эти птицы могут управлять клапанами, которые находятся у них в каждой бронхиальной трубке по отдельности, благодаря чему они получают два синусоидальных сигнала, которые нам кажутся речью.

Наш мозг может колебаться между восприятием звука то как компьютерного сигнала, то как слова, поскольку фонетическое восприятие является чем-то вроде шестого чувства. Когда мы слышим речь, звуки поступают в одно ухо и выходят из другого; то, что мы воспринимаем, и есть язык. Наши представления о словах и слогах, о «бэшности» звука /b/ и о «ишности» звука /ee/ настолько отличны от наших представлений о высоте и громкости, насколько текст песен отличен от музыки. Иногда, как в синусоидальной речи, слух и фонетика соревнуются в том, как будет воспринят звуковой сигнал, и наше восприятие колеблется между двумя интерпретациями. Иногда два этих чувства распознают звуковой сигнал одновременно. Если взять запись слога da, с помощью компьютера удалить часть звука, которая напоминает чириканье и которая отличает da от ga и ka, и проиграть эту часть в одно ухо, а оставшийся звук — в другое, люди услышат одновременно чириканье в одном ухе и слог da в другом — один звуковой сигнал будет восприниматься одновременно и как чириканье, и как d. Иногда фонетическое восприятие может даже выходить за рамки слухового восприятия. Если вы смотрите фильм на языке, которым плохо владеете, но с субтитрами на вашем родном языке, через несколько минут вы можете подумать, что действительно понимаете звучащую речь. Исследователи в научных лабораториях накладывают звуковые записи ga на видео с приближенным изображением рта, артикулирующего va, ba, tha, da. Во время просмотра видео зрители слышали согласный, артикуляцию которого они видели на экране, — эта удивительная иллюзия восприятия получила название «эффект Мак-Гурка», в честь одного из ее первооткрывателей.

На самом деле, чтобы создать иллюзию речи, не нужно никакой компьютерной магии. Любая речь — это иллюзия. Мы воспринимаем речь как цепочку отдельных слов, однако, в отличие от звука падающего в лесу дерева, который никто не слышит, граница слов, которую никто не слышит, действительно не слышна. Речевая волна состоит из слов, следующих друг за другом без пауз. Между звучащими словами нет тихих промежутков, подобных пробелам между словами на письме. Эти границы нам только кажутся реальными, и мы воображаем их тогда, когда некая цепочка звуков совпадает с какой-либо единицей нашего ментального словаря. Это становится очевидным, когда мы слушаем речь на незнакомом нам языке: в этом случае невозможно понять, где заканчивается одно слово и начинается другое. Нечленимость речи очевидна в фразах-омофонах — цепочках звуков, которые могут быть разделены на слова двумя :

The good can decay many ways.
The good candy came anyways.

‘Хорошее может исчезать по-разному’.
‘Как бы там ни было, но хорошие конфеты появились’.

The stuffy nose can lead to problems.
The stuff he knows can lead to problems.

‘Заложенный нос может привести к проблемам’.
‘То, что ему известно, может привести к проблемам’.

Some others I’ve seen.
Some mothers I’ve seen.

‘Других, кого я видел’.
‘Я видел некоторых матерей’

Фразы-омофоны часто используются в песнях и детских стишках:

I scream,
You scream,
We all scream
For ice cream.

‘Я кричу,
Ты кричишь,
Мы все кричим
Ради мороженого’.

Mairzey doats and dozey doats
And little lamsey divey,
A kiddley-divey do,
Wouldn’t you?

‘Кобылы едят овсянку, и лани едят
овсянку,
И маленькие ягнята едят плющ,
Дитя тоже будет есть плющ, да?’

Fuzzy Wuzzy was a bear,
Fuzzy Wuzzy had no hair.
Fuzzy Wuzzy wasn’t fuzzy,
Was he?

‘Фаззи Ваззи был медведем,
У Фаззи Ваззи не было шерсти,
Фаззи Ваззи не был пушистым,
Так ведь?’

In fir tar is,
In oak none is.
In mud eel is,
In clay none is.
Goats eat ivy.
Mares eat oats.

‘В ели есть смола,
В дубе нет ничего,
В грязи есть угри,
В глине нет ничего.
Козлы едят плющ,
Кобылы едят овсянку’.

Некоторые фразы-омофоны были случайно обнаружены учителями во время чтения студенческих курсовых и домашних работ:

Jose can you see by the donzerly
light? [Oh say can you see
by the dawn’s early light?]
It’s a doggy-dog world. [dog-eat-dog]

‘Хосе, ты видишь при донзерлиновом свете?’ [‘Скажи, видишь ли ты при свете утренней зари?’]
‘Это щенячье-собачий мир’ [‘Это жестокий мир с волчьими законами’].

Eugene O’Neill won a Pullet Surprise. [Pulitzer Prize]

‘Юджин О’Нил получил куриный сюрприз’ [‘Пулитцеровскую премию’].

My mother comes from Pencil Vanea. [Pennsylvania]

‘Моя мама родилась в карандашной Вании’ [‘Пенсильвании’].

He was a notor republic. [notary public]

‘Он был ноторной республикой’ [‘государственным нотариусом’].

They played the Bohemian Rap City. [Bohemian Rhapsody]

‘Они сыграли Богемский рэп-городок’ [‘Богемскую рапсодию’].

Даже последовательность звуков, которую, как нам кажется, мы слышим в слове, является иллюзией. Если бы вам нужно было разрезать запись, на которой кто-то произносит слово cat ‘кошка’, то вы бы не смогли получить фрагменты со звуками k, a и t (как единицы, называемые фонемами и соответствующие примерно буквам алфавита). А если бы вы склеили получившиеся звуки в обратном порядке, вы бы получили нечто неразборчивое и уж точно не слово tack ‘гвоздь’. Как мы увидим, информация о каждом компоненте слова распределена по всему слову.

Восприятие речи — еще одно биологическое чудо языкового инстинкта. Использование речевых и слуховых органов в качестве каналов коммуникации имеет много очевидных преимуществ, и вряд ли найдется сообщество, которое предпочло бы жестовый язык, хотя он и не менее выразителен. Речь не требует хорошего освещения, контакта лицом к лицу, полного контроля над руками и глазами. Чтобы передать сообщение на длинное расстояние, можно его прокричать, а чтобы утаить от других — прошептать. Однако, чтобы воспользоваться звуковой передачей информации, необходимо преодолеть проблему, связанную с тем, что ухо — это очень узкий канал информации. Когда инженеры в 1940-х годах впервые попытались изобрести машины для чтения, помогающие слабовидящим, они создали набор звуков, соответствующих буквам алфавита. Даже после изнурительного обучения люди не могли распознавать звуки быстрее, чем хорошие операторы азбуки Морзе: около трех единиц в секунду. Живая же речь воспринимается на порядок быстрее: 10–15 фонем в секунду в бытовой речи, 20–30 фонем в секунду при прослушивании рекламы, идущей по телевизору в вечерние часы, и целых 40–50 фонем в секунду в речи, искусственно ускоренной с помощью компьютера. Учитывая, как работает слуховая система человека, это кажется почти невероятным. Когда какой-нибудь звук, например клик, повторяется 20 раз в секунду или быстрее, мы перестаем слышать отдельные клики, а слышим только приглушенный шум. Соответственно, если мы слышим 40–50 фонем в секунду, то фонемы не могут представлять собой отдельные звуковые единицы, следующие друг за другом: каждый звук должен включать в себя несколько фонем, которые нашему мозгу каким-то образом удается разделить. Таким образом, речь является самым быстрым способом передачи информации через слуховой канал в мозг.

Ни одна созданная человеком система не может сравниться с самим человеком в распознавании речи. И это не из-за отсутствия необходимости или старания. Устройство для распознавания речи стало бы спасением для людей, страдающих квадриплегией, и других людей с ограниченными возможностями, а также для тех, кому необходимо передать информацию в компьютер, пока заняты глаза или руки, для тех, кто не умеет печатать на компьютере, для пользователей телефонных сервисов, для постоянно растущего количества машинисток, страдающих от заболеваний, вызванных повторяющимися движениями. Неудивительно, что инженеры уже больше сорока лет работают над созданием программ, распознающих речь. К сожалению, они разочарованы необходимостью выбора между двумя вещами: если система умеет распознавать голоса разных людей, то она понимает лишь небольшое количество слов. Телефонные компании начинают устанавливать справочные системы, которые понимают слово да, кто бы его ни произносил, или более продвинутые устройства, которые распознают десять английских цифр (к счастью разработчиков этих систем, эти цифры звучат по-разному). Но если системе приходится распознавать большое количество слов, она должна быть приспособлена к голосу одного и того же человека. На сегодняшний день ни одна система не может справиться с тем, с чем легко справляется человек: распознавать и множество слов, и множество говорящих. Настоящее положение дел демонстрирует система под названием Dragon-Dictate, которая предназначена для установки на персональный компьютер и которая способна распознавать 30 000 слов. Но она имеет ограничения. Пользователь компьютера должен обучить ее распознавать его голос. Вам... нужно... говорить... с... ней... вот... так..., делая между словами паузы длиной в четверть секунды (то есть она работает со скоростью в пять раз ниже, чем обычная речь). Если вам нужно использовать слово, которого нет в словаре программы, то необходимо продиктовать его по буквам, используя фонетический алфавит: «Анна, Борис, Василий». И даже несмотря на это, в 15 процентах случаев программа путает слова — это более чем один раз на предложение. Этот замечательный программный продукт впечатляет, но не идет ни в какое сравнение даже с посредственной стенографисткой.

Физический и нейронный механизмы речи решают сразу две проблемы коммуникационной системы человека. Человек знает примерно 60 000 слов, но его речевой аппарат не может воспроизвести 60 000 различных звуков (по крайней мере таких, которые бы легко распознало человеческое ухо). Поэтому язык снова использует принципы дискретной комбинаторной системы. Предложения и фразы состоят из слов, слова — из морфем, а морфемы в свою очередь состоят из фонем. В отличие от слов и морфем, фонемы не влияют на значение единицы, которую они составляют. Значение слова кот не может быть предсказано на основе значений фонем к, о, т и того, в каком порядке они расположены. Фонемы — это лингвистические единицы другого вида. Они связывают информацию «изнутри» и речь, а не информацию «снаружи» и ментальный язык: фонема соответствует акту произнесения звука. Деление языка на независимые дискретные комбинаторные системы: систему, соединяющую не имеющие значения звуки в морфемы, обладающие значением, и системы, соединяющие значащие морфемы в также имеющие значения слова, фразы и предложения, — это основная особенность устройства человеческого языка, которую лингвист Чарльз Хоккет назвал его «структурной двойственностью».

Однако фонологический уровень языка имеет дело не только с произнесением морфем. Языковые правила — это дискретные комбинаторные системы: фонемы скрепляются в морфемы, морфемы — в слова, слова — в фразовые составляющие. Они не смешиваются, не исчезают и не сливаются воедино: ‘Собака укусила человека’ отличается от ‘Человек укусил собаку’, а верить в Бога (God) не то же самое, что верить в собаку (Dog). Чтобы передать эти структуры из головы одного человека в голову другого, они должны быть преобразованы в звуковые сигналы. Звуковые сигналы, которые может воспроизводить человек, не похожи на звуки, которые издает кнопочный телефон. Речь — это поток дыхания, изменяемый под воздействием органов ротовой полости и горла в шипение и гул. Проблемы, с которыми столкнулась матушка-природа, связаны с трансформацией цифрового сигнала в аналоговый, когда говорящий преобразует дискретные символы в непрерывный речевой поток, и трансформацией аналогового сигнала в цифровой, когда слушающий разделяет слитный поток речи на отдельные символы.

Таким образом, звуки языка соединяются друг с другом в несколько этапов. Непосредственно перед артикуляцией из ограниченного набора фонем отбираются и в определенном порядке выстраиваются звуки, составляющие слова, а затем границы между получившимися цепочками фонем стираются, чтобы их было легче произнести. Я расскажу обо всех этих этапах и покажу, как это работает в наших ежедневных столкновениях с живой речью: в поэзии, песнях, ослышках, акцентах, устройствах распознавания речи и сумасшедшей английской орфографии.

Подробнее читайте:
Пинкер С. Секретари. Язык как инстинкт / Стивен Пинкер ; Пер. с англ. [Анастасии Пучковой] — М. : Альпина нон-фикшн, 2023. — 562 с.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.