Мнение редакции может не совпадать с мнением автора
Последние двое суток тысячи пользователей по всему миру пытаются разобраться, какое именно слово произносит мужской голос на трехсекундной записи, появившейся вчера на Reddit. Как и в истории с платьем, голоса разделись. И если одни уверенно слышат слово Laurel, другие так же уверенно различают Yanny. Мы попросили лингвиста Георгия Мороза, сотрудника лаборатории языковой конвергенции ВШЭ, объяснить, почему люди по-разному интерпретируют это сочетание звуков и может ли быть правильный ответ на вопрос, какое именно слово звучит на записи.
Часто бывает, что люди говорят одно, а слушатели воспринимают другое, то есть домысливают, если позволяют ситуация и контекст. Мы можем говорить кусочки слов, фраз, вместо «пожалуйста» сказать что-то вроде «пжаст», но мы все равно понимаем, чтó эта комбинация звуков значит. Я иногда приходил на лекцию и говорил студентам «Привет всем!», но вместо первого «п» говорил «к» — «Кривет». И чаще всего никто не замечал подмены — до тех пор, пока я не обращал их внимание на это.
Люди часто не слушают, что им говорят, и когда слушают, им не важны конкретные звуки, которые произносятся. Если человек картавит, или у него какой-то дефект речи, нам придется привыкать примерно полминуты, но потом мы быстро перестроимся и перестанем замечать эту особенность.
Конечно, у звуков речи есть характерные особенности, определенные признаки, за которые «цепляется» ухо и мозг, распознавая слова. Но мы можем случайным образом «выключить» какие-то из этих признаков, отфильтровать какие-то частоты, и люди все равно будут распознавать слова, опираясь на то, что слышат. Точно так же, как мы можем почти без проблем читать текст, из которого случайным образом удалена какая-то — довольно значительная — часть букв.
Доказать, что какая-то акустическая характеристика может быть важна для восприятия определенного речевого звука, может быть не просто, а иногда и невозможно. Например, представим себе, что я обнаружил какой-то новый звук в одном из языков Дагестана. Он похож на «л», но у него есть какая-то акустическая особенность. В каком-то селении в Дагестане я прошу 20 человек проговорить некоторый фиксированный набор слов, в которых этот звук есть. Затем я анализирую спектр и вижу, что в районе трех килогерц все время возникает шум одновременно с этим звуком. Возможно, что людям, которые воспринимают звук, важен этот эффект, чтобы правильно опознать слово, но может оказаться, что это лишь эффект, который все время сопутствует артикуляции данного звука. Нужно провести перцептивные исследования, вырезать из спектра этот кусочек и попытаться выяснить, будут ли люди по-прежнему слышать этот же звук.
Различительную роль в некоторых классах звуков играют в основном так называемые форманты, «сгустки» интенсивности в определенных диапазонах частот. У гласных и сонорных звуков формант обычно очень много, но для различения определенного звука обычно важны только первые две, и очень редко три.
История с Yanny и Laurel интересна тем, что форманты звуков в этой записи подобраны (или случайно подобрались) так, что мозг может интерпретировать их и так, и эдак.
Вот спектр этой записи: сверху осцилограмма, на которой видны наиболее интенсивные фрагменты, внизу спектрограмма, где по вертикали отложены частоты, по горизонтали — время, а интенсивность показана градацией серого цвета.
Здесь видна форманта — полоса в самом низу графика, другая полоса в районе 2,5 тысячи герц, которая идет вниз, потом снова поднимается. И здесь же видна «белая область» в промежутке между 2 килогерцами и 700 герцами. И такая картина характерна и для звука [l], и для [j]. Это разные звуки, но у них похожий спектр.
Дальше происходит похожая история — [o] и [e]: первые две форманты у таких звуков, как [u] и [o], очень низкие, так что часто сливаются. У [e] мы ожидаем что-то в районе 1800 герц. Однако из-за эффекта коартикуляции, когда соседние звуки влияют на движение формант гласных, движение форманты мы можем воспринимать и как [e], тогда то, что мы видим посередине, воспринимается как форманта гласного, и как [o], если наша система распознавания посчитает, что имеет дело со слившимися формантами внизу. Получается, что в первом случае у меня есть [l], которое можно воспринимать как [j], а как мой мозг воспримет следующий звук, зависит от того, какие форманты он посчитает за первую и вторую.
Важно отметить, что r в Laurel не стоит воспринимать как согласный, это такой гласный, на фоне которого происходит дополнительная артикуляция языком. Например, tell me more в американском произношении — тот же самый эффект. В more нет никакого [r], это [o] с дополнительной артикуляцией. Дальше на спектре нижняя полоса превращается в дугу и раздваивается. Это напоминает аппроксиманты (в русском это [l], [n], [r], [m], [j]). Эта группа звуков отличается тем, что в ней есть что-то и от согласных, и от гласных. Так что не мудрено, что [n] и [ɚ], особый ротизированный гласный, типичный для американского английского, тоже имеют похожий спектр.
И последняя часть, она завершается тем, что мы слышим либо Laurel, когда все завершается согласным, либо Yanny, и тогда все заканчивается гласным. Это, безусловно, прекрасная головоломка, так как предполагает разную слоговую структуру. Здесь мы наблюдаем то же самое, что и в начале, потому что [j] и [i] очень похожи, и они опять же напоминают спектр [l]. Таким образом, и последний звук может иметь две интерпретации.
Здесь работают примерно те же механизмы, что и в случае с парейдолией: мозг дорисовывает картину, опираясь на признаки, которые ему удается уловить. Фокус в том, что здесь возможны две траектории интерпретации, и если мы выбрали одну, то очень сложно отделаться от того, что мы уже услышали.