Слово на букву F

Мнение редакции может не совпадать с мнением автора

Только недавно мы делились на два лагеря в зависимости от того, что мы слышим — Yanny или Laurel — временами перебегая из одного лагеря в другой, а теперь, кажется, появилась новая слуховая иллюзия: персонаж «Улицы Сезам» то ли говорит очень плохое слово, то ли нет. С учетом того, что «Улица Сезам» — передача для детей, вряд ли актеры, его озвучивающие, станут ругаться на камеру, и в действительности Гровер (так зовут персонажа) говорит другое слово. Тем не менее, многие пользователи все равно отметили, что слышат на видео универсальное для английского языка бранное слово (это то, которое на букву 'f'). В этом блоге разбираемся, почему так происходит.

Чтобы понять, о чем идет речь, посмотрите вот это видео с персонажами «Улицы Сезам». Если вам показалось, что вы услышали 'Yes, yes, that's a f***ing excellent idea', то это нормально. Нам тоже так кажется.

А теперь посмотрите видео еще раз. Что говорит Гровер? Верно, он говорит 'Yes, yes, that sounds like an excellent idea'.

Видео одно и то же, но в зависимости от того, как мы его подписали, услышать можно разные варианты: цензурный и нецензурный. Это заметили пользователи Reddit: в зависимости от того, о какой фразе думает смотрящий видео, он услышит либо то, либо другое.

В отличие от знаменитого случая с Yanny и Laurel, где причина двоякой интерпретации услышанного была делом исключительно акустических характеристик произнесенного (их, соответственно, тоже можно интерпретировать двояко), в случае с Гровером здесь дело скорее в особенностях восприятия речи — а точнее, в том, что восприятие речи — процесс мультимодальный.

За восприятие информации человеком отвечает несколько сенсорных модальностей — первичных каналов, по которым до нас доходит информация. К примеру, представьте, что вы впервые видите картину Джексона Поллока — и совершенно ничего в ней не понимаете: за ваше восприятие информации в данном случае отвечает исключительно зрительная система. А теперь представьте, что из ниоткуда рядом с недоумевающим вами появляется экскурсовод — и начинает объяснять вам, что на картине на самом деле происходит. Здесь начинает действовать уже слуховая система, воспринимающая дополнительную информацию от другого источника (экскурсовода), и картина начинает видеться совсем по-другому: в неупорядоченных мазках появляется смысл.

Возьмем менее прозаичный (и больше подходящий для объяснения) пример вовлечения нескольких модальностей в человеческое восприятие. Это — речь. Говорить с человеком по телефону и говорить с ним вживую — это две совершенно разные вещи, как раз потому, что в первом случае для восприятия информации используется только одна модальность — слух, а во втором случае — уже две, то есть слух и зрение. Это, как мы уже сказали, делает процесс восприятия речи мультимодальным, причем в этом случае две модальности не действуют независимо друг от друга, а участвуют в восприятии сказанного совместно, влияя друг на друга и переплетаясь.

Разумеется, когда две такие сложные и по сути независимые системы восприятия действуют совместно, ошибок не избежать. Пример такой ошибки — «эффект Макгурка». Мы несколько раз (1, 2) писали про него: его суть заключается в том, что если зрительная информация не соответствует слуховой, то они могут комбинироваться в абсолютно другой, иллюзорный звук. В оригинальном эксперименте добровольцы смотрели видео, на котором человек губами отчетливо повторяет 'ga-ga', но звук, который был воспроизведен вместе с видео, был 'ba-ba': в результате большинство из них слышали совершенно другое сочетание звуков — 'da-da'. Конечно, человеческая речь редко состоит из таких простых звуковых сочетаний (если только человек не очень маленький), поэтому позже ученые проводили похожие эксперименты уже с целыми фразами.

Один из выдающихся примеров — исследование 2005 года под руководством Дэниела Райта (Daniel Wright) из Сассекского университета. В нем ученые использовали очень (как любит говорить мой научный руководитель) «элегантную» экспериментальную парадигму: для показа добровольцам они записали ролик, на котором девушка, убегая от подозрительного прохожего, теряет ботинок. На последнем кадре ролика видно рассказчика, который говорит либо 'He's got your boot' («У него ваш ботинок»), либо 'He's gonna shot' («Он собирается стрелять»). Его артикуляция видна отчетливо, но из-за того, что по звучанию фразы очень похожи между собой (по крайней мере по длине — в каждой фразе по четыре слога), часть участников исследования видела не то, что было произнесено на самом деле, а часть — вообще сообщала о том, что рассказчик произнес нечто среднее — семантически и фонетически — между двумя фразами ('He's got your shoe' — «У него ваша туфля»).

Куклы из «Улицы Сезам» хорошей артикуляцией не отличаются (на то они и куклы), но ошибки в нашем восприятии все равно появляются: как раз потому, что одна модальность (визуальная — просмотр фразы) влияет на другую (слуховую — та, которую мы используем, чтобы понять фразу Гровера). Также две фразы, которые можно услышать в исполнении куклы, действительно похожи между собой. Во-первых, одинаковое количество слогов (четыре слога до 'excellent idea'), во-вторых, они действительно довольно созвучны.

В общем, слышать слово на букву 'f' в речи персонажа из детской передачи — нормально. Главное — не забывать, что на самом деле это не то, чем кажется. И кстати, если вы хотите побольше узнать о том, какие еще существуют ошибки в человеческом восприятии, то можете полистать нашу новую серию блогов о когнитивных искажениях.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

Археология в «Чайной чашке»: как в пузырях газа распознать столкновение галактик

Золото Мирмекия: монеты Александра Великого в крымской земле