Группа ученых из Университета Дьюка напечатала на 3D-принтере сложный сенсор из акустических метаматериалов и написала для него специальный алгоритм. Созданная система позволяет техническим устройствам преодолеть проблему так называемого «эффекта вечеринки». Предварительные эксперименты показали, что благодаря новому сенсору компьютер оказался способен различить три независимых, но накладывающихся друг на друга источника звука с точностью 96,67 процентов. Пока система работает только на достаточно высоких частотах, однако несколько групп исследователей уже планирую доработать и усовершенствовать ее. Работа с описанием устройства опубликована в журнале Proceedings of the National Academy of Sciences.
Человеческая слуховая сенсорная система обладает способностью вычленять среди множества одновременно звучащих голосов и посторонних звуков один единственный голос прямого собеседника и долгое время концентрировать внимание только на нем. До недавнего времени никаким системам искусственного интеллекта не удавалось реализовать это свойство, получившее название «эффект вечеринки».
Известно, что только люди, обладающие бинауральным нормальным слухом способны вычленять один голос из множества других (глухие на одно ухо или пользующиеся слуховым аппаратом в значительной степени его утрачивают). Основываясь на этих сведениях, ученые предположили, что ключ к проблеме лежит сортировке звуков в соответствии с положением их источника по отношению к сенсору.
Ученые напечатали из специальных акустических метаматериалов сложно устроенный сенсор. Внешне он напоминает пиццу или пирог, порезанный на 36 кусков. Внутри каждой из долек «пирога» находится разное количество шестиугольных трубочек. Разнится не только их число в каждом куске, но и высота и положение. Звуковые волны, проходя вдоль каждой дольки от границ диска к установленному в центре «пирога» микрофону, резонируют внутри шестиугольных трубочек. В результате звук внутри каждого из кусков пирога неуловимо изменяется (человеческое ухо не способно их различить), а особый алгоритм в компьютере анализирует эти отличия и на их основе вычисляет источник звука, что позволяет селективно выбирать принимаемый звук от конкретного источника, то есть «концентрировать внимание».
«Эффект вечеринки» был открыт когнитивным психологом, специалистом по вниманию, и, по совместительству, инженером-электронщиком Эдвардом Колином Черри в 1953 году в ходе решения проблемы сенсорной перегрузки авиадиспетчеров. Дело в том, что в то время диспетчеры получали одновременно множество сообщений от разных пилотов через наушники. Поставив несколько экспериментов, Черри выяснил, что если на правое ухо подается один голос, а на левое – другой, то человек способен концентрировать внимание и запоминать информацию только от одного голоса, в то время как сообщения от второго не практически не улавливаются и не запоминаются. Эту особую селективность аудиального внимания человека он и назвал «эффектом вечеринки».
Ранее, чтобы имитировать эту человеческую способность ученые и инженеры предлагали очень сложные системы микрофонов, распределенные по пространству комнат, а в случае анализа аудиозаписей не менее изощренные алгоритмы искусственного интеллекта. Так, в мае этого года группа британских исследователей использовала глубокое машинное обучение на искусственной нейросети, чтобы выделить голос из посторонних шумов.