Британские исследователи во главе с Эндрю Симпсоном (Andrew Simpson) из Университета Суррея создали искусственную нейросеть, вычленяющую голос из посторонних шумов. Эта задача является первым шагом к решению проблемы так называемого «эффекта вечеринки». Препринт работы доступен на arXiv.org.
Хорошо известно, что человеческий слух во многих отношениях превосходит искусственные аналоги. Так, например, существует «эффект коктейльной вечеринки», способность вычленять голос интересного нам собеседника даже когда он накладывается на громкую музыку и разговоры множества посторонних людей.
В рамках работы исследователи использовали полсотни музыкальных композиций как в виде целых произведений, так и разбитыми на отдельные треки. Все материалы были нарезаны на отрезки длиной в 20 секунд. Затем эти отрезки преобразовали в спектрограммы и использовали их для обучения нейросети.
Глубокое обучение (англ. Deep learning) — набор алгоритмов машинного обучения, которые пытаются моделировать высокоуровневые абстракции в данных, используя архитектуры, состоящие из множества нелинейных трансформаций. Под термином «глубина» в данном случае понимается глубина графа вычислений модели — максимальная длина между входным и выходным узлами конкретной архитектуры. В случае, например, простой нейронной сети прямого распространения глубина соответствует количеству слоев сети.
Сеть заставили искать среди спектрограмм такую, которая содержала бы только человеческий голос певца и отфильтровывала игру музыкальных инструментов. В конечном итоге сеть должна была на входе получать отрезки с полным набором музыкальных инструментов и голосам певца, а на выходе давать только очищенный от музыки голос.
Чтобы сделать это, нейросеть имела порядка миллиарда самонастраиваемых параметров, значение которых в начале процесса глубокого обучения были выбраны случайным образом. После начала работы сеть искала по всей базе данных, сопоставляя отрезки где присутствовал только голос певца с теми, где были только звуки музыкальных инструментов. Сверяя эти уже «очищенные» треки с собственной первичной очисткой песни от музыки, сеть делала «работу над ошибками», настраивая параметры выбора в соответствии с полученными образцами.
В итоге после более чем сотни повторов этого процесса, сеть подобрала изменяемые параметры настолько хорошо, что Симпсон с коллегами посчитали ее готовой к самостоятельной работе без заранее очищенных образцов. После чего уже обученной системе были даны 13 песен, с которыми она до этого не имела дела. С первого же раза сеть корректно отделила музыку от голоса с высокой точностью.
Исследователи признают, что вычленение голоса из хора голосов является более сложной задачей. На ней система не тестировалась. Тем не менее они считают, что созданная ими сеть, использующая глубокое машинное обучение существенно приближает достижения машинами того же уровня эффективности решения «проблемы вечеринки», что и у людей.
Попробуйте отличить природный звук от антропогенного
Что такое звук? Всего лишь колебания волн, которые наше ухо воспринимает, а мозг интерпретирует как, например, стук дятла или удары молотка. Но достаточно ли хорошо мы их распознаем, чтобы наверняка отличить одно от другого? В этом тесте мы перемешали звуки естественного происхождения и звуки, появившиеся благодаря человеку. Ваша задача — определить их источник. Попробуем?