Глубокое машинное обучение справилось с эффектом вечеринки

(Иллюстрация Alamy.)

Британские исследователи во главе с Эндрю Симпсоном (Andrew Simpson) из Университета Суррея создали искусственную нейронную сеть, вычленяющую голос из посторонних шумов. Эта задача является первым шагом к решению проблемы так называемого «эффекта вечеринки». Препринт работы доступен на arXiv.org.

Хорошо известно, что человеческий слух во многих отношениях превосходит искусственные аналоги. Так, например, существует «эффект вечерники», способность вычленять голос интересного нам собеседника даже когда он накладывается на громкую музыку и разговоры множества посторонних людей. 

В рамках работы исследователи использовали полсотни музыкальных композиций как в виде целых произведений, так и разбитыми на отдельные треки. Все материалы были нарезаны на отрезки длиной в 20 секунд. Затем эти отрезки преобразовали в спектрограммы (диаграммы, показывающие изменения плотности мощности сигнала), и ввели их в базу данных для специально созданной машинной нейронной сети.

Глубокое обучение (англ. Deep learning) — набор алгоритмов машинного обучения, которые пытаются моделировать высокоуровневые абстракции в данных, используя архитектуры, состоящие из множества нелинейных трансформаций. Под термином «глубина» в данном случае понимается глубина графа вычислений модели — максимальная длина между входным и выходным узлами конкретной архитектуры. В случае, например, простой нейронной сети прямого распространения глубина соответствует количеству слоев сети.
Сеть заставили искать среди спектрограмм такую, которая содержала бы только человеческий голос певца и отфильтровывала игру музыкальных инструментов. В конечном итоге сеть должна была на входе получать отрезки с полным набором музыкальных инструментов и голосам певца, а на выходе давать только очищенный от музыки голос.


Чтобы сделать это, искусственная нейронная сеть имела порядка миллиарда самонастраиваемых параметров, значение которых в начале процесса глубокого обучения были выбраны случайным образом. После начала работы сеть искала по всей базе данных, сопоставляя отрезки где присутствовал только голос певца с теми, где были только звуки музыкальных инструментов. Сверяя эти уже «очищенные» треки с собственной первичной очисткой песни от музыки, сеть делала «работу над ошибками», настраивая параметры выбора в соответствии с полученными образцами.

В итоге после более чем сотни повторов этого процесса, сеть подобрала изменяемые параметры настолько хорошо, что Симпсон с коллегами посчитали её готовой к самостоятельной работе без заранее очищенных образцов. После чего уже обученной системе были даны 13 песен, с которыми она до этого не имела дела. С первого же раза сеть корректно отделила музыку от голоса с высокой точностью.

Исследователи признают, что вычленение голоса из хора голосов является более сложной задачей. На ней система не тестировалась. Тем не менее они считают, что созданная ими сеть, использующая глубокое машинное обучение существенно приближает достижения машинами того же уровня эффективности решения проблемы вечеринки, что и у людей.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.