Нейросети хватило видео с монозвуком для создания бинауральной записи

Григорий Копиев

Американские исследователи научили алгоритм превращать монофоническую запись звука в бинауральную, позволяющую слушателю испытывать эффект реалистичного объемного звука. Особенность метода заключается в том, что в качестве исходных данных алгоритм использует видеозапись, на которой он находит источник звука, что позволяет создать двухканальную аудиозапись, рассказывают авторы статьи, опубликованной на arXiv.org. Кроме того, исследователи создали алгоритм, который разделяет аудиодорожку на каналы, соответствующие разным инструментам, используя для этого видеоряд.

Человек может определять не только сами звуки окружающего мира, но и примерное расположение их источников. Это возможно благодаря тому, что человек имеет два уха, разделенные определенным расстоянием, а также имеющие асимметричную форму. В результате, звук доходит до ушей не одновременно и с разной интенсивностью. Для воссоздания подобного объемного восприятия мира существует метод бинауральной записи, при котором используются два микрофона, расположенные с разных сторон полноценной модели головы или внутри двух моделей ушей.

Исследователи из Facebook AI Research разработали метод, позволяющий воссоздать бинауральную запись, имея в качестве исходных данных только одноканальную аудиозапись и видеоряд.

Алгоритм, разработанный исследователями, состоит из двух основных компонентов — сверточных нейросетей U-Net и ResNet. Сначала стереоаудиозапись объединяется в монозапись, которая подвергается оконному преобразованию Фурье. На этом шаге алгоритм создает из исходного сигнала его спектрограмму, которая подается на первый слой U-Net. Параллельно с этим соответствующий кадр из видео подается сначала на нейросеть ResNet-18, где превращается в характеристический вектор. Он, в свою очередь, подается на один из слоев U-Net. Таким образом, в этой сети происходит аудиовизуальный анализ, в результате которого образуется новая спектрограмма. После этого алгоритм производит обратное оконное преобразование Фурье, получает новую моноаудиозапись, из которой рассчитывается два канала — правый и левый.

Для обучения алгоритма исследователи собрали установку, состоящую из бинаурального микрофона (он состоит из двух микрофонов, с наложенными на них моделями ушей) и закрепленной ниже камеры. Благодаря этой установке авторы смогли собрать датасет, состоящий из записей игры на музыкальных инструментах с общей продолжительностью 6,3 часа. Нейросеть ResNet была обучена не на этом наборе, а на известном датасете распространенных объектов ImageNet.

Исследователи проверили эффективность своего метода, сравнив его с тремя его вариациями и еще одним методом, разработанным другими исследователями. Для этого они использовали четыре датасета, собранные из роликов с улиц, клипов в YouTube и других данных. Проверив работу алгоритмов на этих данных, они сравнили спектрограммы сигнала, полученного в результате работы алгоритма, и реального стереосигнала. Новый метод достиг наименьшей разницы на всех четырех датасетах. Такие же результаты алгоритм показал в исследовании предпочтений добровольцев.

Также исследователи использовали свой алгоритм для разделения сигналов, принадлежащих разным инструментам. Но в качестве исходных данных он получал уже пару созданных бинауральных аудиозаписей и видеороликов. В результате алгоритм научился выполнять и эту задачу. Результаты работы обоих алгоритмов можно увидеть на демонстрационном видеоролике.

Ранее другая группа исследователей из Facebook Research разработала нейросетевой алгоритм, способный менять стиль, жанр и набор инструментов на аудиозаписи. Разработчики продемонстрировали возможности метода на разных музыкальных стилях и исполнителях, например, превратив симфонию Моцарта в запись пианиста, играющего музыку Бетховена.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

10:20 18.05.23 2.1 IT

Яндекс встроил в Алису нейросеть YandexGPT

Она поможет написать письмо, план тренировки или сочинит историю

Виктория Земляк

Яндекс обучил большую русскоязычную языковую модель YandexGPT и внедрил ее в своего виртуального помощника Алису. Сейчас нейросеть тестируют пользователи продуктов Яндекса, новость об этом вышла на сайте компании. Языковая модель — это нейросеть, которая умеет генерировать тексты, по очереди предсказывая каждое слово в предложении. Языковая модель YandexGPT основана на архитектуре Transformer, которую создали исследователи из Google в 2017 году. Когда в такую нейросеть загружают текст, она умеет выделять в нем важные слова и фокусировать на них внимание. Главный навык модели — хорошо понимать и запоминать тексты, и генерировать новые. Когда нейросеть осваивает этот навык, она одновременно естественным образом учится выполнять самые разные задачи, связанные с анализом текстов. Большие языковые модели основаны на архитектуре Transformer и обучены на огромном количестве данных, обычно из интернета. Они умеют создавать текст, почти не отличимый от человеческой речи. Первой успешной моделью такого типа стала нейросеть GPT от компании OpenAI. В 2022 вышла улучшенная версия модели ChatGPT. Ее не просто натренировали на большом количестве данных, но и дообучили с помощью обучения с подкреплением. Люди-эксперты работали с нейросетью в режиме диалога, показывая ей как правильно отвечать на вопросы. В надежде повторить успех ChatGPT, многие компании обучают свои языковые модели-аналоги (например, Bard от Google или Poe от Quora). Яндекс первым внедрил такую модель в виртуального помощника. 17 мая Яндекс выпустил большую языковую модель YandexGPT в открытый доступ. С ней можно пообщаться через Алису в приложении Яндекс, браузере, умной колонке или телевизоре. Чтобы активировать YandexGPT, нужно сказать: «Алиса, давай придумаем!» Языковая модель пока находится в режиме тестирования, но уже умеет выполнять разные задачи пользователей: выбрать подарок, составить план тренировки или написать деловое письмо. Модель умеет составлять грамотные содержательные тексты, но может ошибаться в фактах. Посмотрите, как пользователи общаются с YandexGPT: Нейросеть обучали на суперкомпьютерах Яндекса в два этапа. Сначала разработчики отобрали для обучения много книг, статей и страниц сайтов с помощью поисковых инструментов Яндекса — по утверждению компании, в выборку попадали только содержательные и хорошо написанные тексты. На втором этапе модель дообучили, чтобы она лучше вела диалог. Для этого Яндекс воспользовался методом, который придумали исследователи из OpenAI. Эксперты-разметчики составили сотни тысяч пар вопрос-ответ и показывали их YandexGPT на втором этапе обучения. Но у YandexGPT есть свои ограничения. Например, нейросеть пока не умеет запоминать контекст и учитывать предыдущие реплики. Однако YandexGPT постоянно дообучается на новых данных от пользователей и может развить этот навык в будущем. Cравнить качество ответов YandexGPT с другими языковыми моделями пока невозможно, Яндекс не раскрыл эти данные. Также неизвестна точная архитектура модели и параметры ее обучения. Тем временем другая языковая модель GPT-4 научилась работать не только с текстом, но и с картинками.