Яндекс научил свой музыкальный стриминговый сервис генерировать мелодии в нескольких жанрах, сообщается в пресс-релизе, поступившем в редакцию N + 1. Синтезированная музыка создается на основе предпочтений пользователя и меняется, если он нажал кнопку дизлайка.
Одно из главных преимуществ музыкальных стриминговых сервисом перед обычными плеерами заключается в том, что они умеют составлять портрет пользователя и рекомендовать ему такую музыку, которая с большой вероятностью ему понравится. Эти рекомендации основаны на истории прослушиваний, лайках и дизлайках, а также на других факторах, например, местоположении. Анализируя эти факторы, рекомендательный алгоритм может подобрать для конкретного человека и конкретный момент подходящие песни из библиотеки.
Есть также разработки в области нейросетевого синтеза музыки, что позволяет не выбирать уже записанные треки, а генерировать их под конкретного пользователя. Ранее такие алгоритмы использовались либо в исследовательских проектах, либо в отдельных приложениях, таких как Endel, а Яндекс решил встроить алгоритм синтеза новых мелодий в стриминговый сервис «Яндекс Музыка».
Новая функция называется «Нейромузыка», раздел с ней находится в верхней части экрана. Сейчас в нем доступно три станции: «Бодрость», «Спокойствие» и «Вдохновение». В основном на них играет электронная музыка, а на станции «Бодрость» чаще встречаются другие жанры, в том числе рок, поп и хип-хоп. При этом на них играют только мелодии — слов в них нет.
Судя по всему, станции работают как сплошной поток музыки, а не как радио с отдельными треками. Но если пользователь ставит дизлайк, мелодия меняется на новую. Лайки же не меняют звучание сразу, но, как и дизлайки, учитываются в будущем при генерации.
Компания рассказала, что алгоритм обучался синтезировать партии в разных жанрах, которые затем озвучивались виртуальными музыкальными инструментами. Во время генерации алгоритм использует эти партии для создания из них мелодий.
Сейчас «Нейромузыка» доступна в мобильном приложении «Яндекс Музыка», в веб-версии этой функции пока нет.
В области нейросетевой музыки есть и другое направление: создание инструментов для музыкантов, которые позволяют им экспериментировать со звучанием, но оставляют творческий процесс написания композиций на людях. Например, несколько лет назад Google разработала открытый проект нейросетевого синтезатора, который формирует на основе звучания существующих музыкальных инструментов новые звуки.
Григорий Копиев
Самая большая из них превосходит GPT-4 в 30 из 32 тестах. Но ненамного
Компания Google представила семейство мультимодальных нейросетевых моделей Gemini, которые способны оперировать, обобщать, и комбинировать информацию различного типа, включая текст изображения, аудио, видео, а также программный код. В отличие от других больших языковых моделей, таких, например, как GPT-4 от OpenAI, которая изначально обучалась только на текстах, Gemini создавалась сразу с расчетом на работу с разнородной информацией. Согласно опубликованным данным самая большая модель из семейства Gemini превосходит (не очень значительно) GPT-4 в 30 из 32 тестов, включая популярный бенчмарк MMLU (massive multitask language understanding) с вопросами из 57 экзаменов по разным предметам, в котором модель Google даже слегка превзошла человеческий результат. Краткое описание новой модели опубликовано в блоге компании. Больше технических подробностей можно также найти в выложенной на сайте статье.