«Самая человеческая задача»

Зачем Google учит нейросети заниматься музыкой и живописью

В начале октября в Цюрихе Google провела конференцию, в рамках которой ведущие ученые и программисты компании рассказали журналистам о своих последних разработках в сфере создания систем машинного обучения и искусственного интеллекта. В беседе с N + 1 Дуглас Эк (Douglas Eck), руководитель Project Magenta в Google Brain — наиболее необычном подразделении компании, занимающемся созданием сложнейших и одновременно практически «бесполезных» систем, рассказал о том, зачем он и его единомышленники пытаются научить искусственный интеллект самой «человеческой» вещи — искусству, и объяснил, почему музыканты и художники уже всерьез заинтересовались «кибернетическими» произведениями искусства.

N + 1: Дуглас, давайте начнем с общих принципов, лежащих в основе восприятия искусства. Люди, как правило, обычно обращают внимание на общие детали, и потом уже «видят» частности, а нейросети, наоборот, в своей работе идут от частностей к общему. Можно ли создать машину, которая бы «думала», как человек?

Дуглас Эк: Это очень интересный вопрос, на который нет однозначного ответа. К примеру, вспомните, как люди учат иностранные языки, — если вы еще не до конца освоили язык, вам всегда кажется, что ваш собеседник говорит слишком быстро. К примеру, такая вещь всегда происходит со мной, когда я пытаюсь говорить по-корейски.

Одно из возможных объяснений этого — наш мозг не успевает воспринимать то, что нам пытаются сообщить, и выхватывает отдельные слова и какие-то выражения, уже знакомые нам. Речь разбивается на множество небольших фрагментов, которые мы не можем склеить друг с другом.

Нечто похожее происходит и в том случае, если я слушаю какие-то музыкальные композиции, написанные в незнакомом мне стиле. Поэтому, как мне кажется, музыка и языки являются исключением в данном плане — мы их учим «снизу вверх», а не «сверху вниз».

С другой стороны, когда мы сталкиваемся с чем-то уже знакомым — к примеру, с английским языком или с поп-музыкой, — тогда мы можем сразу увидеть главную идею в композиции или смысл в предложении. Тем не менее, мне все же кажется, что и человек в большинстве случаев учится, распознавая эти небольшие элементы и постепенно «склеивая» их в единое целое.

Однако, как показывают наши эксперименты в рамках Magenta, освоение навыка делить проблему на части и затем «склеивать» их является самой сложной и почти нерешаемой вещью при создании систем искусственного интеллекта.


Собственно, все наши проекты это демонстрируют — та музыка, которая выложена у нас на сайте, и то, что мы показывали публике, является в лучшем случае аналогом тех простых мелодий, которые проигрываются в магазинах, лифтах и в других публичных местах. Нам еще крайне далеко до длинных, хорошо структурированных музыкальных произведений или других плодов творчества, и пока я не уверен, есть ли у нас необходимые инструменты для создания таких машин. Определенно можно пока сказать только то, что нам нужно больше данных и моделей для того, чтобы понять, чего именно нам не хватает.

Google Brain — иницитива компании Google по разработке систем машинного обучения и глубоких нейросетей, запущенная в 2011 году Грегом Коррадо, Эндрю Ыном и Джеффом Дином. Часть алгоритмов, созданных командой Google Brain, была опубликована в открытом доступе в ноябре 2015 года в рамках библиотеки TensorFlow.

Компания уже не первый год занимается разработками в сфере машинного обучения и искусственного интеллекта. Цель разработчиков — научить машины помогать человеку в ежедневном режиме, переосмыслить способы взаимодействия людей с системами ИИ и повысить эффективность этого союза. Некоторые повседневные проблемы людей уже сейчас решаются при помощи машинного обучения. Например, компьютер с помощью ИИ делает более точные переводы, различает объекты на фотографиях, а также становится персональным ассистентом — поддерживает диалог и выполняет определенный набор команд.

И изобразительное искусство, и музыка являются очень субъективными вещами, восприятие и статус которых зависят во многом от самого зрителя или их автора. Есть ли в вашей команде нейрофизиологи и психологи, или, быть может, вы используете их последние открытия?

Нет, пока мы даже не думали об этом по одной простой причине — мы используем относительно простые нейросети. С другой стороны, глубокие сверточные сети, как показывает практика, создают фильтры и шаблоны, которые в целом похожи на то, как работает мозг человека.

Глубокие нейросети — относительно новый подвид технологий машинного обучения, отличающийся от более простых сетей тем, что их «вход» и «выход» разделяет несколько связанных друг с другом слоев нейронов, обрабатывающих данные, которые поступают из более верхнего слоя. Глубокие нейросети приобрели особую популярность в начале текущего десятилетия благодаря резкому росту вычислительных возможностей GPU и обычных процессоров.
К примеру, нижние слои подобных сетей, распознающих изображения, учатся распознавать отдельные цвета примерно так же, как это делает сетчатка, и отличают их от похожих цветов схожим образом. Наши коллеги уже достаточно хорошо изучили то, как работает эта часть сетчатки, в том числе и то, как эти рецепторы связаны с визуальной корой мозга.

Тем не менее, нужно четко понимать, что то, что делают наши модели, не обязательно является полным аналогом того, что происходит в мозге. Но при этом их изучение и анализ тех картин, которые производят эти сети, помогает нам понять, как именно работают и как могли возникнуть различные визуальные фильтры, которые были выработаны эволюцией для наиболее полного и адекватного восприятия окружающего мира.

Все это безумно интересно, но мы занимаемся совсем другими вещами: мы не ищем «центр музыки» в звуковой коре мозга или, к примеру, в префронтальной или теменной коре, и не пытаемся говорить о том, что именно они управляют нашей реакцией на музыкальные пьесы или восприятием каких-то конкретных аспектов музыки. Мы пока пытаемся создать достаточно простые сети, которые просто могли бы создавать что-то новое вместе с человеком.

Думали ли вы о чем-то похожем на то, как училась первая версия AlphaGo, — пытались ли вы использовать музыку, созданную подобными системами, в качестве входных данных и примера для последующих поколений нейросетей?

Идея интересная, но тут есть одно небольшое, но важное различие. В случае с AlphaGo были очень четкие критерии выигрыша и проигрыша, удачных и неудачных ходов. В нашем случае — так как все искусство является очень субъективной вещью — крайне сложно создать нейросеть-«контролера», которая бы проводила подобную оценку.

Если нам удастся понять, как можно объективно оценивать «удачность» и «неудачность» искусства, то тогда мы, конечно, так и поступим. С другой стороны, я знаю коллег и сотрудников различных музыкальных колледжей, которые сейчас успешно используют подобные подходы для того, чтобы изучать эволюцию музыки — то, как она появилась и как возникли различные стили.

Сверточные нейросети — особый подвид глубоких нейросетей. Они содержат в себе несколько слоев, похожих по своей архитектуре на зрительную кору и некоторые другие участки мозга. Используются сегодня для создания систем машинного зрения, алгоритмов сортировки и обработки изображений, письменной и устной речи, а также многих других практических задач. Ключевая особенность сверточных нейросетей — при анализе информации они движутся от частного к общему.
Даже очень простые нейросети, которые есть у нас сейчас, позволяют находить ответы на крайне интересные вопросы — к примеру, в какую сторону меняется сегодня поп-музыка, что двигало этими изменениями, как менялся ритм фламенко с течением времени в разных регионах Испании и о многих других вещах. Остается только завидовать музыковедам — да и музыкантам.

Пока такие исследования ограничиваются той же проблемой, что и наши опыты, — на сегодня мы накопили слишком мало статистики и данных для того, чтобы искать ответы на более фундаментальные вопросы.

Некоторые ваши эксперименты, такие как NSynth, производят очень необычные и ни на что не похожие звуки, которые могут привлечь любителей электронной музыки. Пытались ли с вами связаться музыканты?

Да, мы уже сталкивались с этим, и сейчас несколько известных музыкантов уже работает с NSynth и другими нашими музыкальными проектами, о существовании которых мы еще пока не говорили публике.

Сейчас мы создаем нейросети, которые анализируют форму колебаний, порождаемых звуком тех или иных музыкальных инструментов, и учатся комбинировать их и порождать новые сигналы, которые были бы одновременно и похожими, и не похожими на оригинальные звуки.

Откровенно говоря, NSynth и другие наши прошлые нейросети были очень грубыми попытками осуществить эту процедуру — генерируемый ими звук совсем не похож на то, что должен вырабатывать имитируемый ими «чистый» музыкальный инструмент, к примеру флейта или гитара. Конечно, это не является проблемой для музыкантов, занимающихся электронной музыкой.


Как мне кажется, подобные вещи найдут более широкое применение и вызовут больший интерес среди публики тогда, когда наши нейросети научатся комбинировать звучание тех инструментов, которыми уже есть в студии того или иного музыканта, и будут делать это в режиме реального времени.

И мы сейчас близки к реализации этой мечты — буквально пару недель назад мы опубликовали новую версию WaveNet, нейросетевой платформы для решения таких задач, работа которой была ускорена примерно в тысячу раз. Теперь у нас есть возможность радикально улучшить NSynth и реализовать все, о чем я говорил выше.

Все эти новшества могут осуществить ту же революцию в музыке, которая произошла с появлением первых электрогитар, драм-машин, педалей и прочих гаджетов, — теперь у музыкантов появится новая возможность экспериментировать со звуками самых разных инструментов, смешивая их между собой и не думая об ограничениях.

Конечно, мы понимаем, что успех нам не гарантирован — на каждую TR-808 (чрезвычайно популярная драм-машина в электронной музыке и в хип-хопе) приходится несколько сотен провальных или просто непопулярных музыкальных изобретений. Поэтому мы были бы просто счастливы, если бы наши игрушки нашли практическое применение, и мне кажется, что сегодня мы движемся в правильном направлении.

Нам нужно пройти через еще один раунд инноваций, обновления интерфейсов и связанных с эти вещей, прежде чем мы сможем определенно сказать, удастся ли нам создать очередной хитовый инструмент, от которого не сможет отказаться ни один музыкант.

Если говорить в подобном ключе, ожидаете ли вы, что через 20–30 лет музыка, написанная искусственным интеллектом, может пережить аналогичный всплеск популярности, подобный тому, который электронная музыка пережила в конце 1980-х — начале 1990-х годов?

Конечно, я надеюсь на это! В моем понимании успех Magenta выражается не только в публикации научных работ и в продвижении науки, но и в том, что когда-нибудь кто-то сможет использовать наши наработки для создания чего-то нового и интересного.


Было бы здорово, если бы появилось поколение художников и музыкантов, которое будет использовать наши инструменты или разработки наших коллег для создания своих произведений. С другой стороны, мы все, конечно, понимаем, что на одну успешную инновацию приходится несколько сотен провалов — за последний век инженеры и музыканты создали сотни новых электрогитар, но лишь единицы стали популярными.

Мы надеемся, что попадем в компанию к драм-машинам и синтезаторам и не окажемся на свалке истории.

Вы являетесь одним из создателей первых нейросетей с долгой краткосрочной памятью (LSTM), которые достаточно давно считаются главным кандидатом на роль прародителей первых реальных универсальных систем искусственного интеллекта. Смогут ли подобные ИИ, если их создать, заниматься творчеством?

Наша наука развивается так быстро, что если бы у меня спросили то же самое три месяца назад, то я бы сказал, что такую задачу смогут решить лишь сложные рекуррентные сети. Но буквально недавно в Google Brain была создана новая модель, получившая имя AIAN (Attention is all you need), которая может решать подобные задачи без повторных проходов по данным и обратного движения по логическим связям.

Рекуррентные и LSTM-нейросети — относительно новый подвид глубоких нейросетей. Их главной особенностью является то, что каждый слой в них имеет обратную связь с другими слоями и обладает своеобразной «памятью», позволяющей им учиться на своих ошибках. В отличие от других сетей, они могут решать задачи, состоящие из нескольких сотен дискретных шагов, и на их базе можно построить полноценную машину Тьюринга, способную исполнять произвольные алгоритмы и имитировать работу других сетей.
Для меня на самом деле важнее не то, как мы планируем достичь этой цели, а сам феномен творчества. Мне просто нравится музыка, живопись и в особенности литература — до того как стать инженером, я занимался изучением английской литературы и получил соответствующую степень.

Все эти вещи, как мне кажется, нельзя уместить в одну модель, разве что нам удастся создать очень расплывчатую, генерализированную нейросеть, способную решать любые мыслимые задачи.

Вдобавок, все эти связанные с искусством явления очень жестко завязаны на то, что в них вкладывает сам человек, — по сути, все они служат методами передачи информации от одного человека к другому и одним из альтернативных способов общения с себе подобными.

С другой стороны, последние исследования коллег указывают на то, что в будущем мы, в принципе, сможем создать некие метамодели, которые будут «склеивать» между собой правильные компоненты, необходимые для решения конкретных проблем, например для распознавания картин или их рисования. Все это, конечно, дело очень далекого будущего и пока об этом сложно говорить.

С другой стороны, лично мне очень интересно все это изучать и пытаться воссоздать, так как и музыка, и изобразительное искусство, и литература являются одними из самых «человеческих» занятий. Их фактически невозможно рассматривать в отрыве от самого человека.

Конечно, можно говорить о том, что компьютер может делать музыку для другого компьютера на самом абстрактном уровне, однако, говоря откровенно, подобные вещи не будут интересны ни мне, ни кому-то еще. Поэтому, как мне кажется, ИИ будет служить своеобразным дополнением к человеческим способностям и фантазии, новым способом коммуникации и передачи мыслей другим людям, а не самостоятельным творцом.

Беседовал Александр Телишев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.