Мнение редакции может не совпадать с мнением автора
Машинный интеллект преобразил уклад человеческой жизни, ознаменовав переход к новой цифровой экономике. Транспорт, охрана правопорядка, медицина, развлечения — куда ни посмотри, нейросети повсюду находят себе применение и получают в свое распоряжение все большую власть. В книге «Воспитание машин: Новая история разума» (издательство «Альпина нон-фикшн») кандидат физико-математических наук и специалист в области машинного обучения и искусственного интеллекта Сергей Шумский рассказывает, почему исследования в области ИИ сегодня прогрессируют как никогда быстро, каковы могут быть социальные и экономические последствия этого процесса и почему «сильный искусственный интеллект» должен быть похож на человеческий. N + 1 предлагает своим читателям ознакомиться с отрывком, посвященным голосовым помощникам: что такое сенсорный интеллект, почему все больше компаний вкладывают деньги в разработку голосовых ассистентов и с какими сложностями сталкиваются их создатели.
Голосовые помощники стали новацией 2010-х годов в качестве нового интерфейса пользователя в эпоху смартфонов. Они, как и безлюдные магазины Amazon Go, обязаны своим появлением новому поколению алгоритмов машинного обучения — так называемому глубокому обучению искусственных нейронных сетей. Технологический прорыв в машинном обучении в 2010-х, известный как революция глубокого обучения, связан с достижением компьютерами критической производительности 1011 FLOPS, сравнимой с человеческой, по доступным ценам.
Это, конечно, не означало автоматически появления искусственного интеллекта, как он когда-то задумывался его отцами-основателями. Для этого у человечества пока что банально не хватает соответствующих знаний, о чем мы еще поговорим в главе 5. Мощности сегодняшних суперкомпьютеров достигают 1016 FLOPS, однако это до сих пор не привело к появлению сильного ИИ. Но кое-какие разработки 1980-х и 1990-х годов, для которых в свое время просто не хватало вычислительных мощностей, чтобы выйти на уровень отдельных когнитивных способностей, сравнимый с человеческим, «выстрелили» именно в этот момент. Речь идет об обучении некоторых типов искусственных нейронных сетей, разработанных для работы с изображениями (сверточные нейронные сети) и временными сигналами (сети с долговременной памятью).
Оказалось, что просто за счет увеличения количества слоев в таких (глубоких) нейросетях и увеличения объема данных для их обучения, для чего теперь имелись вычислительные мощности, качество распознавания картинок и звука может достигать человеческого уровня. В итоге на протяжении 2010-х годов, благодаря технологиям глубокого обучения, машины, говоря простым языком, научились видеть и слышать не хуже человека.
Соответственно появилась масса новых возможностей для замены человека машинами — там, где люди работали «умными сенсорами»: контролерами, охранниками, операторами колл-центров, и в других профессиях с относительно простой бизнес-логикой. Отсюда — появляющиеся сегодня проходные без охранников, магазины без продавцов, такси без водителей, безлюдные колл-центры и голосовые помощники в смартфонах и умных колонках.
И это еще только начало. Потенциальный рынок приложений слабого ИИ, наделенного сверхчеловеческими сенсорными возможностями по доступным ценам, чрезвычайно большой. Он касается самых массовых профессий — продавцов, кассиров, водителей и т. д., поэтому обещает большой экономический эффект. Оказывается, люди, по крайней мере многие из них, не так уж и незаменимы.
Отложив обсуждение этой важнейшей проблемы до следующей главы, зададимся пока одним чисто практическим вопросом о драйверах развития ИИ. Есть ли экономическая целесообразность в дальнейшем совершенствовании технологий машинного обучения или бизнес может ограничиться достигнутыми успехами, сосредоточив усилия на бизнес-инновациях, то есть на освоении уже открывшихся благодаря слабому ИИ рынков? От ответа на этот вопрос зависит, в частности, объем вложений в разработку сильного ИИ и соответственно время появления последнего.
Представляется, что в силу упомянутого выше эффекта положительной обратной связи тем, кто хотел бы освоить новые рыночные ниши с помощью существующего слабого ИИ, нет смысла ждать дальнейших инноваций. Надо спешить, так как в каждой такой нише действует принцип «победитель забирает все». Так что в 2020-х годах нас ожидает инвестиционный бум новых доткомов, использующих разработанные в 2010-х технологии глубокого обучения.
Драйвером сильного ИИ выступают сегодня уже сформировавшиеся цифровые платформы, обслуживающие глобальные потребительские рынки, те, для кого голосовые помощники представляют собой важнейший канал общения с их пользователями. Ведь для массового пользователя диалог на естественном языке — максимально удобный способ бытового общения со смартфонами, навигаторами, умными колонками и другой домашней электроникой. Именно через своих электронных ассистентов — Google Assistant, Alexa, Cortana и им подобных — современные платформы продвигают свои сервисы в массы. Умные колонки сегодня — один из наиболее быстро растущих сегментов потребительской электроники, поэтому в сегменте голосовых ассистентов наблюдается очень сильная конкуренция. Крупнейшие интернет-компании тратят существенную часть доходов на совершенствование своих голосовых ассистентов.
Но несмотря на все эти вложения, качество разговорного интерфейса до сих пор оставляет желать лучшего. При этом и распознавание речи у голосовых помощников, и качество их синтетической речи уже вполне удовлетворительны. Их можно и дальше улучшать, в том числе за счет камер, распознающих мимику, жесты и эмоции пользователя. Проблема не в распознавании речи, а в понимании ее смыслового содержания и умении вести осмысленную беседу, то есть в создании того, что можно назвать разговорным интеллектом.
Выясняется, что одного сенсорного интеллекта для общения на естественном языке вовсе недостаточно. Распознавание речи лишь самый поверхностный слой настоящего разговорного интеллекта, перевод звукового сигнала в текст. Конечно, благодаря глубокому обучению в машинной обработке текстов тоже имеются большие успехи. Это видно хотя бы по довольно высокому качеству современного машинного перевода. Однако оказывается, что излагать одно и то же содержание на другом языке и делать умозаключения на основе этого содержания — задачи разного уровня сложности. Первое требует наличия у машины семантического пространства, в котором отражается содержание предложений, тогда как второе предполагает умение оперировать в этом семантическом пространстве, прокладывать в нем осмысленные траектории — рассуждения.
Разговорный интеллект должен обучаться формировать осмысленное поведение в семантическом пространстве, понимая на каждом шаге цели и позиции всех участников диалога, включая свои собственные. Значит, он и сам должен уметь ставить перед собой какие-то цели и добиваться их достижения. Иными словами, машинный перевод еще можно отнести к задачам распознавания образов — отображению исходного текста в его семантическое представление, а последнего — в текст на другом языке. Разговорный же интеллект относится к гораздо более сложному классу задач — обучению адаптивному целесообразному поведению, включая рациональное мышление как разновидность поведения в семантическом пространстве и умение осознанно манипулировать смыслами. А это — прямой путь к настоящему сильному ИИ.
Современное машинное обучение пытается найти решение этой задачи с помощью все тех же глубоких нейросетей. У всех на слуху недавние победы машин во всевозможных стратегических играх, от культовой древней игры го до новомодных StarCraft 2 и Dota 2, где требуется реагировать на действия соперников в реальном времени и строить гипотезы о том, что происходит в ненаблюдаемых областях игрового поля. Эти достижения демонстрируют способность глубоких нейросетей формировать полезные поведенческие навыки и строить выигрышные стратегии в виртуальных мирах. Но современные алгоритмы пока что не позволяют машинному интеллекту вырваться из этих виртуальных миров в реальный. Обучение нейросетей происходит сегодня слишком медленно, и соответствующий «жизненный опыт» за приемлемое время удается набрать лишь в виртуальном мире за счет существенного ускорения темпа игры. Эти алгоритмы невозможно перенести на обучение роботов в реальном мире, где у них не будет столько времени на обучение и стольких виртуальных жизней, которыми заплачено за неудачные решения.
К тому же, если вернуться к разговорному интеллекту, у нас пока нет виртуальных миров для оттачивания разговорных навыков. Ассистентам надо учиться рассуждать и вести диалоги, а для этого — пробовать самим генерировать варианты ответов в различных сценариях. Привычное обучение на больших корпусах готовых диалогов здесь не подходит. Надо, чтобы кто-то оценивал качество каждой реплики в бесчисленных ветвящихся вариантах развития диалогов, из которых лишь очень немногие могут присутствовать в обучающей выборке. А на это пока что способны только живые люди и лишь в реальном времени.
Резюмируя, можно сказать, что существующий уровень машинного интеллекта явно не устраивает лидеров цифровой революции, которые остро нуждаются в разговорном интеллекте человеческого уровня и будут вкладываться в его создание, чтобы не отстать от конкурентов. Рынок разговорного интеллекта удваивается каждые 2 года и в 2020 году должен был превысить $12 млрд. Так что спрос на сильный ИИ в современной экономике уже сформировался, и мы понимаем, кому и для чего он сегодня нужен. Следовательно, этим уже имеет смысл заниматься, хотя еще совсем недавно после всех пережитых разочарований задача построения сильного ИИ всерьез не воспринималась, а разговоры о нем считались ненаучными.
Разговорный интеллект «здесь и сейчас» нужен тем, кто сегодня зарабатывает в основном за счет персонализации рекламы. Что собой представляют те же электронные витрины Amazon, как не набор рекламных баннеров, сделанных с учетом предпочтений каждого покупателя? Между тем весь рекламный рынок, $560 млрд, составляет лишь 0,5 процента мирового ВВП. Так что рыночный потенциал для применения ИИ гораздо шире, чем рынок умных программных ассистентов.
Но для радикального расширения области применений ИИ программным агентам предстоит выйти из виртуального мира в реальный, превратиться в роботов. Сенсорный интеллект агентов предстоит дополнить моторным интеллектом роботов — способностью активно взаимодействовать с миром, иметь предиктивную модель внешнего мира и своих действий в нем, чтобы, например, понимать, что стул или чашку можно переставить с места на место, а шкаф или машину лучше и не пытаться, или что, если чашку наклонить, ее содержимое выльется, или что двери иногда открываются легко, а иногда нет и, если они заперты, в них надо не ломиться, а стучаться. Последнее уже относится к области социального интеллекта — понимания того, как принято себя вести в обществе, чего от тебя ждут в тех или иных ситуациях, «что такое хорошо и что такое плохо».
Все эти элементарные знания, известные любому ребенку, невозможно запрограммировать, им надо обучаться. И обучаться активно, методом проб и ошибок, как это делают дети. А для этого у роботов должна быть искусственная психика с врожденным любопытством, настроенная, как и у детей, на постоянное обучение, чтобы как можно скорее набраться опыта и научиться достигать своих целей в этом сложном и непредсказуемом поначалу мире. Искусственная психика роботов должна быть настолько универсальна, чтобы она могла обеспечить эффективное обучение всем видам интеллекта: сенсорному, моторному, социальному и разговорному. Ведь и дети обучаются ходить, говорить и вести себя правильно практически одновременно.
В математике бывает, что иногда легче решить задачу в более общей постановке, которая лучше отражает суть проблемы. Возможно, разработка искусственной психики — тот самый случай: вместо множества специализированных систем, обучающихся разным задачам по разным лекалам (подход, принятый сегодня в глубоком обучении), лучше разработать единый общий интеллект (Artificial General Intelligence, AGI).
Подробнее читайте:
Шумский, С. Воспитание машин: Новая история разума / Сергей Шумский. — М.: Альпина нон-фикшн, 2021. — 174 с.