Открытое обучение в виртуальных мирах

«Общий искусственный интеллект»

Почему механизмы коэволюции не помогли создать сильный ИИ

Издательство Института Гайдара Некоммерческая организация

Мнение редакции может не совпадать с мнением автора

Загрузка галереи

Языковые и мультимодальные модели способны на многое: беседовать с пользователем, анализировать окружение с помощью камеры, генерировать текст, изображения и видео. Тем не менее их возможности ограничены, и это отличает такие системы от гипотетического

AGI

. В книге «Общий искусственный интеллект» («Издательство Института Гайдара»), переведенной на русский язык Артемом Смирновым, исследователь Юлиан Тогелиус рассказывает, что сегодня понимают под ОИИ, а также наиболее перспективных подходах к его созданию и возможных социальных последствиях. Предлагаем вам ознакомиться с фрагментом о попытках создать сложный интеллект в виртуальных средах.

Открытое обучение в виртуальных мирах

Мы, люди, по-видимому, обладаем самым развитым общим интеллектом на этой планете (хотя это, конечно, зависит от конкретных определений «общего» и «интеллекта»). Разумно предположить, что мы способны создать другие формы общего интеллекта, используя тот же алгоритм, благодаря которому появились сами. Этот алгоритм практически наверняка представляет собой дарвиновскую эволюцию — сначала на генетическом уровне, а затем и на уровне культурном, или меметическом.

Как уже говорилось ранее, эволюционные вычисления пытаются применить дарвиновский естественный отбор как метод поиска решений или генерации программ. И эволюционные алгоритмы действительно эффективно работают со многими четко поставленными задачами. Однако для менее конкретных проблем, таких как создание общего искусственного интеллекта, трудно придумать эффективную функцию приспособленности. Похожая проблема существует и в обучении с подкреплением — альтернативном подходе к обучению через действия в реальном мире: крайне сложно разработать хорошую функцию вознаграждения, которая выходила бы за рамки обучения конкретным задачам. Как вознаграждать общий интеллект, если его нельзя даже определить?

Естественной эволюции понадобились миллиарды лет, чтобы путем медленного отбора генов, создающих способные к выживанию и размножению организмы, прийти к Homo sapiens sapiens (то есть к нам с вами). Среда нашей эволюции была чрезвычайно сложной и постоянно менялась, а сам путь эволюции был далеко не прямым. Наша анатомия содержит множество примеров того, как органы и части тела, изначально развившиеся для одних функций, были переориентированы на другие. Знаете ли вы, что перья, вероятно, сначала появились для сохранения тепла, а не для полета? Когда некоторые виды рептилий обзавелись перьями, выяснилось, что оперение позволяет им планировать в воздухе. Те рептилии, которые лучше планировали, махая передними конечностями, получили эволюционное преимущество, и со временем (через несколько миллионов лет) их потомки превратились в птиц.

Открытое обучение объединяет различные подходы к одновременному созданию агентов и сред, в которых агенты могут длительное время обучаться или эволюционировать, постепенно развивая все более богатый и сложный набор поведенческих реакций. По сути, мы сосредотачиваемся не только на обучении отдельного агента, но и на том, как агенты учатся совместно, а также на создании проблем и сред для их обучения. Этот подход к ОИИ принципиально отличается от обучения на основе созданных людьми текстов и изображений.

Как и многие идеи в сфере ИИ, концепция открытого обучения существует уже долгое время, ожидая появления достаточных вычислительных мощностей и программной инфраструктуры для полной реализации. Ожидание продолжается. Однако растущее число разработок в области открытого обучения позволяет предположить, что вскоре мы увидим появление интересных возможностей. Большинство ранних попыток достичь открытого обучения предпринималось в рамках не имеющей четкой структуры исследовательской области искусственной жизни, цель которой — изучать «жизнь, какой она могла бы быть», а не жизнь, какая она есть (это область биологии). Искусственная жизнь не ограничивается одним только искусственным интеллектом, так как интеллект — лишь один из аспектов биологической жизни, который, возможно, неотделим от организма-носителя. Поэтому многие исследования в области искусственной жизни направлены на создание симулированных существ, проявляющих определенные признаки жизни, включая, возможно, и интеллект.

У истоков открытой эволюции в области искусственной жизни стояли эксперименты Нильса Олла Баричелли, который моделировал эволюцию на экспериментальном компьютере в Принстоне в 1953 году.

Одним из более совершенных ранних проектов стала система Tierra, симуляция, впервые запущенная в 1990 году, в которой разные программы существуют в общем пространстве памяти и соревнуются за процессорное время и пространство. В отведенное им ограниченное время они могут создавать свои копии и изменять или перезаписывать другие программы. Эта конкуренция запускает эволюционный процесс, в ходе которого программы эволюционируют для захвата доминирующего положения, часто развивая при этом «непредусмотренные стратегии». Так, некоторые программы эволюционировали в паразитов, использующих другие программы, воспроизводя тем самым отношения паразитов и хозяев, существующие в природе.

Многие попытки реализовать открытую эволюцию используют алгоритмы, стремящиеся воспроизвести кооперативную или конкурентную коэволюцию. Коэволюция в биологии означает, что два вида эволюционируют во взаимной зависимости из-за взаимодействия между организмами этих видов. Существуют различные формы коэволюции. Коэволюция насекомых и цветковых растений демонстрирует яркий пример взаимовыгодного развития, когда эволюционный успех одного вида положительно влияет на развитие другого. То есть это ситуация, выгодная обеим сторонам. Типичный пример: цветковые растения производят нектар для питания насекомых, а те, в свою очередь, переносят прилипшую к ним пыльцу на другие растения того же вида. Процессы коэволюции между определенными парами видов привели к формированию сложных функциональных особенностей, которые едва ли могли бы развиться другим путем. Например, у некоторых растений появились пигменты особых цветов, а у опыляющих их насекомых — способность различать эти цвета. Другие растения научились привлекать насекомых ароматами или даже цветками, внешне напоминающими самих насекомых. Значительная часть красоты, которую мы видим в саду ранним летним днем, — непосредственный результат кооперативной коэволюции.

Если в кооперативной коэволюции представители обоих видов повышают свою приспособленность, то конкурентная коэволюция описывает ситуации, где выигрыш одного означает проигрыш другого. Классический пример конкурентной коэволюции — отношения хищника и жертвы. Очевидный пример таких отношений — лисы и кролики, где вторые служат потенциальной добычей для первых. Со временем у кроликов развились сильные лапы для быстрого бегства, глаза, обеспечивающие почти круговой обзор, и умение резко и непредсказуемо менять направление при прыжках. У лис же появился быстрый бег, острое зрение с возможностью оценки расстояния (хотя и с узким полем обзора) и стратегии охоты из засады. Успех конкретной лисы обычно означает неудачу для конкретного кролика, и наоборот.

Изумительное разнообразие и изобретательность природного мира во многом являются результатом коэволюции. Сможем ли мы воспроизвести такие механизмы в компьютерном коде? Возможность обойтись без ручного задания функции приспособленности стала бы серьезным прорывом в эволюционном поиске.

В важном эксперименте 1990 года Дэниел Хиллис продемонстрировал практическую пользу коэволюции. Он применил искусственную эволюцию для создания сортирующих сетей — простых схем для сортировки чисел. Для оценки эффективности каждой сети он сначала проверял их на нескольких задачах сортировки. Однако это привело к появлению сетей, которые специализировались только на тестовых задачах. Тогда он начал развивать эволюционным путем не только сети, но и сами задачи сортировки. Сети по-прежнему получали вознаграждение за решение максимального числа задач. А задачи сортировки вознаграждались за способность «обмануть» (оказаться нерешаемыми) как можно больше сетей. В версии Хиллиса задачи сортировки выступали «паразитами» по отношению к сортирующим сетям — подобно тому как отношения паразитов и хозяев являются распространенным типом конкурентной коэволюции в природе. Этот подход оказался очень успешным, и коэволюционный процесс создал более эффективные сортирующие сети, чем те, что удавалось найти с помощью стандартных эволюционных алгоритмов с фиксированными целями.

В 1990-х и начале 2000-х годов ученые пытались применить принципы конкурентной коэволюции в робототехнике, работая как с миниатюрными реальными роботами, так и с их виртуальными моделями. Особенно часто исследователи пытались воспроизвести отношения хищника и жертвы, где один робот играл роль хищника, а другой — жертвы. Роботы постоянно преследовали друг друга и уворачивались друг от друга, становясь все изобретательнее по мере эволюции их нейронных сетей. Некоторые эксперименты выявили любопытные параллели с реальной эволюцией. Например, в виртуальной среде, где эволюционировало и расположение «глаз» (визуальных датчиков) роботов, у робота-хищника развивалось направленное вперед зрение с возможностью оценки глубины (как у лисы), а у робота-жертвы появлялись боковые глаза для защиты от засады (как у кролика).

Тем не менее эти эксперименты с коэволюцией в основном не смогли создать сложные стратегии. Типичным явлением стало «зацикливание», при котором одни и те же стратегии развивались циклически. Это похоже на принцип игры «камень-ножницы-бумага», где бумага сильнее камня, камень сильнее ножниц, а ножницы сильнее бумаги. По такому же принципу стратегия хищника могла быть побеждена новой стратегией жертвы, которую, в свою очередь, побеждала предыдущая стратегия хищника.

Почему все эти эксперименты с искусственной коэволюцией не привели к созданию сложного, впечатляющего интеллекта? Причина в том, что естественная коэволюция происходит в сложном мире с богатством сенсорных впечатлений и практически бесконечными возможностями для новых стратегий. Вероятнее всего, эти эксперименты были чересчур упрощенными. Роботы (как виртуальные, так и реальные) были слишком примитивными: примитивные тела, примитивные исполнительные механизмы, примитивные датчики. Но самое главное — слишком примитивными были среды. Разве можно развить общий интеллект в (виртуальной) пустой комнате, где единственное занятие — гоняться за цилиндрическим роботом, движущимся с постоянной скоростью?

Итак, нам нужны более сложные среды. Где их взять? В видеоиграх. Современные видеоигры содержат огромные миры, где есть чему учиться и что делать. К тому же они созданы так, чтобы люди могли научиться в них играть. По сути, согласно ведущей теории игрового дизайна, главная причина, почему нам нравятся игры, в том, что мы становимся в них лучше, а успешные игры по своей природе — это хорошо продуманный обучающий опыт. Огромное разнообразие видеоигр показывает, как разработчики исследуют новые и интересные способы бросить вызов человеческому мозгу. Некоторые из самых популярных видеоигр обладают невероятной глубиной игровой механики; люди могут играть в StarCraft или Street Fighter десятилетиями и продолжать совершенствоваться. Может быть, стоит просто дать нашим алгоритмам обучения свободу действий в видеоиграх и позволить им осваивать все более сложные навыки и развивать все более общий интеллект?

Подробнее читайте:
Тогелиус, Ю. Общий искусственный интеллект / Юлиан Тогелиус; перевод с английского под научной редакцией Артема Смирнова. — Москва: Издательство Института Гайдара, 2025. — 208 с.

Книжная полка

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

Генеративный чат-бот помог при депрессии и тревожности в клинических испытаниях

Машинное обучение помогло предсказать развитие шизофрении при психопатологии