Искусственный интеллект научили избегать безвыходных ситуаций

Исследователи разработали новый метод обучения алгоритмов, который позволяет наблюдателю реже сбрасывать систему к изначальному состоянию. Для этого они предложили дополнять алгоритмы планировщиком, который анализирует опасность последующих действий, и, в случае, если они могут привести к необратимым последствиям, возвращает систему в исходное состояние, сообщается в работе, опубликованной на arXiv.org.

Машинное обучение позволило в последние годы совершить огромный прогресс во многих областях, например, в создании беспилотных автомобилей. Алгоритмам необходимы большие наборы тренировочных данных и множество попыток, в которых он обучается выполнению задач в разных условиях. Такой подход позволяет получать в результате более эффективные алгоритмы, чем те, чью поведение запрограммировано «вручную», но помимо большого времени обучения это имеет еще один недостаток — нередко алгоритм во время очередной попытки приходит в необратимое состояние, и разработчик должен сбросить его и среду к исходному состоянию.

Группа под руководством Сергея Левина (Sergey Levine) из Google Brain и Калифорнийского университета в Беркли предложила научить алгоритмы самостоятельно решать проблему перезапуска после неуспешного выполнения задачи и минимизировать количество сбросов к исходному состоянию. Основа метода состоит в том, что алгоритм учится не только правильно выполнять поставленную задачу, но и возвращаться из текущего состояния в исходное.

Для этого исследователи предлагают программировать алгоритм таким образом, чтобы его поведение обуславливалось двумя компонентами: планировщиком, отвечающим непосредственно за поставленную задачу, и планировщиком, который определяет, сможет ли алгоритм пройти цепочку действий в обратную сторону. Действие первого планировщика рассматривается как безопасное только в случае, если после него систему можно вернуть в исходное состояние. Если действие ведет к необратимым последствиям, второй планировщик прекращает его. Если же система все же вошла в необратимое состояние, алгоритм может совершить полную перезагрузку окружения и окажется в исходной позиции.

Разработчики продемонстрировали концепцию с помощью простого двуногого агента, передвигающегося по горизонтальной поверхности. На видео можно увидеть два алгоритма: с предложенной системой планирования (справа) и без нее (слева). Можно увидеть, что первый алгоритм замечает яму перед ним и не падает в нее. Также за счет того, что он обучается возврату в исходную позицию, алгоритм самостоятельно возвращается в исходную позицию без необходимости вмешательства наблюдателя.

Недавно разработчики из Google создали алгоритм, выполняющий паркур, применив обучение с подкреплением. За счет этого алгоритм самостоятельно научился сложным движениям — он стал перепрыгивать ямы, уклоняться от препятствий сверху, а также взбегать на склоны и перепрыгивать барьеры.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Тау-пушка из Half-Life теперь больше не тау-пушка

Спасибо авторам Black Mesa!

Мнение редакции может не совпадать с мнением автора