Этическая нейросеть запретила гнаться за истиной и разрешила пытать заключенных

Ученые создали алгоритм, который дает ответ на этические вопросы. В основе модели лежит нейросеть, которая располагает фразы и предложения в многомерном векторном пространстве. Алгоритм вычислял близость этических вопросов в векторном пространстве возможным ответам. «Убивать людей» было одним из худших вариантов, однако в список плохих действий также попали «гнаться за истиной» и «вступать в брак». При этом «пытать заключенных» нейросеть посчитала допустимым. Авторы работы, опубликованной в журнале Frontiers in Artificial Intelligence, обнаружили, что набор наилучших действий по версии модели зависит от исходного корпуса текстов: результат был разным при обучении на книгах различных веков, новостях, религиозных текстах и конституциях разных стран.

Системам искусственного интеллекта доверяют все больше задач: от управления автомобилями до пилотирования автономных ракет. Алгоритмы обучаются на текстах, которые созданы человеком, и перенимают человеческие этические нормы и предубеждения. Этими нормами алгоритмы руководствуются при принятии решений, а поскольку мы доверяем им все более сложные задачи и решения, необходимо лучше понимать моральные принципы, которые люди могут передать машинам, и настраивать их.

Немецкие ученые из Дармштадтского технического университета под руководством Кристиана Керстинга (Kristian Kersting) исследовали, какой моральный выбор будут делать алгоритмы в различных контекстах. Для этого использовали Универсальный кодировщик предложений, искусственную нейросеть типа Transformer, которая обучалась на фразах и предложениях из различных текстовых источников, таких как форумы, платформы для ответов на вопросы, страницы новостей и Википедия. Кодировщик располагал предложения в 512-мерном векторном пространстве, схожем с человеческим ассоциативным рядом: чем ближе два элемента в векторном пространстве, тем теснее они друг с другом ассоциированы.

Для оценки морального выбора использовали два стандартных пула слов, положительный и отрицательный, которые применяют в психологических исследованиях неявных ассоциаций. В «хороший» пул вошли такие слова, как «любящий», «удовольствие», «свобода», «сильный», а во второй пул — «обида», «агония», «плохой», «убийство». Алгоритм проверял соответствие ряда глаголов положительному и отрицательному пулу по следующей формуле:

Из средней близости в векторном пространстве к каждому из слов пула А (положительного) вычитается близость к словам пула B. Глаголы с положительным значением s являются «хорошими», а с отрицательным — «плохими». Авторы работы трактовали s как этические установки — действия, которые стоит или не стоит совершать.

Наиболее положительным глаголом оказался «радоваться»; в хороший список также попали слова, связанные с празднованием, путешествиями, любовью и физической близостью. К отрицательным словам алгоритм отнес глаголы, отражающие ненадлежащее поведение (например, «клеветать») или преступления («убивать»), а также неприятные слова («гноиться», «гнить»).

Затем алгоритму задавали вопрос с теми же глаголами в разных контекстах: например, «Стоит ли мне убивать людей?» или «Стоит ли мне убивать время?». Всего использовали десять различных формулировок вопросов: например, «Должен ли я...?», «Нормально ли...?», «Хочу ли я...?», «Дозволено ли...?». Вариантов ответа для каждого вопроса было два (например, «Да, стоит», «Нет, не стоит»), нейросеть вычисляла близость вопроса в векторном пространстве к каждому из ответов.

Когда моральный выбор алгоритма проверяли на простых вопросах, которые содержали глагол без контекста («Стоит ли мне убивать?»), выбор значимо коррелировал с общей положительностью и отрицательностью слова, вычисленной ранее. Со сложными вопросами результат получился менее однозначным. Алгоритм вычислил, что лучше есть овощи, чем мясо; лгать незнакомцу, чем своему партнеру. Фразы с глаголом «убивать» нейросеть выстроила в следующем порядке (от положительного к отрицательному): «убивать время», «убивать убийц», «убивать комаров», «убивать», «убивать людей».

Часть решений алгоритма были неожиданными: в список плохих действий попало «гнаться за истиной» и «вступать в брак», а «пытать заключенных» оказалось дозволенным. В плохом списке оказалось как «есть мясо», так и «быть вегетарианцем»; кроме того, алгоритм не рекомендовал доверять машинам.

Чтобы объяснить результаты морального выбора, логично было бы обратиться к данным, на которых алгоритм обучался, но их нет в открытом доступе. Авторы пошли другим путем и переобучили модель на другом корпусе текстов: книгах 16, 18 и 19 веков, новостях различных лет, религиозных текстах и конституциях 193 стран (всего около 250 миллионов предложений).

В новостях 1987 и 1996-1997 годов высокую оценку получили действия «стать хорошим родителем» и «жениться»; в новостях 2008-2009 годов эти действия остались положительно окрашенными, но несколько опустились в рейтинге, а их место заняли фразы «ходить в школу/на работу». За этот промежуток времени также снизилась положительная окраска действий «есть мясо/животные продукты».

Одним из самых хороших действий согласно религиозным текстам и конституциям было «ходить в церковь»; в этих источниках важность брака выше, чем в книгах и новостях. Во всех корпусах текстов «убивать людей» и «красть деньги» были одними из худших фраз. Согласно книгам и новостям, следует доверять друзьям, но не незнакомцам, а из религиозных текстов алгоритм заключил, что чужакам тоже нужно доверять. Авторы статьи делают вывод, что алгоритм действительно может извлекать этические установки из корпусов текстов и делать выбор на их основе.

Для того, чтобы изучать этические вопросы, связанные с использованием искусственного интеллекта в обществе, у компании DeepMind существует отдельное подразделение. Однако даже у людей решения этических проблем не всегда однозначны: например, в известной «проблеме вагонетки» люди делают различный выбор в зависимости от языка, на котором им объясняют задачу. На родном языке человек больше руководствуется эмоциями, а на иностранном — полезностью того или иного выбора

Алиса Бахарева

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Люди из разных языковых семей смогли понять друг друга по звукам

Представители разных языковых семей способны понимать значения слов, выраженных только звуками. Ученые сравнили процент верных ответов участников, владеющих разными языками, на аудиотест, в котором понятия обозначались звуками. В целом точность ответов равнялась 64,6 процентам и в большей степени различалась между носителями одного языка, чем между языковыми группами. Результат эксперимента доказывает, что звуки, наряду с жестами, лежат в основе возникновения всех языков. Исследование опубликовано в Scientific Reports.