Scassellati et al. / arXiv 2018
Американские разработчики представили систему, которая обучает искусственный интеллект понятию обладания объектами. Такая система состоит из четырех алгоритмов, каждый из которых собирает информацию о владельце объекта и том, какие действия к нему можно применять. Препринт статьи опубликован на arXiv.org.
Одной из необходимых для успешной коммуникации социальных норм считается понятие обладания: в обычной ситуации у людей не принято распоряжаться чужим имуществом без разрешения. Кроме того, норма эта не только социальная, но также этическая и правовая, и ее отсутствие может привести к негативной реакции и нежелательным последствиям.
Для успешной интеграции роботов в человеческое общество умение соблюдать нормы обладания необходимо и искусственному интеллекту. Исследователи под руководством Брайана Сказеллати из Йельского университета разработали единую систему, с помощью которой роботов можно научить базовым принципам обладания.
Система работает на основе четырех алгоритмов. Первый алгоритм собирает информацию о владельцах объектов на примере фразы «Это мое», сказанной владельцем. Второй алгоритм, напротив, учится правилам, в соответствии с которыми человек не является обладателем объекта. Третий и четвертый алгоритм запоминают правила, которые распространяются владельцами на объекты в их обладании: например, обозначают то, что с объектами можно или нельзя делать. Понятие «обладания», таким образом, представляется для обучаемой системы в виде графа, в котором вершины представляют собой объекты и потенциальных владельцев, а ребра — отношения между ними, и большого массива правил, регулирующих приемлемое и неприемлемое взаимодействие робота с предметами. Например, если исследователь попросит выбросить какой-то объект, система сможет обратиться к доступной ему информации о том, что этот объект кому-то принадлежит и, следовательно, не может быть выброшен, а затем отказаться.
Полученную систему интегрировали в робота Baxter и провели эксперимент с объектами — разноцветными кубиками — и их обладателями: разные люди просили робота поднимать или выбрасывать различные объекты. Со встроенной системой определения обладания робот успешно определил валидность просьб исследователей для 14 объектов из 20.
Несмотря на успешную работу представленной системы, ученые отмечают, что пока что она направлена только на анализ собственной оценки обладания объектами, то есть относительно действий самого робота. В будущем ученые также хотят расширить возможности своей системы, обучив ее, к примеру, понятию заимствования, при котором, помимо обладателя, объект может — в той или иной мере — быть использован и другими.
При обучении искусственного интеллекта многие исследователи отмечают предвзятость данных, которые используются для машинного обучения. Например, взяв в качестве обучающей выборки тематические тексты, можно обучить нейросеть «мыслить» как психопат.
Елизавета Ивтушок
Неинвазивный декодер восстановил текст из корковых семантических представлений
Американские исследователи разработали неинвазивный декодер, который по активности мозга может реконструировать непрерывный текст — будь то история, которую человек слушает, или воображаемый рассказ, или даже суть видеоролика, в котором нет слов. Декодер обучали на данных фМРТ трех человек, которые 16 часов слушали истории. Модель не всегда могла предсказать точные слова по записям фМРТ, но передавала смысл историй. Результаты опубликованы в Nature Neuroscience. Чтобы записать нейронную активность, необходимую для декодирования речи, нужно установить электроды прямо на мозг. Этот способ используют в исследованиях с парализованными людьми, которые не могут говорить, но инвазивность такой процедуры ограничивает ее применение. Декодеры, использующие неинвазивные записи активности мозга, способны расшифровывать отдельные слова или короткие фразы, но неизвестно, могут ли эти декодеры работать с непрерывным естественным языком. Александр Хаc (Alexander Huth) из Техасского университета в Остине и его коллеги разработали декодер, который восстанавливает непрерывный текст из записей активности мозга, полученных неинвазивным способом — с помощью функциональной магнитно-резонансной томографии. Серьезным ограничением было то, что сигнал фМРТ не успевает за нейронной активностью. Функциональная магнитно-резонансная томография измеряет изменения кровотока, вызванные нейронной активностью в той или иной части мозга. Чтобы сигнал фМРТ увеличился или снизился, требуется около 10 секунд. За это время англоговорящий человек может услышать или произнести более 20 слов. Выходит, что слов для декодирования больше, чем изображений фМРТ. Ученые решили это проблему так: научили декодер угадывать последовательность слов, оценивая, насколько вероятно каждое возможное слово могло вызвать конкретную записанную реакцию мозга, — и так выбирать лучшего кандидата, то есть самое вероятное слово. Модель кодирования обучалась на сигналах фМРТ трех человек, записанных на протяжении 16 часов, пока люди слушали разные истории. Этого хватило, чтобы модель научилась предсказывать, какую реакцию мозга вызывают те или иные семантические признаки. Затем ученые предлагали испытуемым послушать истории, которые те еще не слышали, и записывали реакцию мозга. По этим записям декодер должен был реконструировать эти истории. Языковая модель — нейросеть GPT-1 — выдавала варианты слов, а модель кодирования оценивала вероятность того, что именно это слово могло продолжать историю. Декодер точно воспроизводил часть слов и фраз и улавливал суть многих других. Сгенерированные последовательности слов захватывали общий смысл новых историй. Сюжет, предсказанный декодером, напоминал сюжет реальной истории сильнее, чем если бы это было случайным совпадением (p < 0,05). Данные исследователи записывали с трех корковых сетей — классической языковой сети, сети теменно-височно-затылочной ассоциативной коры, и сети префронтальной коры. Сигналы каждой сети декодировались по-отдельности в каждом полушарии. Примечательно, пишут авторы, что большинство временных точек удавалось декодировать только по сигналам из ассоциативной (80–86 процентов) и префронтальной (46–77 процентов) сетей. И только 28–59 процентов временных точек были декодированы из речевой сети. Ученые пришли к выводу, что одни и те же слова могут быть закодированы в разных регионах мозга, и в будущем может быть достаточно записей активности отдельных областей. Еще авторы обнаружили, что по данным фМРТ декодер может предсказать смысл короткой истории, которую участник вообразил и рассказал про себя, или суть просмотренного видеоролика без слов. Однако декодирование воображаемой речи было не таким успешным, как декодирование услышанных историй, потому что модель кодирования обучали на реакциях мозга на воспринимаемую речь. Дополнительно участникам предложили послушать одновременно две истории, но обращать внимание только на одну, а вторую игнорировать. Расшифровка декодера была больше похожа на ту историю, к которой участники прислушивались. Декодер плохо расшифровывал сигналы мозга человека, на котором его не обучали. То есть нельзя обучить декодер на одном человеке и затем использовать его для «чтения мыслей» других людей. Точность декодирования, как выяснили авторы, зависела от объема данных, на которых обучали декодер. Кроме того, немного увеличить точность помогло увеличение отношения сигнала фМРТ к шуму. А еще декодер хуже справлялся со словами с определенными семантическими свойствами, независимо от шума. Более конкретные слова — night, door, restaurant, school и подобные — декодировались лучше, а слова вроде find, say, kind, get — хуже. Кроме того, что большинство существующих декодеров требует имплантации электродов в мозг, эти декодеры нередко опираются на данные речевых моторных зон, которые активны, когда субъект говорит или пытается говорить. В отличие от них, эта модель работает с сигналами областей мозга, которые кодируют семантические представления. Эти области активны даже когда человек слышит чужую речь или просто думает о том, что хочет сказать. Однако восстановить отдельные слова такой декодер часто не может. Подобным образом несколько лет назад исследователи научили нейросеть воссоздавать изображения по записям фМРТ. Хотя изображения получились абстрактными, в них можно было узнать закодированные картинки.