Исследователи из OpenAI создали алгоритм, который умеет создавать правдоподобные тексты и отвечать на вопросы без спецификации необходимой задачи в процессе обучения. Единственное умение GPT-2, обученного на восьми миллионах текстовых веб-страниц, — предсказывать последующее слово. Описание работы алгоритма доступно на официальном сайте проекта.
В последние годы машинное обучение все чаще и эффективнее применяют в решении задач автоматической обработки языка. В зависимости от задачи архитектура обучаемой модели и используемый для обучения датасеты должны быть разными, что может сильно ограничить их возможности и усложнить процесс разработки.
Команда из OpenAI под руководством Алека Рэдфорда (Alec Radford) решила создать алгоритм, который бы умел решать множество различных задач по обработке текста без спецификации этих задач при обучении. Для этого исследователи собрали датасет WebText, который содержит 40 гигабайт текста, взятого с восьми миллионов страниц в интернете. В отличие от большинства подобных датасетов, для которых берутся тексты с сайта Википедии или же исключительно новостные заметки, в WebText попали самые разные материалы.
Авторы утверждают, что единственная способность их алгоритма, — генерировать новые слова на основании прочитанного. Сравнительно простое решение задачи автоматической обработки языка позволило ученым создать алгоритм, который может не только дописывать отрывки, представленные людьми, но также и писать эссе на заданные темы и новости на основании заголовков.
У созданного алгоритма есть и свои ограничения. Например, наиболее удачный пример его работы — эссе на тему того, почему переработка мусора — это плохо, получилось убедительным только с 25 попытки, и при этом все равно содержало мелкие ошибки вроде необязательного повтора слов. Также среди недостатков алгоритма разработчики отметили семантические трудности и быстрые и порой неуместные смены тем. При этом тексты, которые широко представлены в обучающей выборке (например, новостные заметки) даются алгоритму лучше: правдоподобные образцы он выдает уже со второй попытки.
Также разработчики опробовали алгоритм на других задачах: ответе на случайные вопросы, переводе текста и вопросах на понимание прочитанного. Несмотря на это, что эффективность алгоритма для этих задач значительно ниже алгоритмов, настроенных на определенные задачи, GPT-2, к примеру, удалось добиться максимальной средней точности при ответе на вопрос в 63,5 процента. При этом ни один из вопросов и ответ на него не были использованы в обучающей выборке. При этом ему также удалось перевести несколько отдельных слов и ответить на большинство вопросов по прочитанным текстам. Разработчики считают, что эффективность GPT-2 в выполнении этих задач можно повысить с расширением датасета и увеличением вычислительной мощности компьютеров, который используется для обучения.
Разработчики не выложили программный код обученной модели целиком, опасаясь «недобросовестных использований»: вместо этого они предоставили упрощенную модель для других исследователей, а также описали проделанную работу в препринте.
Помимо нового алгоритма, который производит правдоподобные текстовые отрывки, у OpenAI также есть бот, который умеет играть в Dota 2: в 2017 году он выступил против сильнейших игроков и победил.
Елизавета Ивтушок
Неинвазивный декодер восстановил текст из корковых семантических представлений
Американские исследователи разработали неинвазивный декодер, который по активности мозга может реконструировать непрерывный текст — будь то история, которую человек слушает, или воображаемый рассказ, или даже суть видеоролика, в котором нет слов. Декодер обучали на данных фМРТ трех человек, которые 16 часов слушали истории. Модель не всегда могла предсказать точные слова по записям фМРТ, но передавала смысл историй. Результаты опубликованы в Nature Neuroscience. Чтобы записать нейронную активность, необходимую для декодирования речи, нужно установить электроды прямо на мозг. Этот способ используют в исследованиях с парализованными людьми, которые не могут говорить, но инвазивность такой процедуры ограничивает ее применение. Декодеры, использующие неинвазивные записи активности мозга, способны расшифровывать отдельные слова или короткие фразы, но неизвестно, могут ли эти декодеры работать с непрерывным естественным языком. Александр Хаc (Alexander Huth) из Техасского университета в Остине и его коллеги разработали декодер, который восстанавливает непрерывный текст из записей активности мозга, полученных неинвазивным способом — с помощью функциональной магнитно-резонансной томографии. Серьезным ограничением было то, что сигнал фМРТ не успевает за нейронной активностью. Функциональная магнитно-резонансная томография измеряет изменения кровотока, вызванные нейронной активностью в той или иной части мозга. Чтобы сигнал фМРТ увеличился или снизился, требуется около 10 секунд. За это время англоговорящий человек может услышать или произнести более 20 слов. Выходит, что слов для декодирования больше, чем изображений фМРТ. Ученые решили это проблему так: научили декодер угадывать последовательность слов, оценивая, насколько вероятно каждое возможное слово могло вызвать конкретную записанную реакцию мозга, — и так выбирать лучшего кандидата, то есть самое вероятное слово. Модель кодирования обучалась на сигналах фМРТ трех человек, записанных на протяжении 16 часов, пока люди слушали разные истории. Этого хватило, чтобы модель научилась предсказывать, какую реакцию мозга вызывают те или иные семантические признаки. Затем ученые предлагали испытуемым послушать истории, которые те еще не слышали, и записывали реакцию мозга. По этим записям декодер должен был реконструировать эти истории. Языковая модель — нейросеть GPT-1 — выдавала варианты слов, а модель кодирования оценивала вероятность того, что именно это слово могло продолжать историю. Декодер точно воспроизводил часть слов и фраз и улавливал суть многих других. Сгенерированные последовательности слов захватывали общий смысл новых историй. Сюжет, предсказанный декодером, напоминал сюжет реальной истории сильнее, чем если бы это было случайным совпадением (p < 0,05). Данные исследователи записывали с трех корковых сетей — классической языковой сети, сети теменно-височно-затылочной ассоциативной коры, и сети префронтальной коры. Сигналы каждой сети декодировались по-отдельности в каждом полушарии. Примечательно, пишут авторы, что большинство временных точек удавалось декодировать только по сигналам из ассоциативной (80–86 процентов) и префронтальной (46–77 процентов) сетей. И только 28–59 процентов временных точек были декодированы из речевой сети. Ученые пришли к выводу, что одни и те же слова могут быть закодированы в разных регионах мозга, и в будущем может быть достаточно записей активности отдельных областей. Еще авторы обнаружили, что по данным фМРТ декодер может предсказать смысл короткой истории, которую участник вообразил и рассказал про себя, или суть просмотренного видеоролика без слов. Однако декодирование воображаемой речи было не таким успешным, как декодирование услышанных историй, потому что модель кодирования обучали на реакциях мозга на воспринимаемую речь. Дополнительно участникам предложили послушать одновременно две истории, но обращать внимание только на одну, а вторую игнорировать. Расшифровка декодера была больше похожа на ту историю, к которой участники прислушивались. Декодер плохо расшифровывал сигналы мозга человека, на котором его не обучали. То есть нельзя обучить декодер на одном человеке и затем использовать его для «чтения мыслей» других людей. Точность декодирования, как выяснили авторы, зависела от объема данных, на которых обучали декодер. Кроме того, немного увеличить точность помогло увеличение отношения сигнала фМРТ к шуму. А еще декодер хуже справлялся со словами с определенными семантическими свойствами, независимо от шума. Более конкретные слова — night, door, restaurant, school и подобные — декодировались лучше, а слова вроде find, say, kind, get — хуже. Кроме того, что большинство существующих декодеров требует имплантации электродов в мозг, эти декодеры нередко опираются на данные речевых моторных зон, которые активны, когда субъект говорит или пытается говорить. В отличие от них, эта модель работает с сигналами областей мозга, которые кодируют семантические представления. Эти области активны даже когда человек слышит чужую речь или просто думает о том, что хочет сказать. Однако восстановить отдельные слова такой декодер часто не может. Подобным образом несколько лет назад исследователи научили нейросеть воссоздавать изображения по записям фМРТ. Хотя изображения получились абстрактными, в них можно было узнать закодированные картинки.