Википедия помогла компьютерной программе сдать вступительный экзамен по истории

«Бородинское сражение» кисти Луи-Франсуа Лежена

Изображение: Wikimedia Commons

Группа ученых из научно-исследовательского центра Fujitsu в Китае создала программу для решения университетских тестовых заданий по мировой истории. Новое приложение сопоставляет тексты заданий и вариантов ответа с содержанием похожих статей на Википедии, после чего выдает наиболее совпадающий вариант. В качестве теста в реальном задании авторам удалось набрать 37% правильных ответов, что превышает 25% для «метода тыка», но все еще далеко от идеала. Препринт описанной работы выложен на сайте arxiv.org.

В качестве основного источника информации авторы использовали архив статей en.wikipedia.org. Задания, которые решались в этой работе, были построены по следующей схеме: целевой текст (Т) -> вопрос по нему (Q) -> варианты ответа (Ci, i=1,2,3,4). Для каждой тройки объектов {T,Q,C} составлялся полный список заголовков Википедии, входящих в текст каждого из них. Далее рассчитывалась степень совпадения заголовков в тексте (Т) и вопросе (Q) с каждым из вариантов ответа (Ci).

Чем больше совпадали заголовки, входящие в целевой текст и вопрос, с данным вариантом ответа, тем большая значимость ему присваивалась. Кроме того, учитывалось, насколько заголовки пересекались между собой, то есть количество ссылок друг на друга в текстах соответствующих статей Википедии.

Классификацию ответов проводили при помощи 11 стандартных обучающих алгоритмов (AdaBoost, Random Forest, Logistic Model Trees и другие), окончательное решение вычислялось как среднее по 11 алгоритмам.

В качестве тестового задания авторы взяли вступительный экзамен «B» по мировой истории, проводившийся в 2007 году в Японии. Программе удалось набрать 37 баллов из 100. Она относительно хорошо справилась с заданиями, где нужно было выбрать правильный ответ из четырех предложенных (результативность 45%), но провалила более сложные задания другого формата (в некоторых блоках результативность была нулевой).

В итоге авторы отмечают, что результат их программы оказался выше, чем случайный (37% против 25%), однако о широком использовании такого софта думать еще рано. Ученые называют ряд улучшений, которые они собираются внести в алгоритм в будущем, и планируют продолжать заниматься этой тематикой.

Об области применения подобных программ авторы не говорят напрямую, но отмечают, что «решение тестов из школьных экзаменов в реальной жизни — это важная и полезная область приложения QA-систем (систем, отвечающих на вопросы - прим. N + 1)». 

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.