Искусственный интеллект в IQ-тесте «догнал» четырехлетних детей

Тарас Молотилин

Коллектив ученых из США и Венгрии провел школьный IQ-тест для системы ConceptNet — реализации искуственного интеллекта от Массачусетского технологического института. Программа продемонстрировала результаты, соответствующие средним показателями для четырехлетних детей, однако результативность сильно отличалась между разными блоками текста. Препринт работы выложен на arXiv.org.
Авторы использовали тест WPPSI третьего издания, рассчитанный на детей возрастом от 2,5 до 7 лет. Для того, чтобы адаптировать задания для компьютерной программы, ученые создали дополнительные модули, переводящие текстовый вопрос в набор ключевых слов. Например, предложение «Почему мы летом пользуемся солнцезащитным кремом?» в результате переводилось в набор из двух понятий: «пользоваться солнцезащитным кремом» и «лето».
Система ConceptNet представляет собой базу общеизвестных понятий и содержит около 275000 концепций, связанных различными отношением, например «A является B», «A находится в B» и так далее. В эту программу загружали адаптированные вопросы из IQ-теста и в качестве окончательного ответа принимали наиболее вероятную связь между несколькими концепциями. Например, на вопросы вроде «Какого цвета снег?» программа должна была выдать односложный ответ, содержащий название цвета.
В итоге оказалось, что средняя оценка ConceptNet соответствовала результатам четырехлетнего ребенка. Наилучшие показатели программа продемонстрировала в блоках «Словарь», где нужно было пояснить значение слова, и «Схожести», где нужно было указать общие признаки или взаимоотношение между двумя объектами. Хуже всего программа справилась с блоками, в которых надо было ответить на вопрос «Почему?» или догадаться, о каком объекте идет речь по трем наводящим подсказкам.
Авторы специально отмечают, что их результаты не означают, что компьютер способен «думать» на уровне четырехлетнего ребенка. Однако ученые предполагают, что IQ-тесты могут быть удобным методом для оценки общей способности искусственного интеллекта к имитированию человеческого мышления. Наиболее известными из таких методов сейчас являются тест Тьюринга, в котором компьютеру надо убедить собеседника в том, что он общается с человеком, а также схемы Винограда, где программа должна определить по контексту, какое из существительных заменено местоимением («Протестующие вышли на улицы. Вскоре они достигли центральной площади»).

Тарас Молотилин