Искусственный интеллект научили факт-чекингу

Матрица соответствия между фильмами и их режиссерами

Изображение: Giovanni Luca Ciampaglia et al. / PLOS One

Группа ученых из США и Португалии создала алгоритм для определения степени достоверности источников информации. Для этого авторы используют методы сетевого анализа и «граф знаний» (knowledge graph), построенный на основе утверждений из инфобоксов Википедии. Описание исследования опубликовано в PLOS One.

В качестве источника графа знаний авторы использовали базу DBpedia, в которой собрана структурированная информация из Википедии. Ученые использовали только утверждения из инфобоксов, так как они, как правило, содержат наиболее «сухие» и проверенные факты.

Вершинами графа знаний были все субъекты и объекты, встречающиеся среди утверждений из базы Википедии. Связями между двумя вершинами был соответствующий предикат. Например, объекты «Альберт Эйнштейн» и «физика» были связаны предикатом «профессия».

Любое тестовое утверждение также представляли в виде тройки «субъект — предикат — объект» (например «Сократ — есть — Человек»). Далее в графе знаний искали путь между двумя объектами. Чем короче этот путь, тем выше вероятность, что утверждение достоверно.

Для проверки нового метода ученые, например, провели кластеризацию членов 112 Конгресса США по принадлежности к республиканской или демократической партии. Результаты оказались сопоставимы с наиболее распространенными методами политического анализа, не опирающимися на Википедию.

Также авторы проверяли утверждения вроде «Вашингтон — столица — ...», «Стивен Спилберг — снял фильм — ...» и ряд других. Во всех случаях новый алгоритм оказался эффективнее в определении верных утверждений по сравнению со случайным классификатором. Наилучших результатов удалось добиться тогда, когда граф знаний был ненаправленный. По мнению авторов, это объясняется тем, что утверждения вида «Мишель Обама — супруги — Барак Обама» работает «в обе стороны», поэтому чаще позволяет найти кратчайшие пути между объектами.

Создание нового алгоритма авторы мотивируют тем, что с развитием социальных сетей в интернете становится все сложнее контролировать «информационную экологию» из-за большого числа слухов и заведомо ложных сообщений. Ранее сообщалось о создании системы поиска в Twitter слухов на ранней стадии их появления. Существуют и краудсорсинговые платформы по проверке фактов в новостных статьях, например, NewsTrust.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.