Группа специалистов по информационным технологиям из Мичиганского университета представила на Международной конференции WWW2015 (Флоренция, Италия) разработанное ими программное обеспечение для раннего обнаружения слухов в Twitter. Метод его работы основан на отлавливании первоначальной волны скептической реакции пользователей на противоречивую информацию. По мнению ученых, их софт способен помочь пресечь распространение ложных слухов до того, как они нанесут какой-либо ощутимый ущерб. Также исследователи представили экспериментальную проверку своей программы на двух обширных базах твитов. С работой можно ознакомиться на сайте университета.
В настоящий момент слухи в социальной сети Twitter отслеживаются двумя способами: наблюдение за развитием трендов и использование определенных хэштегов как сигналов. Оба метода способны распознать слух только уже на завершающей стадии, когда он набрал силу и, значит, вызвал какие-то потенциально опасные реакции в обществе. Ученые из Мичигана предложили иной способ. Их метод основывается на пяти последовательных шагах и в его основе лежит первичная скептическая реакция людей на сомнительную или шокирующую информацию, распространяемую «топикстартерами» слухов. Для целей своего исследования они предложили рабочее определение слуха, как некоего противоречивого, спорного утверждения, требующего фактической проверки.
На первом шаге программа детектирует так называемые «сигнальные твиты» - сообщения, содержащие выражения сомнения, скепсиса, вопросы и т.д. Например, «Это подтвержденная информация?»; «Правда ли это?», «Действительно так?»; «Я сомневаюсь»; «Мне кажется, этого не может быть» и иные подобные высказывания. На втором шаге производится кластеризация «сигнальных твитов» в соответствии с их содержанием (или содержанием твитов, для которых они выступали ответом или комментарием). Иными словами, выражения сомнения в твитах всегда идут в связке с информацией, по поводу которой оно возникло. На третьем шаге вычленяется ядерное содержание всех твитов каждого кластера в виде одного ясного утверждения. Это и есть, потенциально, распространяемая с помощью слуха информация. Например, «На ядерной электростанции в Корее произошла авария». В четвертом шаге отсеиваются нерелевантные твиты (они могут формировать отдельные кластеры), и выделяется кластеры-кандидаты, которые, вероятно, репрезентируют какой-либо слух. На пятом завершающем шаге, посредством нескольких статистических процедур, производится сравнение и ранжирование кластеров-кандидатов. И окончательно выделяется один или несколько кластеров, содержащих вирусно распространяемые посредством слухов спорные утверждения.
По заявлению ученых, их метод обнаруживает какой-либо слух на 3,6 часа раньше, чем при использовании трендов, и на 2,8 часа быстрее, чем при методе, опирающемся на хэштеги. Более того, традиционные подходы дают только 10-ти процентную точность в обнаружении слухов, в то время как экспериментальная проверка новой программы дала гораздо более впечатляющие результаты. Так, проанализировав массив твитов (около 30 миллионов) за апрель 2013 года, когда произошли взрывы на Бостонском марафоне, программа успешно выявила 110 слухов с точностью превышающей 50 процентов. А на случайно выбранном массиве твитов (1,2 миллиарда) за ноябрь того же года, когда не происходило каких-либо значимых событий, ряд слухов был детектирован с точностью в 33 процента.
Интерес к анализу распространения слухов посредством социальных сетей возник после того, как группа хакеров взломала твиттер-аккаунт агентства Associated Press, от имени которого был выпущен твит следующего содержания: «Срочные новости! Два взрыва в Белом доме. Барак Обама ранен». Он моментально распространился среди пользователей соцсетей и привел к падению фондового рынка на 140 пунктов. И хотя AP быстро выпустило опровержение, эксперты заявили, что времени для тех, кто заранее знал о хакерской атаке, было достаточно, чтобы использовать падение для своей выгоды.