Агентство по перспективным оборонным научно-исследовательским разработкам США (DARPA) провело конкурс по выявлению в Twitter ботов, склоняющих других участников обсуждения принять их точку зрения. Группа американских ученых проанализировала использованные методы выявления подобных аккаунтов, препринт опубликован на arXiv.org.
Согласно официальным данным Twitter, боты составляют около восьми с половиной процентов активных пользователей социальной сети. Авторы условно разделили ботов на три группы в зависимости от предназначения аккаунта: спам, монетизация трафика, и влияние на общественное мнение. Конкурс, проводимый DARPA, был направлен именно на поиск последней категории ботов, которые имитируют человека с какой-то политической или социальной позицией и используются для влияния на общественное мнение.
В рамках соревнований, которые прошли в первом квартале 2015 года, командам-участникам было предложено за четыре недели выявить «влияющих ботов». Всего в соревновании участвовало шесть команд из разных университетов и организаций. Участники должны были выявить среди массы твитов всех ботов, влияющих на общественное мнение, причем выделить именно ботов, участвующих в дискуссии на заранее определенную тему — обсуждение вопроса вакцинации.
В анализе использовались данные записей 2014 — тогда компания Pacific Social использовала ботов для борьбы с заблуждениями, распространяемыми сторонниками антивакцинаторства. Таким образом, в использованном наборе данных были заранее известны участвовавшие в дискуссиях боты. Среди 7038 аккаунтов, участвовавших в обсуждении, ботами были 39. Всего набор данных включал в себя свыше четырех миллионов твитов с сопутствующей служебной информацией. За каждый правильно отгаданный аккаунт команда получала один балл, за каждую неверную догадку лишалась четверти балла. К итоговой оценке прибавлялось количество баллов, эквивалентное количеству оставшихся до конца состязания дней.
Победившая в конкурсе DARPA команда исследовательской организации SentiMetrix использовала алгоритм, определяющий ботов, который был натренирован на массиве в 25 миллионов твитов, связанных с выборами в Индии в 2014 году. При анализе твитов в рамках конкурса DARPA алгоритм SentiMetrix учитывал синтаксис (например, знаки препинания в конце сообщения не характерны в людей, пишущих в Twitter), семантику, специфику поведения (регулярность постинга и занимаемая в споре позиция), а также характеристики профиля (фотография, ник, фолловеры, геотеги) и характеристики других связанных с пользователем аккаунтов. Причем в случае с фотографией алгоритм проверял не только ее наличие или отсутствие, но и пробовал найти источник — изображение из фотобанка также расценивалось как один из маркеров возможного бота.
Сначала алгоритм помог выявить самых очевидных ботов — например, тех, для генерирования сообщений которых которых использовались стандартные программы создания текстов и чат-боты. После этого исследователи разработчики решили отследить связи между другими аккаунтами, поскольку создатели ботов часто связывают их друг с другом. При помощи кластерного анализа специалисты SentiMetrix нашли несколько аккаунтов и сравнили их поведение с уже найденными ботами. Кроме того, для поиска ботов разработчики следили за аккаунтами, резко меняющими отстаиваемую позицию на противоположную — подобная деятельность присуща «втирающимся в доверие» ботам. После этого этапа разработчикам осталось найти около десятка ботов — для их выявления команда использовала данные об уже идентифицированных ботах для дополнительной тренировки алгоритма и поиска ботов в полуавтоматическом режиме.
Участники конкурса не знали точного количества ботов, поэтому SentiMetrix прекратила поиск подозрительных аккаунтов после того, как члены команды выявили всех, кто по их мнению, был ботом — окончательный отбор после фильтровки алгоритмом все равно производился людьми вручную. SentiMetrix завершила поиск всех ботов на 16 день из 28. SentiMetrix указали на 40 аккаунтов, из которых только один оказался не ботом.
Подобные технологии могут быть использованы для оперативного обнаружения ботов в каких-либо дискуссиях, в том числе социальных и политических. Исследователи отмечают, что «влияющие боты» становятся все более правдоподобными, поэтому автоматическое выявление таких аккаунтах на ранних этапах дискуссии может свести к минимуму попытки повлиять на общественное мнение при помощи ботов.