Около двух третей всех твитов со ссылками на популярные сайты отправлены ботами, выяснили исследователи, проанализировав почти 1,2 миллиона записей в Twitter. Также авторы выяснили, что сравнительно небольшое количество ботов ответственно за публикацию значительной доли ссылок. Стоит отметить, что под ботами авторы подразумевают в том числе системы отложенной публикации и аналогичные программы. Исследование опубликовано на сайте исследовательского центра Пью.
Социальными сетями, в том числе и Twitter, пользуется значительная часть населения развитых стран, и для многих эти сайты становятся главным источником информации о текущих событиях. Из-за этого специалисты все чаще поднимают вопросы объективности информации, размещаемой в соцсетях. Одной из главных угроз считаются боты, которые, при достаточном количестве могут заметно влиять на общественное мнение. Но масштаб этой проблемы на фоне общего количества пользователей социальных сетей до конца не изучен, потому что многие из них не раскрывают подробную информацию о своих пользователях.
Специалисты исследовательского центра Пью провели анализ записей в сервисе микроблогов Twitter с целью выявить долю ботов в общем количестве твитов, содержащих ссылки на сайты. Для этого они воспользовались публичным API Twitter и в течение 18 дней собирали примерно один процент от общего количества записей, сделанных каждый день. Затем они оставили из этих твитов только те, в которых были ссылки на другие сайты, и определили 2315 из этих сайтов. После этого авторы исследования отобрали записи от англоязычных аккаунтов, содержащие ссылки на эти сайты, написанные в течение 47 дней летом 2017 года, в результате ученые получили массив из 1,16 миллионов твитов от 140 тысяч аккаунтов.
После отбора данных исследователи приступили к их анализу с помощью сервиса Botometer, созданного специалистами Индианского университета. В его основе лежит алгоритм машинного обучения, который определяет вероятность того, что аккаунт является ботом, причем, не обязательно используемым спамерами или злоумышленниками — к ботам программа причисляет и системы отложенной публикации. Сервис проводит анализ аккаунта, используя множество признаков, таких как информация в профиле, время публикаций, количество друзей и другие. Поскольку сервис классифицирует аккаунты не бинарно (бот — не бот), исследователи самостоятельно провели оценку более 300 аккаунтов и установили пороговое значение для программы.
Проведя анализ, исследователи пришли к нескольким основным выводам. 66 процентов твитов, содержащих ссылки на популярные сайты, оказались отправлены аккаунтами, которые Botometer отнес к ботам. Кроме общего анализа ссылок авторы также разбили их на шесть основных категорий, в зависимости от направленности сайта: спорт; знаменитости; новости и события; организации; коммерческие товары и сервисы; сайты для взрослых. В случае с сайтами о новостях и событиях в целом, доля ботов, ссылающихся на их, оказалась на том же уровне: 66 процентов. Но для некоторых подтипов, например, новостных агрегаторов, она достигала 89 процентов — стоит отметить, что новостные порталы практически всегда используют программы автоматической публикации контента в соцсети, что, в том числе, может приводить к такой высокой доле ботов с точки зрения Botometer.
Также исследователи выяснили, что за 22 процента ссылок на новостные сайты и сайты о событиях отвечает всего 500 самых популярных ботов, хотя на 500 самых популярных аккаунтов людей приходится 6 процентов ссылок.
Также авторы исследования проанализировали политические предпочтения ботов и выяснили, что на них приходится 41-44 процента ссылок на сайты, которые часто распространяют люди, поддерживающие одну из двух политических сторон в США. В то же время, доля ботов в ссылках на политически-нейтральные или центристские сайты была на уровне от 57 до 66 процентов.
Twitter часто становится источником данных для научных исследований. К примеру, недавно ученые с его помощью выяснили, что получение информации о работе оппозиционной партии усиливает изначальные политические убеждения американцев, причем среди республиканцев этот эффект выражен сильнее, чем среди демократов. Другое недавнее исследование на трех миллионах твитов показало, что фальшивая информация и слухи распространяются быстрее реальных новостей. А в 2016 году анализ записей в Twitter позволил ученым создать «словарь стереотипов» — набор слов, на основе которых люди определяют принадлежность их авторов к определенной социальной группе.
Григорий Копиев