Программу научили искать спорные темы в Twitter

Ученые из Университета Аалто в Финляндии создали алгоритм для нахождения тем, вызывающих противоречивые дискуссии среди пользователей социальной сети Twitter. Программа позволяет по указанному хештегу узнать о степени противоречивости данной темы, что может найти применение в социальных исследованиях, аналитике, а также при формирования нейтральной новостной повестки для читателей. Препринт исследования выложен на arXiv.org.

Авторы строили граф, в котором каждая вершина обозначала пользователя, создавшего хотя бы один твит с заданным хештегом. Две вершины соединялись ребром в том случае, если один пользователь хотя бы дважды ретвитил другого или они были друг на друга подписаны. Предполагая существования ровно двух полярных точек зрения по заданной теме, ученые использовали стандартный алгоритм для разбиения графа на две части. При этом учитывались только свойства графа, но не содержание сообщений или информация о пользователях.

Полученные разбиения авторы исследовали на «степень противоречивости». Предполагалось, что топология графа в достаточной степени отражает полярность взглядов пользователей. Ученые тестировали несколько разных метрик, оценивающих поляризацию графа. Все варианты алгоритмов проверялись на выборках твитов по 20 хештегам, среди которых были как интуитивно противоречивые темы (#ukraine, #nemtsov, #beefban), так и нейтральные (#germanwings, #mothersday, #nepal).

Оказалось, что из пяти различных метрик одна — метод случайного блуждания — выдавала корректные по мнению авторов результаты. Это означает, что темы, которые ученые заранее отнесли к противоречивыми, такими и оказались: соответствующие им графы четко делились на две категории, а степень полярности взглядов была высока. Для проверки гипотезы о применимости данного метода авторы также протестировали его на ранее опубликованных данных и получили удовлетворительную сходимость с результатами коллег.

Ученые отмечают, что их работа качественно отличается от предшественников тем, что ставит в качестве задачи изучение противоречивости как таковой, а не какого-то одного конкретного случая. Ранее уже проводились исследования, в которых анализировались изолированные события и отклик на них в социальных сетях. Например, авторы изучали механизм распространения слухов по сети Twitter, или пытались предсказать те или иные массовые акции исходя из твитов и сообщений, опубликованных накануне.