Ученые из Колорадского университета в Боулдере, США создали алгоритм для поиска и предсказания в социальной сети Instagram случаев кибермоббинга: намеренного оскорбления и запугивания пользователей. При помощи машинного обучения и методов языкового анализа специалистам удалось добиться 77-процентной точности поиска атак и 60-процентной точности их предсказания. Препринт работы выложен на arXiv.org.
Авторы анализировали 2218 постов в Instagram, отобранных из более чем трех миллионов записей. Все данные при помощи участников краудсорсинговой платформы CrowdFlower были разбиты на группы по проявлениям киберагрессии (одиночный негативный комментарий) или кибермоббинга (два или более негативных или оскорбительных комментария). В полученных выборках анализировали содержание комментариев, а также их общий эмоциональный окрас, все это осуществлялось при помощи традиционных методов лингвистического анализа.
Оказалось, что в «агрессивных» комментариях преобладали слова, относящиеся к таким темам, как «религия», «смерть», «наркотики», а также «злость», «грусть», «тело», «сексуальность» — с точки зрения психологической классификации. Из необычных результатов ученые выделяют то, что цепочки комментариев с очень высоким (более 90 процентов от всех сообщений) содержанием нецензурной лексики редко оказывались агрессивными. Часто такие темы были связаны с политикой или спортом, а в некоторых случаях, по словам авторов, «это были просто дружеские беседы».
На основании полученных результатов авторы создали набор признаков, по которым обучали программу-классификатор. Точность определения киберагрессии или кибермоббинга этим методом составила до 77 процентов. Далее авторы пытались предсказать, вызовет ли фотография негативный отклик в комментариях. Для этого также использовалось машинное обучение, но в качестве признаков выступало только содержание фотографии, а также данные из профиля пользователя. Точность предсказания составила до 60 процентов.
Авторы планируют улучшить точность работы их алгоритма, используя методы глубокого обучения на основе искусственных нейронных сетей. Эти методы уже применялись для анализа социальных сетей. Например, ученые создали программу для поиска «жемчужин» среди непопулярных фотографий в сети Flickr.