Дженнифер Голбек из Мэрилендского университета в США продемонстрировала, как можно определять «подозрительную активность» в соцсетях при помощи статистического закона Бенфорда. Он гласит, что число «друзей друзей» одного аккаунта (точнее, первая цифра числа) должно удовлетворять логарифмическому распределению. В том случае, если оно нарушается, с большой вероятностью данная учетная запись — бот. Препринт работы выложен на arxiv.org.
Закон Бенфорда — один из самых «контринтуитивных» статистических законов. Тем не менее, в литературе описано множество его подтверждений. Сам закон формулируется так: для выборки данных из «реальной жизни» частота, с которой каждая цифра встречается на первом месте числа, подчиняется логарифмическому распределению по формуле p(d) = logb(1+1/d). Поэтому закон Бенфорда еще называют законом первой цифры. Для десятичной системы счисления (b=10) это означает, что в любой «естественной» выборке цифра «1» будет встречаться на первом месте с частотой около 30%, а цифра «9» — около 5%.
Законом Бенфорда описывается распределение высот зданий по всему миру (независимо от единиц измерения), длина рек, результаты голосований, экономические показатели, население городов, размер генома, даже степень сжатия формата JPEG. На сайте
можно найти большое число таких примеров. Эмпирически установлено, что лучше всего закону Бенфорда удовлетворяеют данные, разброс которых составляет хотя бы несколько порядков, так как распределение описывается логарифмом.
Точность, с которой многие данные описываются законом Бенфорда, позволила использовать его для борьбы с подделкой финансовых документов. Эта система работает в следующем предположении: если человек вписывает в отчет вымышленные цифры, он интуитивно старается распределять их равномерно, то есть все цифры будут встречаться на первом месте с одинаковой вероятностью.
На самом же деле статистика показывает, что финансовые данные почти идеально описывают законом Бенфорда. Таким образом, если отчетность в некоторой фирме ему не удовлетворяет, это, конечно, еще не повод для обвинений, но предлог для расследования. То же самое касается выборов, например, в 2009 в Иране таким образом раскрыли факт фальсификации. В таком подходе могут быть и ошибки: например, если некоторая компания предпочитает закупать товары стоимостью до $39.99, в их отчетности цифра «3» будет встречаться гораздо чаще, чем того требует закон Бенфорда.
В новой работе автор впервые применила закон Бенфорда для детального исследования социальных сетей. На примере Twitter, Google+, Facebook, Pinterest и Livejournal она рассчитала число подписчиков, друзей и сообщений для каждого пользователя. Оказалось, что эти данные прекрасно описывают законом первой цифры с одним исключением: в сети Pinterest в распределении параметра «подписан на ...» цифра «5» встречалась гораздо чаще, чем предсказывал закон.
После дополнительной проверки оказалось, что в этой сети при регистрации необходимо указать не меньше пяти сфер интересов, на которые автоматически подписывался пользователь. Многие после этого забывают или вовсе не считают нужным изменять эту графу, поэтому в распределении цифра «5» показывает аномальный пик.
Самой интересной частью работы стал анализ так называемых «эгоцентрических» сетей. В его рамках рассчитывается распределение числа «друзей друзей». То есть для данного аккаунта подсчитывается число друзей, а затем уже для их друзей считается распределение первых цифр.
Оказалось, что из 20988 пользователей только у 170 корреляция с законом Бенфорда была критически низкой. Ручной просмотр этих аккаунтов показал, что все они (кроме двух) входили в список «подозрительной активности», а в итоге оказались просто ботами.
Биологи из Мельбурнского университета выяснили, что участки генома, ответственные за ишемические сердечные заболевания, по-видимому, подвержены положительному естественному отбору, поскольку их наличие связано со способностью организма к эффективному размножению. Вместо того, чтобы исчезнуть в ходе эволюции они, напротив, закрепляются в популяции. Исследование опубликовано в PLOS Genetics.