Сотрудники Массачусетского технологического института и Чжэцзянского университета предложили способ оценки культурных различий по данным разделов Википедии на разных языках. В основе способа лежит выделение соцсетей исторических лиц, живших в одно и то же время. Работу ученые представили на конференции, кратко ее содержание опубликовано в виде препринта в архиве Корнельского университета.
Алгоритм выделения наиболее влиятельных исторических персонажей своего времени работает следующим образом. Из списка всех исторических персонажей ученые вычленили группы современников — тех, чьи годы жизни пересекаются.* Затем они провели поиск перекрестных ссылок между биографическими статьями, посвященными современникам, получив своеобразный квазисоциальный граф данного периода. Пропустив данный граф через алгоритм PageRank, который распределяет веса узлов по числу ссылок на него от других узлов с большим весом, ученые получили список «наиболее значимых лиц своего времени». Этот список уже ранжировали по количеству ссылок на данного персонажа.
Ученые провели идентичные процедуры для четырех разделов Википедии: английского, немецкого, китайского и японского. Списки наиболее влиятельных лиц получились довольно различными. Топ-3 английской Википедии заняли Джордж Буш, Уильям Шекспир и историк Сидней Ли, немецкой — Адольф Гитлер, Иоганн Гёте и Аристотель, японской — историк Икухико Хата, основатель династии сёгунов Токугава Иэясу и объединитель Японии Тоётоми Хидэёси, китайской — Мао Цзэдун, генерал Юань Шикай и музыкант Джей Чоу.
Различие списков — результат довольно предсказуемый. Наиболее нетривиальным, с точки зрения авторов, оказалось различие социальных ролей тех людей, которые в него попали. Если в английской и немецкой версиях списка более половины из топ-10 составляли писатели, философы и религиозные деятели, то в китайской и японской версиях почти все оказались военными и политиками.
Присутствие в списках относительно слабо известных историков объясняется артефактом алгоритма — на историков ссылаются в биографических статьях как на источники.