С помощью специальной компьютерной программы исследователи из Федеральной политехнической школы Лозанны изучили вселенную «Звездных Войн». Им удалось установить связи между персонажами, соотношение количества представителей рас и эпохи, в которых жили герои саги. Об этом сообщил в своем блоге один из исследователей Кирелл Бенци (Kirell Benzi).
Ученые проводили работу на основе данных из Wookieepedia, энциклопедии «Звездных войн». Для того чтобы собрать массив данных о персонажах и объединить их в граф, они написали специальную программу — веб-скрейпер — который проводил отбор персонажей и устанавливал связи между ними. Персонажи считались связанными, если имя одного из них упоминалось на странице другого.
В результате, программа проанализировала около 20000 персонажей. Причем она отбросила тех, кто не входил в категорию Individuals. Скрейпер установил связи между ними, соотношение количества рас во вселенной Звездных войн и даже эпохи, в которых они персонажи.
Больше всего связей с другими персонажами оказалось у Энакина Скайуокера, Палпатина и Люка Скайуокера. Самыми популярными эпохами в саге оказались эпоха Восстания и Расцвет Империи. Всего действие саги, согласно вычислениям, охватывает более 36 тысяч лет.
Веб-скрейпер также определял принадлежность персонажей к эпохам на основе данных массива. Недостающую информацию помогал восстановить специальный алгоритм. Например, если данных о том, когда жил персонаж, не было на странице, алгоритм анализировал его ближайшие связи в графе и относил персонажа к определенной эпохе.
Программа также определила расовую принадлежность персонажей «Звездных войн». Всего в массиве данных удалось выделить 640 рас, живущих на 294 планетах. Самой популярной расой оказались люди, они составили почти 80 процентов населения галактики. Также программа насчитала 1,367 джедаев и 724 ситха.
Веб-скрейпер, написанный исследователями, демонстрирует то, как программа может справляться с большим неотсортированным массивом данных и самостоятельно восстанавливать недостающие связи. Ученые считают, что подобная программа может быть использована при восполнении недостающих данных в оцифрованных документах и архивах.
Кристина Уласович