«Машина времени» позволит оградиться от спойлеров

Люк Скайуокер узнает зловещую правду о судьбе своего отца.

Кадр: The Empire Strikes Back / Lucasfilm Ltd

Ученые из Университета Олд Доминион, США, предложили любителям телесериалов способ, как читать вики-страницы любимых шоу, не опасаясь спойлеров к еще не просмотренным сериям. Препринт работы опубликован на arXiv.org.

Определение:

Спойлеры — это информация, время и место появления которой хочет контролировать пользователь, предпочитая получать ее в порядке, задуманном автором. Если эта информация доставляется в другом порядке, удовольствие от фильма или телепрограммы может быть подпорчено.
Авторы предложили создавать «отпечаток» вики в состоянии, предшествовавшем выходу новой серии телесериала. Для этой цели ученые предполагают использовать цепочки, в которых хранятся все редакции вики-страниц. Далее алгоритм будет подбирать ближайшую редакцию страницы с обязательным ограничением, чтобы она была «старше» указанной пользователем даты. Такой подход авторы назвали методом «ближайшего прошлого» (minpast method).

Для демонстрации преимуществ нового метода ученые создали модель «опасной зоны» на вики-странице и рассчитали, как часто пользователи натыкались на спойлеры, используя существующие сервисы для создания «отпечатков». В качестве тестовых вики в работе использовались фанатские энциклопедии по сериалам «Остаться в живых», «Карточный домик», «Теория большого взрывы», «Игра престолов» и другим.

Оказалось, что в 66 процентах случаев пользователи могли наткнуться на спойлеры в вики, даже используя специальные сервисы. При этом 38 процентов популярных вики-страниц не индексировались Архивом Интернета, поэтому для них на данный момент не существует методов защиты от спойлеров.

Существующие сервисы Time Travel, WaybackMachine и другие используют так называемые «мементо» — отпечатки интернет-страниц, созданные Архивом Интернета. Для поиска наилучшего отпечатка по каждому запросу эти системы используют метод «кратчайшего расстояния» (mindist method). Например, если существует всего два отпечатка — в 2003 и в 2009 году, то по запросу «2008 год» в выдачу попадет версия 2009 года, так как она ближе всего описывает состояние сайта к желаемой дате.

Ученые отмечают, что такой подход неприменим в случае спойлеров на вики-страницах. Это связано еще и с тем, что Архив Интернета во многих случаях обновляется реже, чем редакции вики-страниц. Использование последних в качестве отпечатков позволит лучше воссоздать состояние энциклопедии на момент до выхода любой указанной серии.

Проблема спойлеров стала популярной в связи с тем, что комментарии по поводу новой серии часто появляются в интернете уже во время премьерного показа. Некоторые пользователи ведут просмотр в «режиме двух экранов», то есть обсуждают интересные моменты в социальных сетях сразу же, как только увидят их по телевидению.

Согласно предыдущим исследованиям, даже если пользователи, ведущие «прямую трансляцию», стараются избежать раскрытия подробностей, в их словах можно обнаружить спойлеры. Некоторым автором удалось это сделать при помощи машинного обучения, однако создать эффективный фильтр спойлеров до сих пор не получилось.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.