Математики научились предсказывать «завалы» в электронной почте

Коллектив ученых из Испании и США сделали приложение, которое умеет предсказывать ход электронной переписки: через сколько придет ответ, какого он будет размера, и сколько писем будем в цепочке. Препринт работы опубликован  на сайте arXiv.org.

Исследование авторов состояло из двух частей: вначале они провели статистический анализ выборки, после чего обучали приложение по набору признаков, извлеченных на предыдущем этапе. Исходными данными послужили 16 миллиардов анонимных писем, предоставленных Yahoo.

При анализе рассматривались три ключевых параметра: скорость ответа на письмо, доля писем, на которые человек отвечал, эволюция писем в одной цепочке (как изменялась длина ответов при увеличении их количества). В качестве переменных использовались возраст, пол, день недели, время суток.

Авторы выяснили, что молодые пользователи, среди них мужчины в особенности, в среднем отвечали на письма быстрее и короче. В рабочее время время на ответ сильно сокращалось по сравнению с выходными, а текст писем наоборот — был длиннее.

При «перегрузе» письмами интересная закономерность выявилась для молодых и пожилых пользователей: первые отвечали на большее количество писем, но в ущерб длине ответов. Последнии хуже справлялись с завалом, но зато он никак не сказывался на «качестве» ответов.

На основании полученной статистики авторы проводили машинное обучение с целью предсказать ход развития переписки (время ответа, размер письма и длину цепочки). Они использовали набор из 83 признаков, а обучение проводили по трем классам для каждого параметра. Для обучения использовался метод «бэггинга» (сокращение от bootstrap aggregation).

В итоге предсказательная способность составила около 65 процентов. На основе такого обучения почтовые клиенты, например, смогут выстраивать входящие письма по приоритету или по предсказанному времени на ответ.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.