Математики научились предсказывать «завалы» в электронной почте

Коллектив ученых из Испании и США сделали приложение, которое умеет предсказывать ход электронной переписки: через сколько придет ответ, какого он будет размера, и сколько писем будем в цепочке. Препринт работы опубликован  на сайте arXiv.org.

Исследование авторов состояло из двух частей: вначале они провели статистический анализ выборки, после чего обучали приложение по набору признаков, извлеченных на предыдущем этапе. Исходными данными послужили 16 миллиардов анонимных писем, предоставленных Yahoo.

При анализе рассматривались три ключевых параметра: скорость ответа на письмо, доля писем, на которые человек отвечал, эволюция писем в одной цепочке (как изменялась длина ответов при увеличении их количества). В качестве переменных использовались возраст, пол, день недели, время суток.

Авторы выяснили, что молодые пользователи, среди них мужчины в особенности, в среднем отвечали на письма быстрее и короче. В рабочее время время на ответ сильно сокращалось по сравнению с выходными, а текст писем наоборот — был длиннее.

При «перегрузе» письмами интересная закономерность выявилась для молодых и пожилых пользователей: первые отвечали на большее количество писем, но в ущерб длине ответов. Последнии хуже справлялись с завалом, но зато он никак не сказывался на «качестве» ответов.

На основании полученной статистики авторы проводили машинное обучение с целью предсказать ход развития переписки (время ответа, размер письма и длину цепочки). Они использовали набор из 83 признаков, а обучение проводили по трем классам для каждого параметра. Для обучения использовался метод «бэггинга» (сокращение от bootstrap aggregation).

В итоге предсказательная способность составила около 65 процентов. На основе такого обучения почтовые клиенты, например, смогут выстраивать входящие письма по приоритету или по предсказанному времени на ответ.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Статистический анализ отодвинул время расхождения неандертальцев и денисовцев

Американские генетики построили модель, описывающую историю неандертальцев и денисовцев, основываясь на статистическом анализе частоты распределения полиморфных сайтов в известных геномах. Согласно анализу, ветви неандертальцев и денисовцев разошлись раньше, чем предполагалось, а их предковая популяция была очень мала. Исследование опубликовано в Proceedings of the National Academy of Sciences.