Программисты поменяли интересы как ученые

Chenbo Fu et al. / Scientific Reports, 2022

Китайские ученые исследовали смену интересов пользователей сайта с вопросами и ответами для программистов Stack Overflow и сравнили их шаблоны с шаблонами поведения ученых. Для этого они загрузили данные о 2307720 пользователях ресурса, собранные за период с июля 2008 по сентябрь 2016 года. Оказалось, что представители обеих профессий меняют темы своих интересов примерно похожим образом с рядом небольших отличий. Исследование опубликовано в Scientific Reports.

Наука старается охватить все, с чем сталкивается человек. Это также касается самих ученых и того, как именно они делают науку. Так, исследователи пытаются понять причину появления большого количества научных работ низкого качества, по-новому измеряют продуктивность ученых, анализируют работы, которые привлекли внимание к себе лишь спустя много лет, а также связывают невоспроизводимость данных научных статей с их цитируемостью.

Другим аспектом деятельности ученых стали стратегии выбора области исследований. В среднем они делятся на две группы: консервативные и радикальные. Для стратегий второго типа характерна частая смена научных интересов, в то время как ученые, придерживающиеся стратегий первого типа, меняют их реже. Радикальное научное поведение считается более рискованным, но в то же время более подходящим для поиска прорывных идей и инноваций.

Несмотря на достигнутый прогресс в исследовании научного поведения, остается открытым вопрос о том, насколько применимы эти выводы к остальной человеческой популяции. Чтобы на него ответить Чэньбо Фу (Chenbo Fu) из Чжэцзянского технологического университета со своими коллегами обратились к возможностям вопросно-ответных сервисов, а именно — к Stack Overflow, крупнейшему сайту такого типа, посвященному различным языкам программирования.

Stack Overflow — это часть сети веб-сайтов с вопросами и ответами Stack Exchange Network, созданной Джоэлом Спольски и Джеффом Этвудом. Пользователи сайта могут оставлять на нем вопросы, связанные с программированием, снабжая их тематическими тегами, а также отвечать на них. Для регуляции и стимулирования этих процессов на сервисе были введены элементы геймификации, включающие в себя механику репутации, голосования, наград и значков. Сайт играет важнейшую роль в современной культуре программирования, из-за чего уже не раз и не два становился объектом исследования ученых.

Чтобы получить ответы на свои вопросы, авторам потребовалось формализовать понятие интереса пользователей. Сделать вручную это не представлялось возможным, поскольку датасет ученых включал в себя данные о 2307720 пользователях ресурса, собранные за период с июля 2008 по сентябрь 2016 года и включающие в себя вопросы и ответы, теги, даты публикации и репутацию пользователей. Распределения большинства этих параметров имели степенной закон, что означает, что большинство пользователей публиковало мало вопросов (менее 50), а большое количество тегов редко использовалось (менее 50 использований). Исследователи исключили их из датасета, сузив его до 31303 пользователей и 19978 тегов.

Далее ученым нужно было понять, как теги связаны с темами или областями интересов, по которым заданы вопросы. Для этого они построили сеть, узлами которой служили теги, а связь между ними возникала тогда, когда каких-либо два тега одновременно встречались в вопросе. Применив к построенной сети алгоритм кластеризации Infomap, ученые выделили в ней 327 тем, 100 из которых содержало особенно много тегов.

Каждый вопрос пользователя сопровождался набором тегов, который авторы преобразовывали в набор тем. Пользователю, задавшему m вопросов на сайте, сопоставлялся нормированный тематический вектор, состоящий из 327 элементов. Каждый элемент этого вектора был тем больше, чем чаще пользователь обращался к тегам той или иной темы. Таким образом каждому пользователю сопоставлялась некоторая эволюция тематического вектора, возникающая по мере того, как он задает все больше и больше вопросов. Косинусное подобие пары векторов, разделенных заданным числом вопросов (авторы рассматривали разницу в 5, 10, 15 и 20 вопросов), служило исследователям мерой смены интереса человека.

На основе этой метрики, а также характера изменения набора тем со временем, они исследовали неоднородность сообщества, меру близости смены интересов и то, насколько часто пользователи возвращались в старые темы, после чего сравнили результаты с аналогичными метриками для научного сообщества. В целом в обоих случаях основные поведенческие паттерны были похожи: поиск новых тем был связан с риском быть неуспешным (мерой успеха в случае со Stack Overflow была репутация пользователя). Однако были и отличия.

Так, распределение смены интереса в случае с программистами имело степенной характер против экспоненциального в случае ученых. Это означает, что в первом случае чаще встречаются люди, готовые на более радикальную смену темы, а также тех, кто уходит в близкие темы. Также для ученых более характерен паттерн, согласно которому они заняты поиском интереса на начальном этапе карьеры, а затем концентрируются на какой-то одной теме.

Stack Overflow не только становится объектом исследования, но и сам их проводит. Специалист по обработке и анализу данных из Stack Overflow Дэвид Робинсон выяснил, что любители пробелов оказались богаче сторонников табуляции.

Марат Хамадеев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.