Кризис воспроизводимости в психологии предложили лечить деньгами

Даниил Кузнецов

Коллективная игра ученых-психологов на бирже ставок на реальные деньги дает более точное предсказание о воспроизводимости научных исследований, нежели экспертный опрос. Рынок предсказаний помог сделать верный прогноз для 71 процента работ, тогда как обобщение результата опросов ученых лишь для 58 процентов. К таким выводам пришла команда поведенческих экономистов из Стокгольмской школы экономики. Статья опубликована в журнале Proceedings of the National Academy of Sciences.

Воспроизводимость результатов исследований (репликация) считается одним из важнейших критериев научности знания. В общем случае ее можно определить как близость результатов повторных экспериментов, при условии, что все их условия были повторены (метод, дизайн исследования, средства, инструменты, алгоритм, выборка испытуемых и прочее). Однако проблема заключается в том, что лишь немногие ученые согласны проверять чужие работы вместо того, чтобы делать свои. Кроме того, репликация исследований требует огромных дополнительных финансовых затрат. Поэтому разработка инструмента, позволяющего отбирать наиболее сомнительные работы, нуждающиеся в проверке в первую очередь, помогло бы как научному сообществу, так и финансирующим исследования организациям. По мнению шведских экономистов, лучшим кандидатом на эту роль является рынок предсказаний.

Чтобы проверить так ли это, экономисты пригласили принять участие в исследовании 30 психологов. 14 из них принимали участие в недавно нашумевшем Reproducibility Project: Psychology. Глава проекта – Брайан Носек также предоставил 44 психологических работы из пула в 100 статей, которые он и его коллеги проверяли на воспроизводимость с 2012 по 2015 год.

Предварительно все 30 участников эксперимента знакомились со всеми статьями, после чего участвовали в опросе, где должны были дать свою экспертную оценку – будет ли успешно воспроизведена та или иная работа. На втором этапе все психологи принимали участие в двух торговых сессиях. Первая была проведена в ноябре 2012 года, а вторая в октябре 2014. Обе сессии длились по две недели.

Перед каждой сессией психологу перечислялось на торговый счет 100 долларов. После чего рынок предсказаний (по сути, биржа ставок) запускался. Используя онлайн-приложение, ученые могли ставить свои деньги на воспроизводимость конкретных работ. Стартовая ставка всегда составляла 0,50 доллара. Например, если ученый считал, что эксперимент X будет воспроизведен, а эксперимент Y – нет, то на оба этих события он ставил по полдоллара. Если у других участников исследования было схожее мнение, то цена этих вариантов быстро росла и могла достигнуть, например, 0,80 доллара. Далее ученый видел, что некий эксперимент Z, который, как он полагает, будет безусловно воспроизведен, другими игроками воспринимается как потенциально провальный. Поэтому ставка на его невоспроизводимость выросла также до 0,80 доллара, а на воспроизводимость упала до 0,15. Ученый-игрок видит здесь возможность заработать, поэтому он продает эксперимент X по цене 0,80 и покупает Z за 0,15, а также еще пару недооцененных, по его мнению позиций. По истечении двух недель торги закрываются. Всего за обе сессии участники исследования провели 2 496 торговых транзакций. После этого психологи дожидались результата проверки воспроизводимости, и если их прогноз оправдывался – они получали выплаты по ставкам, а если нет – то теряли свои деньги. Наиболее успешным игрокам удавалось практически удвоить начальный капитал.

По завершению торгов, экономисты переводили котировки работ в вероятности их воспроизведения. В этом случае базовая ставка в 0,50 доллара считалась как вероятность в 50 процентов. Если в ходе торгов цена повышалась выше этого значения, то исследователи считали, что рынок оценил эту работу как воспроизводимую, если ниже, то наоборот – провальную. Выяснилось, что путем коллективных торгов ученым удалось правильно предсказать результаты репликации для 29 статей из 44 (71 процент), тогда как экспертный опрос дал лишь 58 процентов правильных прогнозов.

«Мудрость толпы» давно известна как эффективный метод оценки неизвестных параметров или составления прогнозов. Так, обобщив мнения ста человек можно довольно точно установить, например, вес какого-либо объекта, при том, что отдельные мнения будут ошибочными и очень далекими от верной оценки. В то же время мотивированная «толпа» показывает еще более высокие результаты. Однако лишь в условиях торгов на реальные деньги, когда происходит постоянная оценка позиции большинства, поиск выгодных решений и лазеек, переоценка ситуации и, в ряде случаев, здоровый конформизм в следовании за общим трендом, предсказания становятся максимально точными.

Даниил Кузнецов

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.