Строгая методология повысила воспроизводимость социально-поведенческих исследований до 86 процентов

Результаты удалось воспроизвести в четырех лабораториях

Исследователи из лабораторий Калифорнийского университета в Санта-Барбаре, Калифорнийского университета в Беркли, Стэнфордского университета и Университета Вирджинии несколько раз воспроизвели 16 результатов социально-поведенческих исследований. Воспроизводимость достигла 86 процентов, а величина эффектов была сопоставима в разных повторениях. Это может говорить о том, что проблемы с повторением ранее полученных результатов иногда связаны с недостаточно строгим подходом к эксперименту. Результаты опубликованы в Nature Human Behaviour.

Более 10 лет назад ученые обнаружили, что результаты многих крупномасштабных исследований — даже тех, что опубликованы в самых авторитетных журналах, — невозможно воспроизвести. Попытки повторить результаты приводили либо к тому, что ученые вовсе не обнаруживали описанных эффектов, или обнаруживали заметно более низкий размер эффектов. Это явление назвали кризисом воспроизводимости, и особенно он касался социальных и психологических исследований. Так, в 2015 году группа психологов под руководством Брайана Нозека (Brian Nosek) попыталась повторить сотню психологических исследований — и лишь 39 из них удалось воспроизвести. Затем команда Нозека пробовала повторить результаты экономических и социальных исследований — и среди них воспроизводимыми оказалось чуть больше 60 процентов. Ученые задались вопросом, связано ли это с самими методами или с них неоптимальной реализацией.

Теперь четыре лаборатории из США объединились, чтобы выяснить, можно ли избежать низкой воспроизводимости в социально-поведенческих исследованиях, если повысить методическую строгость. Руководили исследованием Брайан Нозек (Brian Nosek) из Университета Вирджинии, Джонатан Скулер (Jonathan Schooler) из Калифорнийского университета в Санта-Барбаре, Джон Кросник (Jon Krosnick) из Стэндфордского университета, Лейф Нельсон (Leif Nelson) из Калифорнийского университета в Беркли. Лаборатории должны были исследовать любой социально-поведенческий аспект и получить результаты — новые и неочевидные. На этом этапе особенно строгих требований к выполнению экспериментов не было. В итоге четыре лаборатории провели по четыре пилотных исследования (все они представляли собой онлайн-опрос) и получили в сумме 16 гипотез. К примеру, одно исследование говорило, что если людей принудить быстро отвечать на вопросы, они будут давать более социально-одобряемые ответы. Краткие описания остальных результатов можно найти в таблице внутри статьи. Все исследования представляли собой онлайн-опросы.

Затем исследователи проверили свои результаты самостоятельно на большой выборке в 1500 или более человек (участниками были взрослые жители США). После этого для каждого исследования они зарегистрировали дизайн и подробный план анализа данных. Затем максимально подробно описали методы, чтобы другие лаборатории могли повторить их. Далее четыре лаборатории независимо заново провели каждое из 16 исследований — включая четыре собственных на таких же больших выборках. Если инструкций не хватало, можно было обратиться к авторам за разъяснением или уточнением. Таким образом, все эксперименты были придуманы и проведены однократно, один раз проверены их авторами на большой выборке (16 подтверждающих исследований) и еще по четыре раза — авторами и тремя другими исследовательскими группами на новых выборках того же размера (64 воспроизведения на 16 открытий). Важно, что все исследования повторили независимо от того, положительными или отрицательными были результаты. Это устранило научную предвзятость: обычно публикуют и пытаются производить лишь положительные результаты.

Когда авторы повторили свои же эксперименты на больших выборках, воспроизвести удалось 13 результатов из 16 — 81 процент (p < 0,005). Другим командам удалось воспроизвести результаты в 86 процентах случаев — 55 из 64 раз (p < 0,001). Средние размеры эффекта почти во всех случаях были сопоставимы с размерами эффекта, которые наблюдались в самоподтверждающих тестах. Когда ученые проанализировали повторения только тех 13 исследований, результаты которых удалось подтвердить самим авторам, воспроизводимость увеличилась до 90 процентов.

Таким образом ученые выявили высокую степень воспроизводимости результатов социально-поведенческих исследований и не обнаружили во время повторений снижений размера эффекта, о которых сообщалось ранее. Авторы отметили, что успех повторения не был связан с тем, что лаборатории проверяли очевидные результаты, которые непременно должны воспроизводиться. Для того, чтобы это доказать, они предлагали независимым участникам прочитать краткие описания экспериментов и предположить, к каким результатам они должны привести. Предсказуемость этих экспериментов была сопоставима с предсказуемостью ранних исследований, которые не всегда успешно воспроизводились.

Ученые заключили, что низкая воспроизводимость результатов подобных исследований и снижение эффектов — не что-то неизбежное. Совершенствование методов (предварительная регистрация, большой размер выборки и открытость материалов) может быть стратегией, которая повысит воспроизводимость.

Невозможность воспроизвести результаты многочисленных научных экспериментов назвали кризисом воспроизводимости. Мы рассказывали о том, что это может значить для науки, в материалах «Не повторяется такое иногда» и «Попробуй повтори».

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Половина контента про пожилых в тиктоке показала их с негативной стороны

Молодым не понравились ценности бумеров и их отношение к молодежи