Журнал Basic and Applied Social Psychology запретил своим авторам использовать в статьях процедуры проверки статистической значимости нулевой гипотезы (NHSTP). Это означает, что при подаче статьи ученым нельзя будет ссылаться на статистическую значимость обнаруженного ими эффекта, его реальность придется доказывать другими способами. Статья с аргументами редакции опубликована в самом журнале, некоторые комментарии к этому решению можно прочитать, например, здесь
Главной причиной, побудившей редакцию к прямому запрету использования статистической значимости, стало ее применение учеными «в качестве оправдания низкого качества работ». Отмена этого порога, по идее, должна привести к улучшению качества предлагаемых манускриптов. Однако, даже не имея данных о статистической значимости эффекта, опубликоваться в журнале будет не проще, а сложнее — так, по крайней мере, обещают члены редакции.
Статистически значимой разница между величинами называется тогда, когда вероятность получить ту же разницу случайно оказывается ниже порогового уровня. Этот уровень, p-уровень, обычно принимается равным от 0,05 до 0,001. По определению, p-уровень — это вероятность получить эффект, равный или более выраженный наблюдаемому, при условии того, что эффекта нет (то есть верна нулевая гипотеза).
Однако очень часто p-уровень неверно интерпретируют наоборот — как вероятность того, что эффекта нет при наличии демонстрируемых данных. Кажется, что если зависимость показана в работе с p-уровнем ниже 5 процентов, то она действительно существует (то есть проявится в эксперименте с бесконечной выборкой) с вероятностью выше 95 процентов. Такая интерпретация неверна. Например, если в некоем исследовании с p-уровнем 0,05 оказалось, что толстые люди чаще болеют раком, это вовсе не означает, что при повторении эксперимента 100 раз мы в 95 процентах случаев получим ту же зависимость.
P-уровень может сильно «прыгать» при повторении одних и тех же экспериментов. Это позволяет экспериментаторам манипулировать исследованиями так, чтобы добиться нужного p-уровня — что получило название p-хакинг. Анализ многих опубликованных работ по психологии даже показал аномальное скопление p-уровней вблизи отметки 0,05, что трудно объяснить чем-то кроме умышленной или неумышленной манипуляции.
Понятие статистической значимости используется в подавляющем большинстве научных работ, а в социологии и психологии оно часто является центральным: если психологам удается найти какую-либо зависимость и она оказывается статистически значимой, это почти гарантирует публикацию работы даже при отсутствии хорошего представления о том, откуда эта зависимость берется.
В то же время значимость — понятие чисто статистическое. Оно само по себе не может быть доказательством верности гипотезы, которую проверяют ученые. Вместо статистической значимости редакция Basic and Applied Social Psychology призывает психологов использовать более крупные выборки и более творчески подходить к планированию экспериментов.
Ученые в составе международного коллектива описали морфологию огромного количества птичьих яиц, принадлежащих разным отрядам птиц с разной экологией. Выяснилось, что на форму яйца больше всего влияет приспособленность птицы к полету. У хороших летунов яйца оказались асимметричными, а у плохих — круглыми или эллипсоидными. Исследование опубликовано в журнале Science.