Исследователи из университетов Бристоля и Эксетера выяснили возможную причину появления большого количества научных работ низкого качества, с небольшими выборками и не воспроизводимыми результатами. Математическое моделирование показало, что источником этой проблемы могут быть существующие критерии грантодателей и ориентированность научных журналов на работы, открывающие новые эффекты. Авторы указывают, что исправить положение дел можно, введя более жесткие требования к статистической значимости и выборкам публикаций, что уже сделано в физике и геномике. Исследование опубликовано в журнале PLoS Biology.
Воспроизводимость — один из важнейших критериев научных результатов. Он определяет то, является ли какой-либо эффект (взаимосвязь или корреляция), замеченный учеными, общей закономерностью, или же это лишь статистическая флуктуация. Традиционно ее оценивают методами статистики, привлекая понятия статистической значимости и используя как можно большие выборки данных. Один из параметров, p-уровень, показывает то, какова вероятность получить случайно тот же эффект, который наблюдался авторами при условии, что на самом деле никакого эффекта нет.
Недавно было опубликовано исследование воспроизводимости психологических работ, в котором группа из 270 ученых заново исследовала эффекты, описанные в 100 статьях крупных психологических журналов. Оказалось, что более половины всех результатов не воспроизводятся. Подробнее о нем можно прочесть в нашем материале. Другие исследователи отмечают, что исследования по неврологии и некоторым другим биомедицинским тематикам обладают небольшой статистической мощностью. Это приводит к публикации ошибочных статей.
Авторы новой работы попытались выяснить, в чем причина появления таких «некачественных» статей. Для этого исследователи подошли к проблеме с точки зрения модели адаптивного поведения. Один из видов мотивации для ученого — материальное поощрение, в том числе зарплата и гранты. Это поощрение часто зависит от наличия публикаций в высокорейтинговых журналах. Перед ученым стоит задача распределить свои силы между поисками новых эффектов и подтверждением уже известных, а также определить, насколько глубоко должно быть проработано исследование, какой размер статистической выборки будет достаточен.
Исследователи построили математическую модель, позволяющую определить оптимальный выбор для ученого-«карьериста». Она была основана на требованиях грантовых комитетов и включала в себя особый параметр, который можно охарактеризовать как дополнительный «бонус» ученому за работы с большой долей новизны. Допустимые параметры модели определялись из биомедицинских мета-исследований — на их основе вычислялось количество публикуемых статей при той или иной стратегии, а также доля ложно-положительных результатов.
Оказалось, что с ростом «бонуса» за новизну ученому с оптимальной карьерной стратегией становится выгоднее вкладывать силы в основном в поисковые работы. Начиная с некоторой величины «бонуса», доля работ-подтверждений падает до нуля. Ученый оказывается в ситуации, когда для материального поощрения требуется выполнять как можно больше поверхностных поисковых работ с небольшой статистической мощностью — это увеличивает шанс ложно-положительных результатов, которые будут опубликованы.
Такая «оптимальная» стратегия плоха для развития научного знания: ложно-положительные результаты вынуждают тратить ресурсы на работы-подтверждения. Авторы отмечают, что если бы успешность карьеры ученого определялась не малым количеством высокорейтинговых публикаций, то такой проблемы бы не возникало. Сейчас оценка ученых в британском грантовом агентстве REF основывается на четырех лучших публикациях.
Исследователи предлагают методы борьбы с проблемой некачественных статей на основе собственной модели. В первую очередь, это повышение требований к статистическим выборкам и процедурам обработки результатов. Первые шаги в этом направлении уже предпринимаются журналами. Так, Basic and Applied Social Psychology запретил своим авторам использовать в статьях процедуры проверки статистической значимости нулевой гипотезы, чтобы избежать p-хакинга.
По словам авторов, наилучшим для научного прогресса является сочетание поисковых исследований средней глубины и крупных работ-подтверждений. «Наше исследование позволяет предположить, что ученые будут выбирать такую стратегию, если фонды и комитеты будут вознаграждать их за хорошую метрологию и важные вопросы, а не за неожиданные находки и будоражащие интерпретации» — заключает Эндрю Хиггинсон, психолог из Эксетерского университета.
Важно отметить, что модель исследователей была построена на данных биомедицинских работ. Защита от ложно-положительных результатов активно используется в физике элементарных частиц: для заявления об открытии какого-либо эффекта требуется статистическая значимость эксперимента в «пять сигм». Она соответствует вероятности случайного наблюдения эффекта, соответствующей одному шансу из 3,5 миллиона. Однако такая статистическая значимость требует невероятно больших выборок, часто невозможных для биомедицинских исследований.
Понятие «британские ученые» часто ассоциируется с необычными и зачастую сомнительными работами, проводящими взаимосвязь между не связанными явлениями. В 2012 году исследователи из Великобритании отметили, что у британской науки есть проблемы с качеством.
Владимир Королёв