Как обнаружить числовые ошибки в научной статье
Мнение редакции может не совпадать с мнением автора
В теории научные статьи, содержащие ошибки или сомнительные выводы, не могут появиться в рецензируемых научных журналах. Однако система не идеальна: ученые сталкиваются с невоспроизводимостью результатов, а статьи нередко отзываются после публикации. В книге «Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке» (издательство «Corpus»), переведенной на русский язык Аленой Якименко, психолог и популяризатор науки Стюарт Ричи рассказывает об устройстве современного научно-исследовательского процесса и недостатках системы рецензирования. Предлагаем вам ознакомиться с фрагментом, посвященным числовым ошибках в научных работах.
Насколько в научных работах распространены числовые ошибки? В 2016 году группа голландских исследователей под руководством психолога Мишель Нёйтен попыталась это выяснить. Они представили алгоритм под названием statcheck, своего рода « Nuijten M.B. Statcheck — a Spellchecker for Statistics. LSE Impact of Social Sciences. 28 Feb. 2018. Приложение statcheck: http://statcheck.io. Nuijten M. B. et al. The Prevalence of Statistical Reporting Errors in Psychology (1985–2013). Behavior Research Methods. 48, no. 4 (2016): 1205–26. Стоит заметить, что у алгоритма statcheck есть критики: Schmidt T. Statcheck Does Not Work: All the Numbers. Reply to Nuijten et al. (2017). Preprint, PsyArXiv (22 Nov. 2017).
Почти в половине работ, содержащих нужные статистические данные, имелось как минимум одно числовое несоответствие. Справедливости ради отметим, что большинство ошибок были незначительными и практически не затрагивали общие результаты. Однако некоторые несоответствия сильно повлияли на выводы исследования: в 13 процентах случаев были допущены серьезные ошибки в стиле Рейнхарт и Рогоффа, которые могли полностью изменить интерпретацию результатов (например, превратить статистически значимое p-значение в незначимое или наоборот). Конечно, эти несоответствия могли возникнуть по разным причинам: от простых опечаток и ошибок копирования вплоть до сознательного мошенничества. Statcheck — это лишь способ подсветить ошибки в научном тексте, а не установить причины их появления.
Один из самых интересных результатов анализа Нёйтен показывает, как недобросовестность сопряжена с предвзятостью. Несоответствия, отмеченные алгоритмом statcheck, были, как правило, в пользу авторов — то есть ошибочные числа делали результаты более, а не менее согласующимися с гипотезой исследования. Будь это просто абсолютно случайные опечатки, нельзя было бы ожидать, что в среднем они сдвинут результаты в какую‑то одну сторону. Похоже, однако, как мы могли бы предсказать на основании своих знаний о предвзятости, будто ученые чаще пересматривали результаты, когда те отклонялись от намеченного пути. А вот ошибочные результаты, подтверждавшие их теорию, были попросту слишком хороши, чтобы их проверять.
Другой особенно изящный метод узнать, верны ли приведенные в статье числа, имеет явно неизящное название «тест на несогласованность средних, связанный с гранулярностью», сокращенно он именуется тестом Brown N. J. L., Heathers J. A. J. The GRIM Test: A Simple Technique Detects Numerous Anomalies in the Reporting of Results in Psychology. Social Psychological and Personality Science. 8, no. 4 (2017): 363–9.
В тесте GRIM та же логика применяется к выборкам покрупнее. К примеру, если двадцать участников оценили что‑либо по шкале целых чисел от 0 до 10, вам никак не получить среднее, равное 3,08. При делении на двадцать значения после запятой могут идти только с шагом 0,05: среднее, равное 3,00, или 3,10, или 3,15, получить возможно, а 3,08 — Можете проверить сами на калькуляторе или использовать приложение: http://nickbrown.fr/GRIM.
Значение 3,08 в моем примере неслучайно, я выбрал его, поскольку оно сыграло свою роль в истории теста GRIM и психологических исследований в целом. В 2016 году психолог Матти Хейно Festinger L., Carlsmith J. M. Cognitive Consequences of Forced Compliance. Journal of Abnormal and Social Psychology. 58, no. 2 (1959): 203–10 На самом деле была и третья группа участников, которым платили по двадцать долларов. При опросе они говорили, что нашли задание скучным, равно как и те, кому не платили ничего, — предположительно потому, что уменьшили свой когнитивный диссонанс мыслями о доставшихся им денежках, а не подстройкой своих убеждений. Heino M. The Legacy of Social Psychology. Data Punk. 13 Nov. 2016.
Когнитивный диссонанс — исключительно полезная идея, интуитивно нам понятная, и эксперимент был хитрым и запоминающимся. Но стали бы тысячи ученых, на протяжении многих лет С января 2020 года, согласно Google Scholar, на статью сослались больше 4200 раз.
Еще числовые ошибки настораживающе распространены в научных областях, где ставки куда выше. Вспомните: самый плодовитый научный мошенник в мире (во всяком случае на момент написания этих строк) — анестезиолог Как уже отмечалось, с тех пор он был отодвинут на второе место. Однако номер один на текущий момент, Йоахим Больдт, тоже анестезиолог. Carlisle J. B. The Analysis of 168 Randomised Controlled Trials. Также см. о Карлайле: Adam D. How a Data Detective Exposed Suspicious Medical Trials. Nature. 571, no. 7766 (2019): 462–4. См. Kendall J. M. Designing a Research Project: Randomised Controlled Trials and Their Principles. Emergency Medicine Journal. 20, no. 2 (2003): 164–8. Carlisle J.B. The Analysis of 168 Randomised Controlled Trials.
В 2017 году Карлайл Carlisle J. B. Data Fabrication and Other Reasons for Non-Random Sampling in 5087 Randomised, Controlled Trials in Anaesthetic and General Medical Journal. Anaesthesia. 72, no. 8 (2017): 944–52. Одной из главных целей Карлайла было проверить, не хуже ли дела с подозрительно выглядящими исследованиями обстоят в анестезиологии, чем в других медицинских областях. Он пришел к выводу, что ошибки в анестезиологии так же скверны, как и везде. Не все впечатлились методом Карлайла. Редакторы журнала Anesthesiology написали резко критическую статью, где указали на некоторые недостатки в статистике Карлайла и укорили его за подозрения, что основной причиной провалов при рандомизации было мошенничество, а не ошибки (Kharasch E. D., Houle T. T. Errors and Integrity in Seeking and Reporting Apparent Research Misconduct. Anesthesiology. 127, no. 5 (2017): 733–7). Карлайл предоставил ответ, весьма убедительный, на мой взгляд (Carlisle J. B. Seeking and Reporting Apparent Research Misconduct: Errors and Integrity — a Reply. Anaesthesia. 73, no. 1 (2018): 126–8), однако это уже другой интересный пример, который иллюстрирует, что за самими наблюдателями тоже надо наблюдать. Как бы то ни было, в следующей главе мы увидим, что метод Карлайла действительно выявил негодность рандомизации в чрезвычайно важных клинических испытаниях, посвященных питанию, а значит, абсолютно ошибочным он быть не может.
Самое замечательное в алгоритме statcheck, тесте GRIM и методе Карлайла — что их можно применить, используя лишь итоговые данные, которые обычно предоставляются в статьях, вроде p-значений, средних, размеров выборок и стандартных отклонений. Не требуется доступа к таблицам полных исходных данных. Пожалуй, оно и к лучшему, поскольку ученые славятся нежеланием делиться своими данными, даже когда другие добросовестные исследователи любезно их об этом просят. Исследование, проведенное в 2006 году, показало, что жалкие 26 процентов психологов согласны были отправить свои данные другим ученым по запросу через электронную почту; похожие удручающие цифры получены и в других областях. Еще ваша вероятность получить доступ к данным будет становиться тем меньше, чем больше времени Wicherts J. M. et al. The Poor Availability of Psychological Research Data for Reanalysis. American Psychologist. 61, no. 7 (2006): 726–8. Еще см. Savage C. J., Vickers A. J. Empirical Study of Data Sharing by Authors Publishing in PLoS Journals. PLOS ONE. 4, no. 9 (2009): e7078; Tenopir C. et al. Data Sharing by Scientists: Practices and Perceptions. PLOS ONE. 6, no. 6 (2011): e21101; Christensen G., Miguel E. Transparency, Reproducibility, and the Credibility of Economics Research. О том, что данные становятся все менее доступными со временем: Vines T. H. et al. The Availability of Research Data Declines Rapidly with Article Age. Current Biology. 24, no. 1 (2014): 94–7.
И какими бы хитрыми ни были три перечисленных выше метода, они меркнут в сравнении со всеобъемлющей проверкой, которую можно было бы провести, имея в своем распоряжении полный, подробный набор данных. Впрочем, сейчас стремление сохранить данные в тайне (а еще, возможно, страх, что кто‑то найдет в вашей опубликованной работе ошибки) явно перевешивает мертоновские мотивы для обмена ими.
Подробнее читайте:
Ричи, Стюарт. Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке / Стюарт Ричи; пер. с англ. Алены Якименко. — Москва : Издательство АСТ : CORPUS, 2024. — 432 с.