«Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке»

Как обнаружить числовые ошибки в научной статье

В теории научные статьи, содержащие ошибки или сомнительные выводы, не могут появиться в рецензируемых научных журналах. Однако система не идеальна: ученые сталкиваются с невоспроизводимостью результатов, а статьи нередко отзываются после публикации. В книге «Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке» (издательство «Corpus»), переведенной на русский язык Аленой Якименко, психолог и популяризатор науки Стюарт Ричи рассказывает об устройстве современного научно-исследовательского процесса и недостатках системы рецензирования. Предлагаем вам ознакомиться с фрагментом, посвященным числовым ошибках в научных работах.

***

Насколько в научных работах распространены числовые ошибки? В 2016 году группа голландских исследователей под руководством психолога Мишель Нёйтен попыталась это выяснить. Они представили алгоритм под названием statcheck, своего рода «спелл-чекер для статистикиNuijten M.B. Statcheck — a Spellchecker for Statistics. LSE Impact of Social Sciences. 28 Feb. 2018. Приложение statcheck: https://statcheck.io.». Когда вы вводите в statcheck научную статью, он проходится в ней по всем числам и отмечает ошибки в p-значениях. Алгоритм способен это сделать, поскольку многие числа в статистических тестах зависят друг от друга, поэтому, если известны лишь некоторые из них, всегда можно воспроизвести остальные (как благодаря теореме Пифагора вы всегда можете вычислить гипотенузу треугольника, если известны длины двух других сторон). Если p-значение и другие связанные с ним числа друг с другом не согласуются, что‑то, вероятно, не так. Нёйтен и ее коллеги прогналиNuijten M. B. et al. The Prevalence of Statistical Reporting Errors in Psychology (1985–2013). Behavior Research Methods. 48, no. 4 (2016): 1205–26. Стоит заметить, что у алгоритма statcheck есть критики: Schmidt T. Statcheck Does Not Work: All the Numbers. Reply to Nuijten et al. (2017). Preprint, PsyArXiv (22 Nov. 2017). через statcheck более тридцати тысяч статей — гигантскую выборку исследований, опубликованных в восьми главных журналах по психологии с 1985 по 2013 год. От того, что они обнаружили, становится просто неловко.

Почти в половине работ, содержащих нужные статистические данные, имелось как минимум одно числовое несоответствие. Справедливости ради отметим, что большинство ошибок были незначительными и практически не затрагивали общие результаты. Однако некоторые несоответствия сильно повлияли на выводы исследования: в 13 процентах случаев были допущены серьезные ошибки в стиле Рейнхарт и Рогоффа, которые могли полностью изменить интерпретацию результатов (например, превратить статистически значимое p-значение в незначимое или наоборот). Конечно, эти несоответствия могли возникнуть по разным причинам: от простых опечаток и ошибок копирования вплоть до сознательного мошенничества. Statcheck — это лишь способ подсветить ошибки в научном тексте, а не установить причины их появления.

Один из самых интересных результатов анализа Нёйтен показывает, как недобросовестность сопряжена с предвзятостью. Несоответствия, отмеченные алгоритмом statcheck, были, как правило, в пользу авторов — то есть ошибочные числа делали результаты более, а не менее согласующимися с гипотезой исследования. Будь это просто абсолютно случайные опечатки, нельзя было бы ожидать, что в среднем они сдвинут результаты в какую‑то одну сторону. Похоже, однако, как мы могли бы предсказать на основании своих знаний о предвзятости, будто ученые чаще пересматривали результаты, когда те отклонялись от намеченного пути. А вот ошибочные результаты, подтверждавшие их теорию, были попросту слишком хороши, чтобы их проверять.

Другой особенно изящный метод узнать, верны ли приведенные в статье числа, имеет явно неизящное название «тест на несогласованность средних, связанный с гранулярностью», сокращенно он именуется тестом GRIMBrown N. J. L., Heathers J. A. J. The GRIM Test: A Simple Technique Detects Numerous Anomalies in the Reporting of Results in Psychology. Social Psychological and Personality Science. 8, no. 4 (2017): 363–9. (Granularity-Related Inconsistency of Means). С помощью этого теста, разработанного расследователями в мире данных Ником Брауном и Джеймсом Хизерсом, проверяется, имеет ли смысл среднее значение (а именно — среднее арифметическое) набора чисел с учетом того, сколько чисел в нем содержится. Представьте, что вы просите людей оценить, насколько они довольны своей работой, по шкале от 0 до 10 (и ответ дозволяется давать только в целых числах: скажем, «4» или «5», но не «3,7»). Допустим, в простейшем случае вы задали этот вопрос только двум людям и сообщаете среднее значение их оценок, то есть складываете два их результата и делите сумму пополам. Если в получившемся числе посмотреть на цифры после запятой, то возможных вариантов для них будет всего ничего: для двух человек среднее значение их ответов может заканчиваться только на «,00» или «,50». Если же у вас получилось, например, 4,40, значит, что‑то точно пошло не так: при делении целого числа на два получить такую дробь невозможно.

В тесте GRIM та же логика применяется к выборкам покрупнее. К примеру, если двадцать участников оценили что‑либо по шкале целых чисел от 0 до 10, вам никак не получить среднее, равное 3,08. При делении на двадцать значения после запятой могут идти только с шагом 0,05: среднее, равное 3,00, или 3,10, или 3,15, получить возможно, а 3,08 — невозможноМожете проверить сами на калькуляторе или использовать приложение: https://nickbrown.fr/GRIM.. Браун и Хизерс использовали тест GRIM, чтобы проверить выборку из семидесяти одной опубликованной статьи по психологии, и обнаружили, что в половине из них приводилось по меньшей мере одно невероятное число, а в 20 процентах содержалось даже несколько. Как и в случае с алгоритмом statcheck, ошибки, выявленные методом GRIM, могут объясняться причинами безобидными, однако же служат красными флагами, сигнализирующими о необходимости дальнейшего анализа.

Значение 3,08 в моем примере неслучайно, я выбрал его, поскольку оно сыграло свою роль в истории теста GRIM и психологических исследований в целом. В 2016 году психолог Матти Хейно применилFestinger L., Carlsmith J. M. Cognitive Consequences of Forced Compliance. Journal of Abnormal and Social Psychology. 58, no. 2 (1959): 203–10 метод GRIM для анализа одной из самых знаменитых статей по психологии всех времен — работы Леона Фестингера и Джеймса Карлсмита о «когнитивном диссонансе», вышедшей в 1959‑м. Сейчас эта идея широко известна: когда человека заставляют говорить или делать то, что противоречит его истинным убеждениям, он чувствует психологический дискомфорт и старается подладить эти свои убеждения под слова и действия, к которым его принудили. Участников исследования 1959 года заставляли выполнять нудные и бессмысленные задания, например без конца проворачивать штырьки в перфорированной панели. После некоторым выплачивали доллар, чтобы они говорили следующим по очереди участникам, будто задания показались им весьма интересными и забавными. Позднее при опросе участники, которым за ложь о задании заплатили, отзывались о нем как о гораздо более интересном, чем те, кому доллар не достался. Иными словами, они уменьшали свой диссонанс, заставляя себя поверить, что им было веселоНа самом деле была и третья группа участников, которым платили по двадцать долларов. При опросе они говорили, что нашли задание скучным, равно как и те, кому не платили ничего, — предположительно потому, что уменьшили свой когнитивный диссонанс мыслями о доставшихся им денежках, а не подстройкой своих убеждений.. Увы, примененный Хейно тест GRIM продемонстрировалHeino M. The Legacy of Social Psychology. Data Punk. 13 Nov. 2016., что не только впечатления участников были рассогласованы — но и числа у Фестингера и Карлсмита. Для выборки из двадцати человек, дающих оценку по шкале целых чисел от 0 до 10, они заявили о среднем, равном 3,08, что невозможно, как мы обсудили выше, не говоря уже о том, что тест не прошли и еще несколько средних.

Когнитивный диссонанс — исключительно полезная идея, интуитивно нам понятная, и эксперимент был хитрым и запоминающимся. Но стали бы тысячи ученых, на протяжении многих лет ссылавшиесяС января 2020 года, согласно Google Scholar, на статью сослались больше 4200 раз. на статью Фестингера и Карлсмита, делать это, знай они, что она кишит неправдоподобными числами? Эта история еще раз напоминает нам, что даже «классические» результаты из научной литературы — те, что, хотелось бы надеяться, проверялись самым строгим образом, — могут быть совершенно ненадежными, когда числа и другие данные, которым следует играть важнейшую роль, выступают в качестве чистых декораций — фона для захватывающей истории.

Еще числовые ошибки настораживающе распространены в научных областях, где ставки куда выше. Вспомните: самый плодовитый научный мошенник в мире (во всяком случае на момент написания этих строк) — анестезиолог Ёситака ФудзииКак уже отмечалось, с тех пор он был отодвинут на второе место. Однако номер один на текущий момент, Йоахим Больдт, тоже анестезиолог.. Его затяжному марафону по подделыванию данных положилCarlisle J. B. The Analysis of 168 Randomised Controlled Trials. Также см. о Карлайле: Adam D. How a Data Detective Exposed Suspicious Medical Trials. Nature. 571, no. 7766 (2019): 462–4. конец анестезиолог Джон Карлайл, разработавший статистический метод для проверки, действительно ли рандомизированные клинические испытания рандомизированы. Рандомизация по своей сути — это словно подбрасывание монеты для каждого из участников, чтобы распределить их по группам (скажем, активного препарата либо же плацебо) случайным образом, а не каким‑либо заранее спланированным способом, который может быть источником предвзятости. Это процесс первостепенной важности: он призван на момент начала испытаний гарантировать, что между группами нет существенных различий. Если люди в одной группе здоровее, образованнее, старше или заметно отличаются по любому другому показателю, который может повлиять на результаты, исследование не будетСм. Kendall J. M. Designing a Research Project: Randomised Controlled Trials and Their Principles. Emergency Medicine Journal. 20, no. 2 (2003): 164–8. честным. Поэтому, если на начало рандомизированного контролируемого исследования между группами имеются большие различия, налицо проблема: процесс рандомизации провален. С другой же стороны, если группы подобраны идеально и необъяснимым образом удалось избежать железного правила о зашумленности чисел, это тоже сомнительно: даже после рандомизации между группами все равно должны быть мельчайшие различия, просто по случайности. Вот на чем основан метод Карлайла. Когда он проверил статьи Фудзии, то обнаружил данные совершенно неправдоподобно стройные: так, например, распределения заявленных возраста, роста и веса пациентов Фудзии были почти идеально синхронизированы. Шансы, что такое произойдет в реальности, меньшеCarlisle J.B. The Analysis of 168 Randomised Controlled Trials. одного к десяти в тридцать третьей степени (то есть одного к миллиарду триллионов триллионов). Само собой, оказалось, что Фудзии — мошенник.

В 2017 году Карлайл применилCarlisle J. B. Data Fabrication and Other Reasons for Non-Random Sampling in 5087 Randomised, Controlled Trials in Anaesthetic and General Medical Journal. Anaesthesia. 72, no. 8 (2017): 944–52. Одной из главных целей Карлайла было проверить, не хуже ли дела с подозрительно выглядящими исследованиями обстоят в анестезиологии, чем в других медицинских областях. Он пришел к выводу, что ошибки в анестезиологии так же скверны, как и везде. свой обнаруживающий ошибки метод к пяти тысячам восьмидесяти семи медицинским исследованиям из восьми журналов, опять проверяя рандомизацию, которая была либо негодной, либо подозрительно совершенной. Не исключено, конечно, что некоторые испытания выглядят сомнительно просто по невезению. Но даже принимая это во внимание, Карлайл обнаружил, что 5 процентов исследований содержат подозрительные данные: таким образом, он выявил сотни работ, которые, возможно, полностью искажены — а их результаты бессмысленны — из‑за неправильной рандомизации групп. Лишь за малой долей этих проваленных испытаний стояло мошенничество в стиле Фудзии; судя по всему, Карлайл обнаружил в основном «невинные» ошибки. Хотя, учитывая, что стоит на кону в медицинских исследованиях — ведь врачи используют их результаты при подборе лечения для своих пациентов, — эти «невинные» ошибки могут обернутьсяНе все впечатлились методом Карлайла. Редакторы журнала Anesthesiology написали резко критическую статью, где указали на некоторые недостатки в статистике Карлайла и укорили его за подозрения, что основной причиной провалов при рандомизации было мошенничество, а не ошибки (Kharasch E. D., Houle T. T. Errors and Integrity in Seeking and Reporting Apparent Research Misconduct. Anesthesiology. 127, no. 5 (2017): 733–7). Карлайл предоставил ответ, весьма убедительный, на мой взгляд (Carlisle J. B. Seeking and Reporting Apparent Research Misconduct: Errors and Integrity — a Reply. Anaesthesia. 73, no. 1 (2018): 126–8), однако это уже другой интересный пример, который иллюстрирует, что за самими наблюдателями тоже надо наблюдать. Как бы то ни было, в следующей главе мы увидим, что метод Карлайла действительно выявил негодность рандомизации в чрезвычайно важных клинических испытаниях, посвященных питанию, а значит, абсолютно ошибочным он быть не может. большой бедой.

Самое замечательное в алгоритме statcheck, тесте GRIM и методе Карлайла — что их можно применить, используя лишь итоговые данные, которые обычно предоставляются в статьях, вроде p-значений, средних, размеров выборок и стандартных отклонений. Не требуется доступа к таблицам полных исходных данных. Пожалуй, оно и к лучшему, поскольку ученые славятся нежеланием делиться своими данными, даже когда другие добросовестные исследователи любезно их об этом просят. Исследование, проведенное в 2006 году, показало, что жалкие 26 процентов психологов согласны были отправить свои данные другим ученым по запросу через электронную почту; похожие удручающие цифры получены и в других областях. Еще ваша вероятность получить доступ к данным будет становиться тем меньше, чем больше времени проходитWicherts J. M. et al. The Poor Availability of Psychological Research Data for Reanalysis. American Psychologist. 61, no. 7 (2006): 726–8. Еще см. Savage C. J., Vickers A. J. Empirical Study of Data Sharing by Authors Publishing in PLoS Journals. PLOS ONE. 4, no. 9 (2009): e7078; Tenopir C. et al. Data Sharing by Scientists: Practices and Perceptions. PLOS ONE. 6, no. 6 (2011): e21101; Christensen G., Miguel E. Transparency, Reproducibility, and the Credibility of Economics Research. О том, что данные становятся все менее доступными со временем: Vines T. H. et al. The Availability of Research Data Declines Rapidly with Article Age. Current Biology. 24, no. 1 (2014): 94–7. с момента исследования. Подобное нежелание делиться данными блокирует жизненно важные процессы самокритики — все те же мертоновские нормы коллективизма и организованного скептицизма, — что лежат в основе науки.

И какими бы хитрыми ни были три перечисленных выше метода, они меркнут в сравнении со всеобъемлющей проверкой, которую можно было бы провести, имея в своем распоряжении полный, подробный набор данных. Впрочем, сейчас стремление сохранить данные в тайне (а еще, возможно, страх, что кто‑то найдет в вашей опубликованной работе ошибки) явно перевешивает мертоновские мотивы для обмена ими.

Подробнее читайте:
Ричи, Стюарт. Наукообразная чушь. Разоблачение мошенничества, предвзятости, недобросовестности и хайпа в науке / Стюарт Ричи; пер. с англ. Алены Якименко. — Москва : Издательство АСТ : CORPUS, 2024. — 432 с.