Почему эксперименты онкобиологов воспроизводятся не лучше, чем у психологов
В 2015 году «Коллаборация за открытую науку» (Center for Open Science, COS) отчиталась о том, что смогла воспроизвести только 39 результатов из 100 психологических статей. Теперь вышел их отчет о положении дел в онкобиологии, и в нем почти те же цифры: получилось воспроизвести только 46 процентов результатов. Значит ли это, что у таких разных, казалось бы, психологии и биологии общие трудности? Или каждая из этих областей несчастлива по-своему? А может быть, это проблемы науки вообще?
В 2011 году 270 ученых собрались повторить 100 экспериментов из статей, опубликованных в трех ведущих психологических журналах. Дело было не в том, что эти статьи вызвали у них подозрение. Скорее наоборот — участники проекта Reproducibility Project: Psychology взялись проверять самые обычные статьи, к которым ни у кого не было никаких претензий. Больше чем в половине случаев эффекты, о которых сообщали исходные статьи, в повторных экспериментах не подтвердились (подробнее об этой истории — в материале «Не повторяется такое иногда»).
Брайан Нозек (Brian Nosek) с единомышленниками не ставили это в вину авторам статей. И не призывали журналы отозвать эти статьи. «Сколько проверенных нами эффектов верны? Ноль, — писали ученые в своем отчете. — Сколько проверенных нами эффектов ложны? Ноль». Проблемы, о которых они таким образом заявили, не свидетельствуют о том, что полученные результаты ошибочны — а только о том, что их сложно проверить на практике.
Оставив сообщество психологов размышлять о том, как так вышло, Нозек переключился на следующий проект. Вместе с коллегами он отобрал 53 самые популярные статьи по онкобиологии, которые вышли с 2010 по 2012 год. Но столкнулся с непредвиденными трудностями (о них наш блог «Не можем повторить»): в итоге, потратив шесть лет и миллион с лишним долларов, в свой отчет Reproducibility Project: Cancer Biology включил лишь 23.
В предыдущем проекте тоже, конечно, состоялись не все запланированные эксперименты. 47 из 158 статей по когнитивной и социальной психологии остались без проверки из-за того, что она требовала особенного оборудования, которого не оказалось под рукой у участников коллаборации, специальной подготовки сотрудников или редких объектов (людей с конкретными психиатрическими диагнозами и обезьян). Но в случае с онкобиологией препятствий оказалось гораздо больше — да так, что материала набралось на отдельную публикацию.
Из 193 экспериментов, жалуются в ней Нозек с коллегами, проверить статистическую обработку результатов оказалось возможно только в четырех случаях — для всех остальных им попросту не хватило данных, приведенных в оригинальной работе. Исследователи запросили эти данные у авторов, но в 68 процентах случаев остались без ответа.
Более того, ни один из 193 экспериментов не был описан достаточно подробно, чтобы его можно было воспроизвести, используя статью как инструкцию. Поэтому всем командам, которые взялись их повторять, пришлось консультироваться с авторами статей — и около трети авторов отказались им помогать.
После того, как остальные эксперименты удалось запустить, оказалось, что в большинстве случаев протоколы исследования нужно менять — клетки и мыши вели себя не так, как описывалось в исходной статье. В итоге из 193 запланированных экспериментов (в одной статье бывает сразу несколько результатов, которые требуют проверки) удалось провести только 50.
«Это проблема традиций, — говорит в беседе с N + 1 онкоэпидемиолог Антон Барчук, научный сотрудник НМИЦ онкологии имени Петрова и Университета Тампере (Финляндия), — часто это не авторы статьи умышленно скрывают [данные], им не позволяет [это сделать] формат статьи. Например, принято, чтобы авторы порассуждали [о своих результатах], и дискуссия съедает много места — в том числе и от „Методов“, которые, по-моему, гораздо более важный раздел».
Из тех 50 экспериментов, которые все-таки вышло довести до конца, не все принесли ожидаемые плоды. Из 158 эффектов, о которых шла речь в исходных статьях, оценить достоверность удалось лишь для 112. И они достоверно (то есть статистически значимо) воспроизвелись лишь в 46 процентах случаев.
«Покажите эту ссылку кому угодно, — советует в твиттере психолог Джей ван Бавел (Jay Van Bavel), — кто скажет, что психологическая наука менее надежна, чем „настоящая наука“ вроде биологии». Нозек цитирует твит коллеги с комментарием: напрямую два проекта сравнивать некорректно. Статьи по психологии взяли из трех авторитетных профильных журналов, а онкобиологические отбирали по альтметрике и цитируемости на платформах Web of Science и Scopus. К тому же, в психологических статьях обычно описывается один эффект, а в биологических — сразу несколько. Поэтому полученные данные не означают, что 54 процента статей по онкобиологии не воспроизводятся целиком — возможно, не воспроизводится лишь какая-то их часть.
How are different scientific fields in terms of replicability? Here are the correlations between original and replication study effect sizes:
-Psychology research (left): r = .56
-Cancer research (right): r = .47
From https://t.co/l3ECagoP3a & https://t.co/OF6cTfklfd pic.twitter.com/V7EYNJDL6k
Тем не менее, кое-что общее у психологии и онкологии, безусловно, есть. В переписке с N + 1 Нозек предполагает, что это «система вознаграждения за новые, позитивные, удивительные результаты в ущерб строгости, прозрачности и подробным описаниям». То есть истинный виновник — publication bias, склонность журналов принимать к публикации статьи, результаты которых выглядят интересными. Поэтому наличие корреляции ценится выше, чем ее отсутствие, а добыча новой информации получает приоритет перед проверкой старой.
«Это лечится с помощью registered reports», — объясняет Илья Ясный, руководитель научной экспертизы фармацевтического фонда Inbio Ventures. Это альтернативная схема публикации в научном журнале: авторы отправляют в редакцию не готовый отчет о проделанной работе, а заявку на проведение конкретного эксперимента для проверки определенной гипотезы. И если эксперты в редакции ее одобряют, то журнал обязуется опубликовать результат (если его, конечно, удастся получить) — вне зависимости от того, положительный он или отрицательный. Таким образом, научная работа проходит рецензирование дважды — перед тем, как начнется эксперимент, и после того, как обработаны данные. Это, с одной стороны, делает работу более надежной и воспроизводимой, а с другой, помогает экономить деньги — поскольку лишние и бессмысленные эксперименты рецензенты остановят еще на старте.
Концепцию registered reports придумали все те же люди из Центра открытой науки. Они и свой проект по онкобиологии вели именно таким образом: сначала отдельно согласовали и опубликовали протоколы, а потом уже показывали результаты. И эффект от этой практики уже заметен, считает Ясный: «с 2013 года качество [статей в области] в итоге повысилось, судя по оценке на глазок».
Руководитель Reproducibility Project: Cancer Biology Тимоти Эррингтон (Timothy Errington) в переписке с N + 1 также предупреждает, что не стоит сравнивать напрямую психологию и онкобиологию, несмотря на схожие итоги работы двух проектов COS. Различие между дисциплинами, которое ему бросилось в глаза, рассказывает он, скорее методологическое: «аналитическая гибкость» против «экспериментальной гибкости». Когда исследователи воспроизводят работы по психологии, проблемы возникают на последнем этапе: оказывается сложно получить те же выводы на основании тех же данных. В работах по биологии рака препятствия начинаются задолго до статистической обработки — трудно даже подобрать все необходимые объекты и реагенты. И это не уникальное свойство онкобиологии, считает Ясный. По его словам, «ситуация с животными моделями везде [в биологии] плохая».
Так или иначе, онкобиология как будто бы получает сразу два удара: и по воссоздаваемости своих экспериментов, и по воспроизводимости своих результатов. Учитывая, что Нозеку и коллегам удалось поставить менее половины нужных экспериментов и получить меньше половины ожидаемых эффектов, итоговая воспроизводимость оказывается не больше четверти.
Но среди экспертов, с которыми поговорил N + 1, это никого особенно не удручает. В конце концов, репликация экспериментов — неотъемлемая часть научного процесса. «То, что опубликовали авторы исходных статей, — говорит Ясный, — это инновация. Каждая инновация открывает возможности, а [ее] верификация говорит о том, насколько эти возможности реализуемы. То, что одни ученые что-то делают, а другие им не доверяют — это и есть наука».
Да и масштаб невоспроизводимости оказывается не новым. Еще в 2011 году сотрудники компании Bayer попробовали — правда, не раскрывая подробностей — повторить несколько десятков экспериментов, в том числе и из онкобиологии, и у них сошлись не более 25 процентов результатов. Это не понаслышке знают и те, кто занимается клиническими испытаниями: в 19 из 20 случаев, по словам Ясного, противоопухолевые препараты проваливаются на этой стадии — «потому что слишком много лекарств проходят фильтры на не слишком хорошо сделанных доклинических исследованиях».
Поэтому у тех, кто работает непосредственно с результатами таких статей, есть свои рецепты и способы определить, чему верить, а чему нет. «Мы все приучаемся видеть, — рассказывает Ясный, — где там проблемы и насколько хорошо исследования проведены. К тому же, то что разрабатывается в недрах „бигфармы“, с методологической точки зрения устроено лучше [чем в академической науке]. Если они будут пускать в клинические испытания недостаточно исследованные препараты, они выстрелят себе в ногу, потому что потеряют время и деньги. В маленьких стартапах чуть сложнее, от их результатов зависит финансирование и интерес инвесторов, но и они не могут откровенно врать».
«Рецепт один, — говорит Барчук, — критически относиться к результатам, которые получены в одном-двух исследованиях. Всегда стоит подождать, пока кто-нибудь их повторит. Возможно, это их новое исследование тоже окажется непросто повторить».
Это вывод рандомизированного исследования
Шведские, норвежские и британские ученые выяснили, что операция по реконструкции неба у детей с его расщелиной снижает риск органических нарушений речи в пятилетнем возрасте. Как сообщается в статье, опубликованной в The New England Journal of Medicine, к такому выводу ученые пришли после сравнения двух групп детей, получивших операцию в возрасте 6 или 12 месяцев. Изолированная расщелина неба поражает от 1 до 25 на 10000 новорожденных. В зависимости от типа и тяжести дефекта она может приводить к проблемам с кормлением, аномальному развитию и росту лица, психологическим трудностям, а также к нарушениям развития речи. Поэтому проводится хирургическая коррекция расщелины неба, которая заключается в закрытии промежутка между мягким небом и стенками глотки для разделения ротовой и носовой полостей. Это закрытие предотвращает орально-носовое сообщение, что обеспечивает сохранность давления воздуха внутри рта, достаточное для произнесения согласных.Однако несмотря на перенесенное хирургическое вмешательство, примерно у 30 процентов детей наблюдаются симптомы сохранения орально-носового сообщения, которое приводит к нарушениям речи. Многие хирурги считают, что дело во времени проведения операции, и что чем раньше она проведена, тем благополучнее дальнейших исходы относительно речи. Ученые из Швеции, Норвегии и Великобритании под руководством Кэррол Гэмбл (Carrol Gamble) из Ливерпульского университета провели рандомизированное клиническое исследование, в котором приняло участие 558 новорожденных: 281 были прооперированы в возрасте шести месяцев и 277 — в возрасте 12 месяцев. Исходные характеристики в обеих группах были сходными. Доля детей с недостаточно закрытым сообщением между ротовой и носовой полостями в возрасте пяти лет была значительно меньше в группе операции в шесть месяцев (отношение рисков 0,59, р = 0,04). Ассоциации сохранялись после поправки на протяженность расщелины и на хирурга. Нормальный лепет в возрасте одного года также чаще наблюдался в группе шести месяцев. Кроме того, в этом же возрасте функция среднего уха в 12-месячной группе оказалась хуже, чем в шестимесячной. В три и пять лет этих различий не наблюдалось. Таким образом, ученые приходят к выводу, что у здоровых в остальном детей предпочтительнее проводить операцию по коррекции расщелины неба в шестимесячном возрасте, чем в возрасте одного года. Ранее мы рассказывали про то, что ученые разработали накожный сенсор для мониторинга речи у пациентов, перенесших инсульт.