Собака съела протокол

Почему эксперименты онкобиологов воспроизводятся не лучше, чем у психологов

Полина Лосева

В 2015 году «Коллаборация за открытую науку» (Center for Open Science, COS) отчиталась о том, что смогла воспроизвести только 39 результатов из 100 психологических статей. Теперь вышел их отчет о положении дел в онкобиологии, и в нем почти те же цифры: получилось воспроизвести только 46 процентов результатов. Значит ли это, что у таких разных, казалось бы, психологии и биологии общие трудности? Или каждая из этих областей несчастлива по-своему? А может быть, это проблемы науки вообще?

В 2011 году 270 ученых собрались повторить 100 экспериментов из статей, опубликованных в трех ведущих психологических журналах. Дело было не в том, что эти статьи вызвали у них подозрение. Скорее наоборот — участники проекта Reproducibility Project: Psychology взялись проверять самые обычные статьи, к которым ни у кого не было никаких претензий. Больше чем в половине случаев эффекты, о которых сообщали исходные статьи, в повторных экспериментах не подтвердились (подробнее об этой истории — в материале «Не повторяется такое иногда»).

Брайан Нозек (Brian Nosek) с единомышленниками не ставили это в вину авторам статей. И не призывали журналы отозвать эти статьи. «Сколько проверенных нами эффектов верны? Ноль, — писали ученые в своем отчете. — Сколько проверенных нами эффектов ложны? Ноль». Проблемы, о которых они таким образом заявили, не свидетельствуют о том, что полученные результаты ошибочны — а только о том, что их сложно проверить на практике.

Оставив сообщество психологов размышлять о том, как так вышло, Нозек переключился на следующий проект. Вместе с коллегами он отобрал 53 самые популярные статьи по онкобиологии, которые вышли с 2010 по 2012 год. Но столкнулся с непредвиденными трудностями (о них наш блог «Не можем повторить»): в итоге, потратив шесть лет и миллион с лишним долларов, в свой отчет Reproducibility Project: Cancer Biology включил лишь 23.

По стопам

В предыдущем проекте тоже, конечно, состоялись не все запланированные эксперименты. 47 из 158 статей по когнитивной и социальной психологии остались без проверки из-за того, что она требовала особенного оборудования, которого не оказалось под рукой у участников коллаборации, специальной подготовки сотрудников или редких объектов (людей с конкретными психиатрическими диагнозами и обезьян). Но в случае с онкобиологией препятствий оказалось гораздо больше — да так, что материала набралось на отдельную публикацию.

Из 193 экспериментов, жалуются в ней Нозек с коллегами, проверить статистическую обработку результатов оказалось возможно только в четырех случаях — для всех остальных им попросту не хватило данных, приведенных в оригинальной работе. Исследователи запросили эти данные у авторов, но в 68 процентах случаев остались без ответа.

Более того, ни один из 193 экспериментов не был описан достаточно подробно, чтобы его можно было воспроизвести, используя статью как инструкцию. Поэтому всем командам, которые взялись их повторять, пришлось консультироваться с авторами статей — и около трети авторов отказались им помогать.

После того, как остальные эксперименты удалось запустить, оказалось, что в большинстве случаев протоколы исследования нужно менять — клетки и мыши вели себя не так, как описывалось в исходной статье. В итоге из 193 запланированных экспериментов (в одной статье бывает сразу несколько результатов, которые требуют проверки) удалось провести только 50.

«Это проблема традиций, — говорит в беседе с N + 1 онкоэпидемиолог Антон Барчук, научный сотрудник НМИЦ онкологии имени Петрова и Университета Тампере (Финляндия), — часто это не авторы статьи умышленно скрывают [данные], им не позволяет [это сделать] формат статьи. Например, принято, чтобы авторы порассуждали [о своих результатах], и дискуссия съедает много места — в том числе и от „Методов“, которые, по-моему, гораздо более важный раздел».

Из тех 50 экспериментов, которые все-таки вышло довести до конца, не все принесли ожидаемые плоды. Из 158 эффектов, о которых шла речь в исходных статьях, оценить достоверность удалось лишь для 112. И они достоверно (то есть статистически значимо) воспроизвелись лишь в 46 процентах случаев.

Люди и мыши

«Покажите эту ссылку кому угодно, — советует в твиттере психолог Джей ван Бавел (Jay Van Bavel), — кто скажет, что психологическая наука менее надежна, чем „настоящая наука“ вроде биологии». Нозек цитирует твит коллеги с комментарием: напрямую два проекта сравнивать некорректно. Статьи по психологии взяли из трех авторитетных профильных журналов, а онкобиологические отбирали по альтметрике и цитируемости на платформах Web of Science и Scopus. К тому же, в психологических статьях обычно описывается один эффект, а в биологических — сразу несколько. Поэтому полученные данные не означают, что 54 процента статей по онкобиологии не воспроизводятся целиком — возможно, не воспроизводится лишь какая-то их часть.

How are different scientific fields in terms of replicability? Here are the correlations between original and replication study effect sizes:
-Psychology research (left): r = .56
-Cancer research (right): r = .47
From https://t.co/l3ECagoP3a & https://t.co/OF6cTfklfd pic.twitter.com/V7EYNJDL6k

Тем не менее, кое-что общее у психологии и онкологии, безусловно, есть. В переписке с N + 1 Нозек предполагает, что это «система вознаграждения за новые, позитивные, удивительные результаты в ущерб строгости, прозрачности и подробным описаниям». То есть истинный виновник — publication bias, склонность журналов принимать к публикации статьи, результаты которых выглядят интересными. Поэтому наличие корреляции ценится выше, чем ее отсутствие, а добыча новой информации получает приоритет перед проверкой старой.

«Это лечится с помощью registered reports», — объясняет Илья Ясный, руководитель научной экспертизы фармацевтического фонда Inbio Ventures. Это альтернативная схема публикации в научном журнале: авторы отправляют в редакцию не готовый отчет о проделанной работе, а заявку на проведение конкретного эксперимента для проверки определенной гипотезы. И если эксперты в редакции ее одобряют, то журнал обязуется опубликовать результат (если его, конечно, удастся получить) — вне зависимости от того, положительный он или отрицательный. Таким образом, научная работа проходит рецензирование дважды — перед тем, как начнется эксперимент, и после того, как обработаны данные. Это, с одной стороны, делает работу более надежной и воспроизводимой, а с другой, помогает экономить деньги — поскольку лишние и бессмысленные эксперименты рецензенты остановят еще на старте.

Концепцию registered reports придумали все те же люди из Центра открытой науки. Они и свой проект по онкобиологии вели именно таким образом: сначала отдельно согласовали и опубликовали протоколы, а потом уже показывали результаты. И эффект от этой практики уже заметен, считает Ясный: «с 2013 года качество [статей в области] в итоге повысилось, судя по оценке на глазок».

Руководитель Reproducibility Project: Cancer Biology Тимоти Эррингтон (Timothy Errington) в переписке с N + 1 также предупреждает, что не стоит сравнивать напрямую психологию и онкобиологию, несмотря на схожие итоги работы двух проектов COS. Различие между дисциплинами, которое ему бросилось в глаза, рассказывает он, скорее методологическое: «аналитическая гибкость» против «экспериментальной гибкости». Когда исследователи воспроизводят работы по психологии, проблемы возникают на последнем этапе: оказывается сложно получить те же выводы на основании тех же данных. В работах по биологии рака препятствия начинаются задолго до статистической обработки — трудно даже подобрать все необходимые объекты и реагенты. И это не уникальное свойство онкобиологии, считает Ясный. По его словам, «ситуация с животными моделями везде [в биологии] плохая».

Им с этим жить

Так или иначе, онкобиология как будто бы получает сразу два удара: и по воссоздаваемости своих экспериментов, и по воспроизводимости своих результатов. Учитывая, что Нозеку и коллегам удалось поставить менее половины нужных экспериментов и получить меньше половины ожидаемых эффектов, итоговая воспроизводимость оказывается не больше четверти.

Но среди экспертов, с которыми поговорил N + 1, это никого особенно не удручает. В конце концов, репликация экспериментов — неотъемлемая часть научного процесса. «То, что опубликовали авторы исходных статей, — говорит Ясный, — это инновация. Каждая инновация открывает возможности, а [ее] верификация говорит о том, насколько эти возможности реализуемы. То, что одни ученые что-то делают, а другие им не доверяют — это и есть наука».

Да и масштаб невоспроизводимости оказывается не новым. Еще в 2011 году сотрудники компании Bayer попробовали — правда, не раскрывая подробностей — повторить несколько десятков экспериментов, в том числе и из онкобиологии, и у них сошлись не более 25 процентов результатов. Это не понаслышке знают и те, кто занимается клиническими испытаниями: в 19 из 20 случаев, по словам Ясного, противоопухолевые препараты проваливаются на этой стадии — «потому что слишком много лекарств проходят фильтры на не слишком хорошо сделанных доклинических исследованиях».

Поэтому у тех, кто работает непосредственно с результатами таких статей, есть свои рецепты и способы определить, чему верить, а чему нет. «Мы все приучаемся видеть, — рассказывает Ясный, — где там проблемы и насколько хорошо исследования проведены. К тому же, то что разрабатывается в недрах „бигфармы“, с методологической точки зрения устроено лучше [чем в академической науке]. Если они будут пускать в клинические испытания недостаточно исследованные препараты, они выстрелят себе в ногу, потому что потеряют время и деньги. В маленьких стартапах чуть сложнее, от их результатов зависит финансирование и интерес инвесторов, но и они не могут откровенно врать».

«Рецепт один, — говорит Барчук, — критически относиться к результатам, которые получены в одном-двух исследованиях. Всегда стоит подождать, пока кто-нибудь их повторит. Возможно, это их новое исследование тоже окажется непросто повторить».

Полина Лосева при участии Ильи Ферапонтова и Ивана Шунина