Несколько дней назад мы опубликовали новость «Человека обвинили в гибели более четверти сухопутных позвоночных» по материалам статьи, вышедшей в Global Ecology and Biogeography. У этой новости не самая простая судьба: в редакции долго шел спор, стоит ли вообще ее писать — ведь она основана на данных метаанализа, сильно ограниченного внешней валидностью. Возможно, читателям тоже любопытно, что же было не так с исходной статьей и чем так плох (или так хорош) метаанализ. Давайте разберемся? Ну давайте.
Мы достаточно часто освещаем исследования, проведенные методом метаанализа. Можно вспомнить работу, показавшую на основе 150 научных статей, как на успех фильма в прокате влияет мнение зрителей и кинокритиков. Или вот эту заметку, порадовавшую всех любителей макарон и тонкой талии, — в ней говорится о том, что ученые проанализировали 29 работ и разрешили есть цельнозерновую пасту дважды в неделю. Есть работа, в которой рассказывается о пользе шоколада для сердечно-сосудистой системы, и работа, доказывающая, что уменьшение количества сигарет в день не делает курение менее вредным.
Что такое метаанализ мы, пожалуй, объяснять не будем: достаточно открыть соответствующую статью на Википедии или перевести греческое μετά и далее воспользоваться логикой. Вместо этого мы разберем очевидные достоинства этого метода и не такие очевидные недостатки.
Метаанализ — метод хороший, в особенности — для многочисленных исследований, чьим объектом становится человек, его организм и поведение: это и психологические исследования, и социологические, и даже медицинские. Метаанализы помогают суммировать результаты многочисленных работ, посвященных одной определенной теме, и наконец-то решить, кто прав, если их результаты противоречат друг другу. И одно из самых очевидных преимуществ метаанализа — отсутствие необходимости заново собирать данные.
Для проверки различных гипотез (например, об эффективности препарата или процедуры в группе людей по сравнению с контрольной) необходимо собрать репрезентативную выборку, причем как количественно, так и качественно. Хороший пример плохого опроса с маленькой выборкой — история с сервисом Tvil.Ru, который в честь Дня шопинга в России опубликовал список «Лучших городов для шопинга» в стране. Первые два места ожидаемо заняли Москва и Санкт-Петербург, а историю подхватили многие СМИ. Никто не учел при этом, что в опросе компании приняли участие меньше сотни человек.
Учитывая, что городов в России куда больше сотни, а покупателей — десятки миллионов, такая выборка максимально далека от репрезентативности. В хорошем подобном исследовании также следовало бы учесть доход и возраст опрашиваемых, что именно они покупают, какие магазины предпочитают (торговые центры или же отдельные точки продажи) и многое другое. Не исключено, что результаты качественного опроса были бы немного другими; также не исключено, что лучшим городам для шопинга россияне предпочитают интернет-магазины.
Чем здесь может помочь метаанализ? Тем, что одна из его задач — увеличение статистической мощности, то есть вероятности того, что нулевая гипотеза (скажем, о равенстве какого-то показателя между двумя группами) будет отвергнута в пользу альтернативной. Увеличение статистической мощности при этом сильно зависит от увеличения выборки.
Если не вдаваться в подробности и просто изучить формулу расчета статистической мощности при заданном уровне значимости (том самом знаменитом p), то можно заметить, что в нее входит параметр SE (стандартная ошибка) — величина, показывающая стандартное отклонение среднего по выборке. Стандартная ошибка обратно пропорциональная величине выборки: с увеличением выборки уменьшается величина стандартной ошибки, что приводит к увеличению статистической мощности и позволяет с большей вероятностью отвергнуть нулевую гипотезу в пользу альтернативной.
Ученым не так часто удается собрать достаточное количество материалов для своего исследования, а огромные базы данных с разнообразной информацией о здоровье и жизни целых популяций начали появляться только недавно. При этом не все из них открыты: допустим, сотрудники психиатрической клиники, ежедневно ведущие прием и диагностирование, собирают данные о своих пациентах для того, чтобы в дальнейшем провести на его основе исследование внутри учреждения или совместно с каким-нибудь университетом.
Разумеется, выкладывать их в открытый доступ сразу же они не будут: этому может мешать как стремление защитить интеллектуальную собственность, так и бумаги, который подписывает пациент, соглашаясь эти данные предоставить. (Кстати, возможно, ваши данные также бороздят просторы научного мира, повышая статистическую мощность исследований. Но не волнуйтесь: обычно они используются при соблюдении полной анонимности.)
При этом постфактум, после публикации статьи, ученые охотно делятся данными, и именно этим пользуются авторы метаанализов. Прошерстив соответствующие разделы интернета (зачастую автоматически) и выудив из них несколько тысяч работ, в которых могла бы содержаться информация, позволяющая сформулировать определенную гипотезу (эта часть работы называется систематический обзор), они выберут те работы, которые подходят по всем критериям.
Подходить к отбору работ для метаанализа следует очень внимательно. Например, недавно ученые — как раз с помощью метаанализа — показали, что завтрак не так полезен для профилактики ожирения, как считалось раньше. Если рассмотреть схему отбора статей, представленную в этой работе, то можно заметить, что из более двух тысяч предварительно отобранных публикаций авторы оставили только 12, внимательно проследив за тем, чтобы в них использовалась одна методология и учитывались одинаковые зависимые и независимые переменные.
Результаты исследования показали, что люди, пропускающие завтрак, на деле теряют больше веса и потребляют меньше калорий. Тем не менее, его авторы предложили не спешить с громкими заявлениями, несмотря на то, что их метаанализ сильно увеличил статистическую мощность. Все дело в том, что им не удалось собрать большую выборку — в нее вошли чуть более чем полторы тысячами человек.
Какая выборка считается большой — это, впрочем, уже другой вопрос. Если дело касается медицинских вопросов, то чем она больше, тем лучше: например, в исследовании, посвященном «здоровому» уровню ожирения, приняли участие больше 50 тысяч человек. Обычно достаточность выборки проверяют с помощью теста на статистическую мощность, но большее количество участников напрямую указывает и на большее разнообразие данных.
Авторы работы также отметили, что все отобранные ими работы были ограничены небольшим количеством побочных переменных, которые так же, как пропуск или прием завтрака, могли влиять на итоговый вес участников исследований.
Именно поэтому, отмечают авторы (и мы с ними согласимся), главная цель их работы — показать, что статьи, посвященные определенной теме, на самом деле некачественные. И это еще один плюс метаанализа — он позволяет выявить достоинства и недостатки публикуемых работ. К примеру, метаанализ (а точнее — систематический обзор) более сотни научных работ, посвященных потреблению алкоголя, показал, что люди, в большинстве исследований считавшиеся трезвенниками, на самом деле пьющие, но в завязке.
Но если метаанализы так хороши, то в чем же проблема, о которой говорилось в начале? Она в том, что ученые, прибегающие к этому методу, чаще всего сосредотачиваются на количественной репрезентативности выборки, а не на качественной.
Так произошло и с работой о роли человека в исчезновении целых видов животных. Ее авторам удалось собрать репрезентативную выборку из более чем тысячи научных работ, опубликованных за последние 48 лет. В них в общей сложности шла речь о 42 тысяч животных 305 видов. Но если обратить внимание на карту распределения особей из этой выборки, легко заметить, что на ней полностью отсутствуют животные, распространенные на территории России, почти во всей Африке и Австралии. Большинство работ из выборки охватывают только Северную Америку, причем в основном США.
Да, такой метаанализ позволяет сделать вывод, что человек и вправду напрямую виноват в 28 процентах всех зарегистрированных случаев гибели диких животных, но не по всему миру. И это несмотря на огромную выборку. А все потому, что как бы эта выборка ни брала количеством, с качеством у нее все-таки не очень.
Мы не говорим, что выборка плохая: ученым удалось собрать множество данных о гибели животных самых разных видов и изучить результаты очень большого числа работ. В идеале им необходимо было бы расширить список стран и учесть факторы, способные повлиять на смертность диких животных в других местах (например, понятно, что в Африке охота на животных ведется чаще, чем вблизи крупных городов Европы). В этом случае у результатов исследования резко возросла бы внешняя валидность — и можно было бы сделать вывод, что сложившаяся ситуация наблюдается во всем мире.
Впрочем, следует уточнить, что как бы ни был хорош метаанализ для обобщения и подтверждения выводов научных исследований, а также для поиска недостатков и ограничений, все обобщить удается редко и даже хорошие метаанализы всегда будут чем-то пренебрегать. Так что читайте разделы Limitations внимательнее (как мы), относитесь ко всему критично (как мы) и будьте здоровы.