Магия чисел: что можно сказать о вакцине по пресс-релизам

После того, как компания Pfizer выпустила пресс-релиз с предварительными итогами испытаний своей вакцины от коронавируса, на бирже рухнули акции Zoom и Netflix, Евросоюз собрался закупить 300 миллионов доз новой вакцины, а российский Центр имени Гамалеи вскоре сообщил, что у его вакцины эффективность даже выше. Весь этот шум наделали три числа: 90, 94, 164. Рассказываем, откуда они взялись, что означают и какие числа на самом деле нужны, чтобы перестать считать и начать колоть.

Что такое эффективность?

Одна из первых цифр, которая попадается на глаза, когда мы открываем пресс-релиз — совсем не та, которой положено бы радоваться. Это количество людей, заболевших COVID-19 в рамках клинических испытаний. Тем не менее, она означает, что у исследователей наконец-то появился материал, с которым можно работать — сравнивать долю заболевших в группе вакцины и группе плацебо.

По результатам этого сравнения организаторы испытаний подсчитывают эффективность вакцины. Для этого они делят долю заболевших в группе вакцины на долю заболевших в группе плацебо, вычитают результат из единицы и умножают на 100 процентов.

Э = (1 — (кейсы вакцина) / (всего вакцинированных) / (кейсы плацебо) / (всего плацебо)) × 100%

Например, если в эксперименте участвовали две группы по 100 человек, и в группе вакцины заболели пятеро, а в группе плацебо — десять человек, то эффективность получится:

Э = (1 — 5/100 / 10/100) × 100% = (1 — 0,5) × 100% = 50%

Правда, скудные данные, которые фигурируют в пресс-релизе, не позволяют произвести такой расчет. Тем, кто хочет понять, как соотносятся количества заболевших в разных группах в ходе испытаний вакцины Pfizer, приходится считать в обратную сторону. Дело в том, что в пресс-релизе указано только общее число кейсов — 94, и рассчитанная на их основе эффективность — «более 90 процентов».

Если считать по классической формуле, то получится, что в группе вакцины и плацебо заболели 9 и 85 человек соответственно (при этом неважно, сколько человек было в группах, поскольку в релизе указано, что их равное количество):

(1 — 9/85) × 100 ≈ 90

Тем не менее, не исключено, что сами специалисты из Pfizer вычисляли эффективность своей вакцины по-другому. Дело в том, что в своих расчетах они — если верить их протоколу испытаний — обещали использовать байесовскую статистику. Она требует более сложных вычислений, зато позволяет рассматривать события (то есть случаи заболевания в ходе испытания) как потенциально связанные, а не как независимые. И если принять, что цифру в 90 процентов они получили в ходе байесовских вычислений, то количество заболевших в группе вакцины оказывается еще меньше — всего 7 или 8.

Откуда эти цифры?

При байесовском анализе эффективность вакцины вычисляют не напрямую. Сначала рассчитывают значение величины θ (тета), которая отражает байесовскую вероятность того, что при полученных числах заболевших в двух группах вакцина может все равно быть неэффективна. Формула для ее расчета, согласно протоколу Pfizer, выглядит так:
θ = α / (α + β),
где α = 0,700102 + v (число заболевших в группе вакцины),
а β = 1 + c (число заболевших в группе плацебо).
Потом уже на основе рассчитанной θ можно вычислить собственно эффективность:
Э = (1 — 2θ) / (1 — θ) × 100
Коэффициенты 0,700102 и 1 подобраны таким образом, чтобы, если в обеих группах никто не заболел (c и v равны нулю), то рассчитанная эффективность была немногим меньше 30 процентов, то есть порога, до которого Pfizer не готовы считать свою вакцину эффективной.
Если подставить в эти формулы данные пресс-релиза, то мы получим следующее.
0,9 = (1 — 2θ) / (1 — θ),
отсюда θ = 0,09.
0,09 = 0,700102 + v / 0,700102 + v + 1 + c
С учетом того, что v + c = 94, мы получаем v = 7,9
Таким образом, количество заболевших в группе вакцины может быть 7 или 8 человек, тогда в группе плацебо — 87 или 86 соответственно.

Для вакцины Центра имени Гамалеи этот расчет воспроизвести гораздо сложнее. Исходный набор данных в их релизе не богаче, чем у Pfizer: 92 процента эффективности и 20 кейсов заболевания. Однако мы не знаем, как именно организаторы клинических испытаний «Спутника» предполагают рассчитывать эффективность — по крайней мере, в официальном протоколе ничего об этом не сказано. Если предположить, что они пользуются классической формулой, то получится

Отсюда v ≈ 1,5.

То есть соотношение заболевших получается 1-2 против 18-19. Тем не менее, эти цифры справедливы только в том случае, если группы равного размера. А организаторы испытаний «Спутника» изначально планировали их неравноценными — 3 : 1 в пользу группы вакцины. А поскольку для оценки эффективности необходимо учитывать не абсолютное количество кейсов, а долю их в группе, то формула изменится и будет выглядеть так:

92 = (1 — (v / 3x) / ((20 — v) / x)) × 100,

где x — размер выборки (для этого расчета он неважен)

Тогда v ≈ 4, а соотношение заболевших — 4 против 16.

Таким образом, если мы не знаем ни протокол расчета, которым пользуются испытатели «Спутника», ни соотношение между группами (а судя по пресс-релизу, в ходе испытаний пока вакцинировали меньше людей, чем рассчитывали), точных значений мы получить не можем.

Интервал доверия

Но даже опираясь на то, что уже есть, стоит ли нам верить такой оценке эффективности? Может же быть такое, что в какой-нибудь из групп совершенно случайно оказались лишние заболевшие, испортили (или, наоборот, приукрасили) всю картину испытания и уронили акции Netflix?

Чтобы избежать такого рода ошибки, исследователи рассчитывают еще один, страховочный параметр — доверительный интервал. Это разброс значений, в который попадет полученная ими величина в заданном проценте экспериментов — например, в 95 случаях из 100, если бы была возможность повторить испытания 100 раз подряд. Иными словами, при эффективности вакцины в 90 процентов доверительный интервал может быть как узким (скажем, 85-95), так и широким (30-99) — что позволит нам сделать вывод о точности и правдоподобности результата.

В пресс-релизе Pfizer доверительный интервал не указан. Однако его можно рассчитать по классическим статистическим формулам. Это проделали, например, пользователи сайта R-bloggers.com — и получили следующий интервал: от 80,8 до 95,5. Экспериментаторы попадут в этот интервал в 95 случаях из 100 — то есть практически наверняка. Это значит, что даже если какие-то из заболевших оказались в выборке Pfizer случайно и не отражают общей картины в популяции, то вакцина все равно эффективна по меньшей мере на 80 процентов.

Если по той же формуле рассчитать доверительный интервал для результатов «Спутника» (предположим, что из 16 000 людей, которые уже вакцинированы, 4 000 получили плацебо, а 12 000 — настоящую вакцину), получится совсем другая картина: от 75 до 97 процентов. Этот доверительный интервал шире, а значит, у испытателей больше шанс промахнуться с эффективностью.

Почему так вышло? Здесь в дело вступает размер выборки, который входит в формулу для расчета доверительного интервала. Чем больше у нас было шансов обнаружить или не обнаружить заражение, тем выше доверие к нашему результату. Но выборка у «Спутника» почти в 3 раза меньше, чем у вакцины Pfizer, поэтому неудивительно, что она дает такой результат. Чтобы получить надежные данные, нужно либо собрать много людей сразу, либо растянуть испытания. Первое дорого, второе нереалистично в условиях пандемии. Приходится выбирать — между мучительным ожиданием, затратами и доверием.

Когда перестать считать?

В какой момент испытатели вакцины имеют право остановиться и сказать, что им не нужно набирать больше испытуемых, а можно переходить к окончательным выводам? Это определяют по третьей ключевой цифре — пороговому количеству кейсов. Это то число заболевших, которое достаточно для того, чтобы получить результат с заданной точностью.

В своем протоколе Pfizer установила 5 таких порогов: в 32, 62, 92, 120 и 164 кейса. Для каждого этапа исследователи рассчитали соотношение заболевших, при котором вакцину можно счесть однозначно успешной или однозначно провальной. Например, в точке 92 соотношение 25 : 67 даст эффективность 62,7 процентов, а 35 : 57 — всего 38,6 процентов, что должно послужить поводом остановить испытание.

Это пороговое значение и служит тем фундаментом, на котором строится весь дизайн испытания вакцины. После того, как Pfizer определил для себя цифру в 164 кейса за полгода испытаний, стало ясно, какую выборку нужно собрать, чтобы их заведомо получить. Исследователи взяли показатель заболеваемости COVID-19 в 1,3 процента населения в год и предположили, что около 20 процентов испытуемых или данных о них «потеряется» (отсеется) по ходу работы. Исходя из этого, они высчитали целевой размер выборки в 43 998 человек — и приступили к набору добровольцев.

Организаторы испытания рассчитывали получить 164 случая заболевания за полгода, но дело неожиданно пошло быстрее. После совещания с FDA было решено порог в 32 пропустить и оценивать результаты только после 62 кейсов. Однако к предполагаемому моменту подведения промежуточных итогов случаев болезни набежало уже 92. Возможно, свою роль сыграла осень — исследователи оценивали заболеваемость по летним показателям, но осенью они подскочили, и нужную планку удалось взять быстрее. Теперь у Pfizer есть больше половины нужных кейсов, а значит, есть шанс закончить испытания досрочно — что, возможно, было одним из факторов, укрепивших веру Евросоюза в близость долгожданной вакцины и обрушивших акции Zoom. Кроме того, соотношение 7-9 к 87-85 уже заведомо превышает установленный Pfizer порог доверия к собственным данным.

В протоколе «Спутника» ни о каком пороговом количестве заболеваний речи не идет (там указан только срок — шесть месяцев с момента первой дозы, когда должен быть подсчитан процент заболевших среди участников испытаний). Но можно предположить, что число кейсов в этом испытании должно быть не меньше, чем у Pfizer — если хотеть достигнуть той же достоверности и эффективности. К тому же, теперь на пятки «Спутнику» наступает еще и вакцина от Moderna: после заявления Pfizer представители компании рассказали, что они планировали промежуточный анализ своей третьей фазы после 53 кейсов, но у них уже «существенно больше».

Сколько надо эффективности?

Судя по тому, как развивается гонка, в обозримом будущем свои испытания закончат сразу несколько компаний — и на рынке окажутся несколько вакцин с разной эффективностью и разной степенью доверия. Хотелось бы, конечно, чтобы будущие вакцины от коронавируса работали (то есть предотвращали заболевание) на 100 процентов, но это едва ли достижимо. Так не произошло ни с одной из известных нам вакцин: та, что позволила победить натуральную оспу, защищала только 95 процентов привитых. Современные вакцины от кори работают на 97 процентов, а вакцины от гриппа — всего на 40-60 процентов, и чаще скорее снижают тяжесть заболевания, чем предотвращают его.

В этом нет вины производителей вакцин. Не у всех людей иммунная система с одинаковой силой реагирует на прививку и производит нужное количество антител, чтобы сформировать защиту. Тем не менее, даже 50-процентная эффективность могла бы существенно помочь в деле борьбы с пандемией — с учетом того, что коллективный иммунитет и так постепенно формируется за счет переболевших коронавирусной инфекцией людей. Поэтому американская FDA согласилась одобрить вакцину, которая покажет эффективность хотя бы в 50 процентов, а Pfizer установила 60 процентов как нижний порог.

Поэтому даже если некоторые из новорожденных вакцин окажутся не самыми эффективными, в этом не будет большой беды. Все они так или иначе внесут свой вклад в строительство мировой «стены» от коронавируса. Другое дело — что все расчеты, которые мы приводили выше, позволяют учесть только случайные ошибки, то есть не связанные друг с другом ситуации, когда конкретный диагноз поставлен неверно. В этих формулах нет места систематическим и методическим ошибкам. И если организаторы эксперимента будут использовать, скажем, некачественные ПЦР-тесты или решат ставить диагноз COVID-19 только людям, которые оказались в больнице, то все наши рассуждения о точности и достоверности даже тех скудных данных, которые можно почерпнуть из пресс-релизов, окажутся бесполезны.

Поправка

В первоначальной версии текста мы привели другой результат расчета доверительного интервала для российской вакцины. Он был гораздо шире, но расчет оказался неверен. Редакция благодарит Александра Ермакова, который указал нам на ошибку.

Автор благодарит за консультации Антона Барчука