«Цифры врут»

Мнение редакции может не совпадать с мнением автора

Даже самые незначительные наши решения (во сколько лечь спать или как провести свободное время) связаны с числами и отсылают к измерениям, а те — к эмипирическим наблюдениям. Если соотнести их между собой, мы узнаем, как связаны некоторые явления, например, качество сна и употребление алкоголя. Но осторожно: работая с числами люди часто ошибаются. Об этих ошибках и о том, как их избежать, в книге «Цифры врут. Как не дать статистике обмануть себя» (издательство «Individuum»), переведенной на русский язык Натальей Шаховой, рассказывают научный журналист Том Чиверс и преподаватель экономики в Даремском университете Дэвид Чиверс. Предлагаем вам ознакомиться с фрагментом, посвященным ситуациям, когда связь между двумя явлениями объясняется наличием третьей переменной — искажающего фактора.

Искажающие факторы

В последние несколько лет не утихают споры о вейпинге. Большинство некоммерческих организаций по борьбе с табакокурением и онкологическими заболеваниями считают, что вейп помогает бросить сигареты, но некоторые люди уверены, что он вреден или приучает к курению. В 2019 году даже сообщалось: дети, которые курят электронные сигареты, с большей вероятностью начнут употреблять марихуану.

Это утверждение опиралось на статью из журнала JAMA Pediatrics, в которой рассматривалась 21 публикация и подводились их итоги. Такие публикации, где объединяются результаты других исследований, называются метаанализами. В этом метаанализе делался вывод, что вейпящие подростки 12–17 лет, в отличие от других сверстников, с большей — примерно в три раза — вероятностью начнут курить марихуану.

Мы только что обсуждали размеры эффекта — здесь он кажется реально большим. В следующей главе мы поговорим о том, как трудно выявлять причинно-следственную связь, но в данном примере точно есть повод для беспокойства.

Однако когда видишь сильную корреляцию между двумя явлениями, в данном случае вейпингом и употреблением марихуаны, стоит задуматься: нет ли еще чего-то третьего, коррелирующего с обоими? Это что-то называется искажающим фактором.

Вот пример, чтобы было понятнее. В мире наблюдается корреляция между долей смертей, связанных с ожирением, и объемом углекислого газа, ежегодно выделяемым в атмосферу.

Следует ли из этого, что углекислый газ делает людей толстыми? Вряд ли. Скорее дело в том, что мир богатеет, а становясь богаче, люди тратят больше денег и на высококалорийную пищу, и на товары и услуги, связанные с выделением углекислого газа, например автомобили и электричество. Если это учесть, станет понятным: никакой связи между выделением углекислого газа и ожирением, скорее всего, нет. Однако важную роль играет третья переменная — ВВП.

Другой классический пример — мороженое и утопленники. В те дни, когда растет продажа мороженого, тонет больше людей, хотя очевидно, что отдыхающие идут ко дну не из-за него. Просто мороженое приятно съесть в жаркий день, вот и продажи растут, и плавать тоже хорошо в жару, а плавание, к сожалению, иногда заканчивается утоплением. Стоит учесть влияние температуры — как говорят статистики, проконтролировать этот фактор, — и связь пропадет. То есть вы не увидите зависимости, если посмотрите на продажу мороженого и число смертей на воде только в холодные или жаркие дни.

Это важно, когда обсуждаешь размер эффекта. Иной раз кажется, что одна переменная сильно зависит от другой, как, например, курение марихуаны от вейпинга. Но подчас трудно определить, реальна ли эта связь или видимая зависимость объясняется влиянием какой-то третьей величины — искажающего фактора.

В исследованиях вейпинга, включенных в метаанализ, учитывались потенциально искажающие факторы: возраст, пол, раса, образование родителей, табакокурение, употребление наркотиков. В разных исследованиях рассматривались разные факторы. В некоторых статьях говорилось о более сильной связи. Например, в одной, где делались поправки на пол, расу и школьные отметки, была обнаружена очень сильная корреляция: вейперы почти в десять раз чаще курили травку.

Но есть еще один потенциальный искажающий фактор, не учитывающийся в большинстве исследований. Подростки по природе своей чаще тянутся к опасностям и острым ощущениям, чем мы, взрослые. Те из нас, кто был когда-либо подростком, наверняка помнят, как совершали явно нелепые поступки, которые нам в наши зрелые годы просто не приходят в голову. И курение травки, и вейпинг относятся к категории «рискованного поведения».

И, конечно, не все подростки одинаковы. Некоторые больше стремятся к риску. Вейпер вероятнее всего также курит табак, употребляет алкоголь и принимает наркотики. Вряд ли это кого-то удивит.

Интересно отметить, что в двух из рассмотренных исследований уделялось внимание чему-то подобному: в них делались поправки на тягу как личностную характеристику — «стремление к возбуждающим и новым поступкам» — и тягу к экзотике. Те, кто при опросе получают высокий балл по шкале «стремление к экзотике», чаще тянутся к экстремальным видам спорта и быстрой езде, не отказывают себе в алкоголе и наркотиках. (Нет ничего удивительного, что это достигает пика в период от подросткового возраста до начала третьего десятка и сильнее выражено у мужчин, чем у женщин.)

Результаты этих двух исследований отличаются от других. В одном из них вероятность того, что вейпер начнет курить травку, оказывается всего в 1,9 раз выше, что намного ниже результатов большинства остальных работ, а во втором корреляция вообще не обнаружена (даже отмечается легкий спад). Вероятно, то, что в них принималась во внимание тяга к экзотике, частично объясняет более низкие показатели.

Контроль потенциальных искажающих факторов позволяет точнее определить «подлинный» размер эффекта. Однако иногда трудно понять, учитывали ли вы все необходимое, контролировали ли вы то, чего контролировать не следовало, не пропустили ли что-то важное и не возникла ли у вас ошибка коллайдера, о которой мы поговорим в главе 21. Все это очень запутанно и сложно.

При этом мы вовсе не хотим сказать, что вейпинг никак не влияет на употребление марихуаны. Для такой связи есть несколько правдоподобных объяснений: например, авторы полагают, что под влиянием никотина развивающийся мозг еще больше тянется к экзотике. Может, это и верно, хотя такой эффект кажется неправдоподобно большим, тем более что мы от рождения по-разному относимся к новым ощущениям.

Однако помните общее правило: если в новостях пишут, что X связано с Y, не стоит думать, что из этого непременно следует, что X влечет Y или наоборот. Возможно, есть еще скрытое Z, которое вызывает и X, и Y.

Вам нет необходимости читать эту врезку, но, если вы хотите узнать, как работает статистическая регрессия, не пропускайте ее.

Вы могли уже слышать термин «статистическая регрессия». Звучит наукообразно, но обозначает простую вещь.

Предположим, мы хотим узнать, зависит ли рост людей от их веса. Возьмем большую случайную выборку населения, измерим рост и вес этих людей и разместим на графике: один человек — одна точка, откладывая по оси X рост, а по Y — вес. Таким образом, точки, представляющие более высоких людей, окажутся правее, а более толстых — выше. Очень низкие и худые — слева внизу, а высокие и тучные — справа вверху.

Посмотрим на график, чтобы понять, есть ли тут какая-то явная зависимость. Мы видим, что график ползет вверх — если кто-то выше, он, скорее всего, и толще. Это называется позитивной связью (или позитивной корреляцией) — попросту говоря, когда увеличивается одно, другое тоже тяготеет к росту. А если одно растет, а другое уменьшается, то их связь называется негативной. Если точки разбросаны повсюду без ярко выраженной зависимости, мы считаем, что связи нет.

Теперь предположим, что мы хотим провести через точки линию, чтобы показать эту связь. Как это сделать? Можно рисовать на глаз, и даже вполне успешно, но есть более математически точный способ — метод наименьших квадратов.

Предположим, мы нарисовали на графике прямую. Часть точек окажется прямо на ней, но большая часть будет выше или ниже. Расстояние каждой точки до прямой по вертикали — это «ошибка», или «остаток». Возьмем значение каждого остатка и возведем в квадрат (то есть умножим само на себя, что решит проблему отрицательных чисел: число, умноженное само на себя, всегда дает положительный результат), а потом все их сложим. Это число называется остаточной суммой квадратов.

Линия с наименьшей остаточной суммой квадратов называется линией лучшей подгонки. Для приведенного выше графика она будет выглядеть так:

Эта линия позволяет делать прогнозы, и они тем точнее, чем меньше остатки (меньше сумма их квадратов). Если мы измеряем рост и вес любого нового человека, мы ожидаем, что соответствующая точка окажется вблизи этой линии. Зная чей-то рост, мы можем предсказать его вес. Например, судя по графику, 182-сантиметровый человек вероятнее будет весить 76 кг. (Можно действовать и наоборот: зная вес, можно угадать и рост. Но тогда линию надо проводить немного иначе, измеряя ошибки по горизонтали; не стоит сейчас в это углубляться.)

Стоит отметить, что по одному росту трудно точно предсказать вес. Уточнить его помогут дополнительные параметры: много ли вы занимаетесь спортом, много ли пьете, много ли пирогов съедаете в неделю. Учтя все эти переменные, вы получите более ясную картину влияния роста на вес. Это будет контролирование других переменных, о котором мы говорили в этой главе. Если не учитывать искажающие факторы, то можно переоценить или недооценить корреляцию или найти ее там, где ее на самом деле нет.

Copyright © Tom Chivers and David Chivers 2021

Подробнее читайте:
Чиверс, Т., Чиверс, Д. Цифры врут. Как не дать статистике обмануть себя / Том Чиверс, Дэвид Чиверс [пер. с английского Натальи Шаховой]. — М. : Individuum, 2022. — 224 с.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.