«Полный бред! Скептицизм в мире больших данных»

Если кто-то подкрепляет утверждения затейливыми терминами, цифрами и красивыми графиками, это еще не значит, что ему можно доверять. Статистика и язык точных наук могут быть всего лишь инструментами, призванными скрыть обман. Тот, кто умеет анализировать и перепроверять информацию, скорее всего, заметит подвох — остальные рискуют попасться в ловушку. В книге «Полный бред! Скептицизм в мире больших данных» (издательство «Манн, Иванов и Фербер»), переведенной на русский Елизаветой Пономаревой, ученые Карл Бергстром и Джевин Уэст рассказывают, как распознать чушь (в оригинале — bullshit) и почему для этого совсем не обязательно быть специалистом, а достаточно воспользоваться обыкновенной логикой. Предлагаем вам ознакомиться с фрагментом, посвященным «ошибке прокурора» и уровню значимости (p-value).

Ошибка прокурора

Как мы видели, в большинстве научных исследований ищут закономерности в данных, позволяющие делать выводы о мире. Но как отличить закономерность от случайного шума? И как определить, насколько она значима? Существует несколько способов это сделать, и самый распространенный — это использование р-значения. Грубо говоря, р-значение указывает, насколько вероятно, что наблюдаемая закономерность возникла по чистой случайности. Если это маловероятно, то мы можем сказать, что результат статистически значим. Но что это на самом деле означает и как нам трактовать р-значение? Мы ответим на эти вопросы с помощью короткой истории.

Представьте, что вы известный адвокат, который защищает скромного биолога, обвиняемого в самом поразительном похищении предмета искусства в современной истории.

Это сенсационное преступление. Богатая собирательница отправила частную коллекцию из тридцати шедевров европейского искусства на охраняемом поезде из своего особняка в Санта-Кларе в аукционный дом в Нью-Йорке. Когда поезд достиг пункта назначения, коробки отнесли в аукционный дом для распаковки. Путешествие прошло без происшествий, и к коробкам, на первый взгляд, никто не прикасался. Но, к всеобщему ужасу, четыре самые ценные картины были вырезаны из рам и исчезли! Ни полиция, ни страховая компания не нашли ни единой улики, не считая единственного отпечатка пальца на раме одной из пропавших работ. Украденные шедевры так никогда и не отыскали.

При отсутствии каких-либо иных наметок полиция прогнала от печаток пальца через огромную базу данных ФБР и нашла совпадение — отпечаток вашего клиента. (Он сдал свои отпечатки Администрации транспортной безопасности в обмен на возможность проходить досмотр в аэропорту, не снимая ботинок.) На допросе выяснилось, что у вашего клиента нет алиби. Он утверждает, что ни с кем не контактировал две недели, пока выслеживал окольцованную куропатку в горах Высокая Сьерра в рамках научного проекта.

Несмотря на отсутствие алиби, вы уверены, что ваш клиент не может быть виновен. Он всего лишь застенчивый ученый, а не хладнокровный похититель шедевров. У него уже есть два гранта NSF на исследование размножения куропаток, и, похоже, он не нуждается в дополнительных источниках дохода. К тому же, насколько вы заметили, он ни черта не понимает в искусстве; да что там, он считает, что Донателло — это черепашка-ниндзя.

Тем не менее начинается судебный процесс, и вы сталкиваетесь с блестящей молодой звездой прокуратуры. После описания всех остальных доказательств вины вашего клиента — слабых и косвенных — прокурор переходит к своему козырю, отпечатку пальца. Прокурор рассказывает присяжным, как именно компьютер сопоставляет отпечатки пальцев, и завершает свое выступление словами: «Нет абсолютно никаких шансов случайного совпадения настолько идентичных отпечатков».

Вы опровергаете его заявление: «По вашим словам, нет абсолютно никаких шансов настолько точного совпадения. Но так не бывает. В каждом тесте есть по крайней мере небольшой шанс ошибки». — «Конечно, — уступает он, — в принципе, тесты могут ошибаться. Но на практике шанс, что это случится, нулевой. Исследования ФБР показывают, что существует один шанс на десять миллионов, что два отпечатка совпадут настолько же точно. Один на десять миллионов — тут нет места сомнениям!»

Именно этого вы и ждали. Вы обращаетесь к присяжным и рисуете таблицу на три строки и два столбца на большом листе бумаги. Выглядит она примерно вот так.

«Я думаю, все мы согласны, что это преступление было кем-то совершено. И давайте также предположим, что отпечатки виновного есть в базе данных. Может быть, и нет, — обращаетесь вы к прокурору, — но это ослабит ваши доказательства. Так что давайте предположим, что они есть в базе». Прокурор кивает. «Тогда таблица должна выглядеть примерно вот так». Вы заполняете верхний ряд большим красным маркером.

Повернувшись к прокурору, вы интересуетесь: «Сколько человек включены в эту вашу базу ФБР?» Он перебивает вас: «Возражение, Ваша честь! Какое отношение это имеет к делу?» — «В этом и есть вся суть дела, — объясняете вы. — Я убежден, что объясню это все в течение следующих нескольких минут». — «Возражение отклонено». Сторона обвинения признается, что, если учесть все отпечатки пальцев преступников в США, все отпечатки гражданских лиц, полученные при проверке их биографий, и все отпечатки из базы Администрации транспортной безопасности, в базе представлено приблизительно пятьдесят миллионов американцев. И конечно, большинство отпечатков в базе не совпадают с тем, что найден на раме.

«Итак, теперь мы можем заполнять таблицу дальше», — говорите вы и вписываете число 50 000 000 в нижний правый угол.

Теперь вы указываете на нижний левый угол (это невиновные люди, чьи отпечатки тем не менее совпадут с найденным) и спрашиваете: «Как вы думаете, что нужно вписать сюда?»

Вы смотрите прямо на прокурора. «Вы сказали, что существует один шанс на десять миллионов, что алгоритм нашел неправильное совпадение. Это значит, что среди пятидесяти миллионов человек в этой базе должно быть примерно пять, чьи отпечатки совпадают с найденным и на месте преступления. Так что давайте заполним таблицу следующим образом»

«Взгляните сюда, — оборачиваетесь вы к присяжным, — обвинитель пытается отвлечь вас, привлекая ваше внимание к этим числам». Вы показываете на нижний ряд. «Существует один шанс из десяти миллионов случайно встретить совпадение. Но это не имеет отношения к тому, чем мы занимаемся сейчас в зале суда. Нам не важно, каков шанс найти совпадение, если мой клиент невиновен. Мы уже знаем, что нашли совпадение».

«Давайте выясним, каковы шансы, что мой клиент не виновен, учитывая то, что мы нашли совпадение». Теперь вы показываете на левую колонку. «Это совершенно другой вопрос, и его иллюстрирует левая колонка таблицы. Мы предполагаем, что в этой базе есть около пяти невиновных людей и один виновный. Так что, поскольку есть совпадение, существует один шанс из шести, что мой обвиняемый действительно совершил преступление». — «Теперь я без тени сомнения могу настаивать, что мой клиент не виновен. Все, что у меня есть, — это его рассказ о том, что он следил за... как там, черт подери, эту птицу? Неважно. Суть в том, что мне не нужно доказывать, что мой клиент не виновен. Здесь, в Америке, он не виновен до тех пор, пока не признан виновным, а стандартом доказательства вины является отсутствие “места для сомнений”. Но если в пяти случаях из шести есть шанс, что мой клиент не совершал преступления, то мы явно даже не приблизились к стандарту. И вы должны вынести оправдательный приговор».

В истории, которую мы только что рассказали, ваш аргумент — не софистика. Это правда. Если вашего клиента нашли, всего лишь просматривая базу ФБР, пока не нашлось совпадение, то получается, что в пяти случаях из шести есть шанс, что это действительно не его отпечаток пальца*.

*
Прим. авт.


Вы и прокурор говорили о разных условных вероятностях. Условная вероятность — это вероятность события, есть учитывать иную информацию. Обвинитель спрашивал, каков шанс, что совпадение неверно, учитывая, что невиновный человек выбирается случайным образом**. Мы можем записать это как P(совпадение|невиновен). Вы спрашиваете об обратном: каковы шансы, что ваш клиент невиновен, учитывая, что существует совпадение, которое мы запишем как P(невиновен|совпадение). Люди часто предполагают, что две эти вероятности должны быть одинаковыми, но это не так. В нашем примере P(совпадение|невиновен) = 1/10 000 000, а P(невиновен|совпадение) = 5/6.

**
Прим. авт.

Это заблуждение так распространено, что у него появилось собcтвенное название — ошибка прокурора. Наша история объясняет почему. В зале суда она может быть вопросом жизни и смерти, но это распространенный источник заблуждений при интерпретации данных научных исследований.

Когда Карл был ребенком, они с друзьями надеялись, что у них могут быть тайные способности, так что пробовали экспериментировать с чтением мыслей и экстрасенсорными способностями. Как то раз он взял колоду карт, тщательно ее перетасовал и попросил друга по очереди переворачивать карты. Карл пытался угадывать масть каждой следующей невидимой ему карты. Он был безнадежен, крайне далек от 100 процентов и быстро сдался. Но допустим, что мы решили сегодня вспомнить и проанализировать результаты этого маленького эксперимента. Не обязательно добиваться стопроцентного совпадения, чтобы предположить, что происходит нечто интересное. Мастей всего четыре, так что можно предположить, что вы будете угадывать один раз из четырех. Если вместо этого вы будете угадывать одну карту из трех, значит, случилось что-то необычное. Но неочевидно, насколько чаще, чем один раз из четырех, должен угадывать масти Карл, чтобы можно было предположить, что у него это получается чаще, чем при случайном выборе. Предположим, он угадал масти 19 из 52 карт. Это больше, чем мы ожидали. В среднем он должен был попасть в цель только 13 раз. Хватит ли нам 19 вместо 13, чтобы назвать это существенным результатом?

Вот тут нам и приходит на помощь p-значение. Мы можем представить нашу задачу в попытке сделать различие между двумя гипотезами. Первая — назовем ее нулевая гипотеза и запишем как Н0 — заключается в том, что Карл угадывает карты случайно. Вторая — назовем ее альтернативная гипотеза и обозначим как Н1 — состоит в том, что Карл способен угадывать масти карт чаще, чем при случайном выборе. В нашем случае p-значение говорит нам о том, насколько часто Карл правильно угадает 19 или более карт. Мы можем использовать методы теоретической статистики, чтобы вычислить подходящее p-значение. В данном случае оказывается, что шанс, что кто-то сделает это случайно***, составляет 4,3 процента. Так что мы скажем, что р-значение равно 0,043.

***
Прим. авт

Итак, угадывая случайным образом, в 95,7 процента случаев вы не сможете точно назвать 19 карт. Но тут важно заметить: это не означает, что мы на 95,7 процента уверены в ошибочности Н0. Это две очень разные гипотезы, как и в случае с теми, что мы рассмотрели в деле о краже картины.

В судебной драме обвинительница привлекла внимание присяжных к вероятности случайного совпадения в случае, если клиент невиновен: один на десять миллионов. Это все равно что угадать 19 или больше карт по случайности. Но в суде мы уже знали, что отпечатки нашего клиента совпали, и в эксперименте с экстрасенсорными способностями мы уже знаем, что Карл угадал 19 карт. Так что это не та вероятность, которую мы высчитываем. Мы хотим узнать, чему верить после того, как провели эксперимент. В суде мы хотели определить вероятность того, что наш клиент виновен, учитывая уже имеющееся совпадение. Чтобы оценить результаты эксперимента по чтению мыслей, мы хотим узнать вероятность того, что за удачу Карла отвечает что-то помимо случайности.

Вот в чем грязный секрет p-значения в науке. Когда ученые сообщают о нем, они делают примерно то же, что делает прокурор, говоря о шансе совпадения отпечатков невинного человека со следами с места преступления. Ученые хотят узнать вероятность того, что их нулевая гипотеза неверна с учетом данных, которые получили. Но это как раз не p-значение. Оно оценивает возможность добиться данных как минимум настолько же необычных, как те, что они собрали, если бы нулевая гипотеза была верна. В отличие от прокурора, ученые не пытаются никого ввести в заблуждение. Они вынуждены использовать p-значение, потому что у них нет хорошего способа подсчитать вероятность альтернативной гипотезы.

Мы можем проиллюстрировать это следующей таблицей. Присяжные хотят знать, какова вероятность того, что обвиняемый невиновен, учитывая совпадение.

Это вопрос сравнения вероятностей в выделенном вертикальном овале. Вместо этого прокурор говорит им о вероятности совпадения, если обвиняемый не виновен. Это сравнение в светлом горизонтальном овале. С научными p-значениями происходит то же самое. Мы хотим знать, какова вероятность того, что экстрасенсорных способностей не существует, если Карл угадал как минимум 19 карт правильно. Закрашенный вертикальный овал иллюстрирует это сравнение. Но вместо этого мы говорим о вероятности того, что Карл угадает как минимум 19 карт, если экстрасенсорных способностей у него нет. Это сравнение представлено в незакрашенном горизонтальном овале.

Почему так сложно вычислить вероятность альтернативной гипотезы? Вероятность зависит от того, насколько мы верили в нее до проведения эксперимента, а люди редко имеют единое мнение по этому вопросу. Представьте себе альтернативное объяснение случайной удаче.

H1а. На самом деле экстрасенсы существуют, но, несмотря на годы поисков, оккультисты, эзотерики и даже ученые так и не смогли найти этому доказательств, пока двое ребят не пришли и не провели эксперимент с картами в гостиной пригородного дома в Анн-Арбор, штат Мичиган, в конце 1970-х годов.

Насколько вероятной вы считали гипотезу H1а до того, как узнали, что Карл точно угадал 19 из 52 карт? Один шанс на миллион? Один на миллиард? Один на триллион? Точно крайне маловероятной. Поэтому, даже если вы узнаете, что он верно угадал 19 из 52 карт, у вас мало оснований верить, что H1 правильна. Вероятность того, что Карл и его друг были первыми людьми, доказавшими существование телепатии, исчезающе мала, в то время как почти пятипроцентные шансы правильно угадать 19 карт случайным образом куда выше.

Но представьте, что вместо этого мы рассмотрим другую альтернативную гипотезу, почему Карл угадал так много карт.

H1b. Друг Карла хотел, чтобы тот поверил в телепатию, поэтому он иногда говорил, что Карл угадал правильно, даже если это было не так.

Если бы вы были знакомы с другом Карла (который жульничал во всем — от баскетбола до пасьянса «Косынка»), то почти наверняка предположили бы, что он совершил что-то в этом роде. В таком случае, узнав, что Карл угадал 19 карт, вы бы сказали: «Ага, Арни, видимо, соврал по поводу счета». Суть в том, что условная вероятность альтернативной гипотезы — ее вероятность после того, как мы получили данные, то есть P(H1|данные) — зависит от вероятности альтернативной гипотезы до того, как мы получили данные, а это очень сложно взять, измерить и включить в научную работу. Поэтому мы, ученые, делаем то, что можем, вместо того, что хотим. Мы докладываем о Р (данные как минимум настолько необычные, насколько нам удалось собрать | H0) и именно это и называем р-значением.

Так какое отношение все это имеет к чуши? Что ж, иногда даже ученые путаются в том, что такое р-значение. Более того, по мере того как результаты научных работ попадают из научных журналов в пресс-релизы, газеты, журналы, телевизионные передачи и т. д., р-значение все чаще описывают неточно. Например, в 2012 году ученые, используя Большой адронный коллайдер под Женевой, добились превосходных результатов, которые подтверждали существование бозона Хиггса — элементарной частицы, которую давно предсказали, но никогда непосредственно не наблюдали. Рассказывая об этом, журнал National Geographic сообщил, что ученые «более чем на 99 процентов уверены, что они обнаружили бозон Хиггса — Божественную частицу — либо совершенно новую частицу именно там, где они ожидали найти бозон». На самом деле в заметке должны были написать, что р-значение эксперимента составило 0,01. Результаты, полученные с помощью Большого адронного коллайдера, с вероятностью в 1 процент могли возникнуть по случайности, даже если бы бозон Хиггса существовал. Это не значит, что ученые на 99 процентов уверены в том, что он реален. В случае с бозоном Хиггса уже были убедительные поводы предполагать, что он существует, и это было последовательно подтверждено. Но не всегда складывается так****. Важно помнить, что крайне маловероятная гипотеза остается таковой даже после того, как кто-то добивается результатов эксперимента с очень низким р-значением.

****
р
р
р
Прим. авт.

Подробнее читайте:
Бергстром, К. Полный бред! Скептицизм в мире больших данных / Карл Бергстром, Джевин Уэст ; пер. с англ. Елизаветы Пономаревой ; [науч. ред. Н. Чеботкова]. — Москва: Манн, Иванов и Фербер, 2022. — 376 с. — (Мир больших данных)