О чем говорят «разоблачения» научных результатов, оказавшихся невоспроизводимыми
К числу наук, чьи экспериментальные результаты оказались в значительном числе случаев не воспроизводимыми, добавились социальные: большая группа европейских и американских ученых смогла достоверно воспроизвести результаты чуть больше половины из двух десятков статей, опубликованных в престижных научных журналах. Свидетельствует ли это о кризисе социальных наук, научной экспертизы, принятой в западных журналах, или даже самого научного метода? Ни то, ни другое, ни третье, полагают ученые: проверка, перепроверка и устранение ошибок — самые стандартные научные процедуры.
Люди, которые читают художественную литературу, лучше определяют эмоции других людей, чем те, кто предпочитает нонфикшн. Шансы соискателя получить работу выше, если рекрутер изучает его резюме, прикрепленное к тяжелому, а не легкому планшету. Люди предпочитают провести 12 минут, смотря телевизор или читая книгу, а не наедине с собственными мыслями. Чем больше представляешь себе, как ешь какое-то блюдо, тем меньше съешь, когда тебе это блюдо подадут.
Это все не просто какая-то житейская мудрость (или глупость) — это научные гипотезы, выдвинутые социологами. Гипотезы прошли серьезную экспериментальную проверку и подтвердились, о чем имеются публикации в очень престижных научных журналах.
Большая международная группа ученых во главе с психологом Брайаном Нозеком из Виргинского университета взялась перепроверить 21 социологическое исследование (в том числе четыре вышеперечисленных). Все проверяемые работы были опубликованы в двух самых авторитетных научных журналах мира — Nature и Science — с 2010 по 2015 год. Результаты перепроверки опубликованы в журнале Nature Human Behaviour.
Нозек и его коллеги повторяли эксперименты, описанные в проверяемых статьях. Оказалось, что эффекты, обнаруженные в оригинальных исследованиях, при перепроверке наблюдаются лишь в 62 процентах случаев. Величина наблюдаемых эффектов при повторных экспериментах оказалась в среднем вдвое меньше, чем в оригинальных исследованиях. Попросту говоря, большинство гипотез либо вовсе не прошли перепроверку, либо прошли с существенными оговорками.
Этот результат не стал неожиданностью. Еще в 2015 году Нозек с коллегами провели грандиозную перепроверку 98 психологических исследований — и лишь в 36 случаях повторные эксперименты дали результаты, сходные по статистической значимости с оригинальными. В 2016 году те же ученые перепроверяли 18 экономических исследований — и обнаружили, что эффекты, описанные в оригинальных исследованиях, повторяются лишь в 11 случаях, а средняя величина воспроизводимого эффекта — 66 процентов. В 2017 году в Economic Journal вышла статья, в которой утверждалось, что 159 работ по экономике основаны на эмпирических данных, которые даже близко не имеют статистической мощности, необходимой для подкрепления сделанных выводов.
Еще в 2005 году медик и статистик Джон Иоаннидис, один из авторов статьи в Economic Journal, опубликовал в журнале PLOS Medicine статью под говорящим заглавием «Почему большинство научных публикаций недостоверны». В подтверждение этого заявления он перепроверил 49 высокоцитируемых медицинских исследований — и обнаружил, что в подавляющем большинстве случаев результаты не воспроизводятся вовсе или гораздо менее выражены, чем утверждалось в оригинальных работах.
Большая доля ошибок в научных публикациях — не беда, пока речь идет об исследованиях влияния художественной литературы на способность к эмпатии или массы планшета на отношение рекрутера к соискателю. Цена ошибок оказывается значительно выше, когда дело касается онкологических и других медицинских исследований. Но даже если оставаться в пределах социологии и психологии, исследовательский брак может иметь серьезные последствия.
Все, наверное, слыхали об эксперименте Милгрэма. Его провел йельский психолог Стэнли Милгрэм в 1963 году. В эксперименте участвовали двое испытуемых. Один из них («ученик») должен был заучивать пары слов из длинного списка, а второй («учитель») — проверять его и за каждую ошибку давать ему удар током (испытуемым говорили, что это исследование влияния боли на память). С каждой ошибкой «ученик» получал все более сильный разряд, так что с какого-то момента он начинал дергаться, кричать и просить прекратить. Если «учитель» начинал волноваться, сидящий рядом экспериментатор успокаивал его и настаивал на продолжении. Из 40 «учителей» 26 (65 процентов), руководствуясь указаниями экспериментатора, оказались готовы дать «ученику» смертельный удар током под напряжением 450 вольт.
На самом деле «ученик» был подсадным, никаких ударов током не получал и только притворялся, а настоящей целью исследования было выяснить, как далеко готов зайти человек, подчиняясь авторитету (в данном случае — экспериментатору). Главный вывод Милгрэма заключался в том, что человек по природе конформист и способен на чудовищные вещи, если ему дадут соответствующее распоряжение.
Или вот другое, не менее знаменитое психологическое исследование — Стэнфордский тюремный эксперимент, проведенный в 1971 году Филиппом Зимбардо. В подвале Стэнфордского университета он оборудовал «тюрьму», в которой одна группа добровольцев играла роли «заключенных», а другая — «охранников». За считанные дни игра вышла из-под контроля: «охранники» стали на полном серьезе истязать «заключенных», а «заключенные» — на полном серьезе бунтовать. Эксперимент был рассчитан на две недели, но Зимбардо вынужден был прекратить его уже через шесть дней, потому что ситуация стала по-настоящему опасной.
Зимбардо пришел к выводу, что поведение людей в гораздо большей степени определяется средой и обстоятельствами, нежели их личными качествами. В любом из нас живет зверь, готовый вырваться наружу при любом удобном случае, даже если это всего лишь игра.
Наконец, третий известный опыт — «зефирный эксперимент». В том же Стэнфорде в те же 1960-е годы психолог Уолтер Мишел проверял, способны ли дети 4-6 лет сдержаться и не съесть зефирку, если пообещать им через 15 минут дать две в награду за терпение. Те 33 процента, кто оказался способен отложить удовольствие, через 10-20 лет выросли в гораздо более успешных людей: они лучше учились в школе и в университете, у них была выше работоспособность и даже лучше индекс массы тела.
Мишел сделал вывод, что сила воли и самоконтроль, во-первых, формируются довольно рано, а во-вторых и в-главных, являются определяющим фактором жизненного успеха.
Эти три эксперимента — классика психологии. На их результатах основаны не только последующие исследования, но и методики подготовки силовиков и воспитания детей. Они укоренены в нашем сознании, их часто приводят в подтверждение житейских мудростей типа «человек человеку волк» или «хорошенького понемножку».
В последние несколько лет все эти классические эксперименты оказались серьезно дискредитированы. В 2012 году австралийский психолог Джина Перри показала, что половина участников эксперимента Милгрэма раскусила постановку, а значит, их действия не подтверждают вывод экспериментатора. В 2018 году появилась книга французского писателя Тибо Ле Тескьера о том, что Стэнфордский тюремный эксперимент также был постановкой. Воспроизведение «зефирного эксперимента» показало гораздо меньшую корреляцию между способностью отложить удовольствие и последующей академической успеваемостью.
Как минимум в случае с Милгрэмом не составляет труда догадаться, откуда взялись выводы, под которые он подгонял экспериментальные данные. В 1961 году в Иерусалиме состоялся суд над Адольфом Эйхманом, который во время Второй мировой войны служил в гестапо и курировал работу нацистских лагерей смерти. Его линия защиты строилась на том, что он лишь исполнял приказы. Эйхмана казнили в 1962-м, а в 1963-м вышла в свет книга Ханны Арендт «Банальность зла», посвященная этому судебному процессу. Она присутствовала на суде в качестве корреспондента журнала The New Yorker и пришла к выводу, что Эйхман не был ни антисемитом, ни психопатом, ни садистом — просто карьеристом, который старался хорошо делать свою работу, а что работа эта заключалась в массовом истреблении людей — так не он такой, а жизнь такая.
Милгрэм был евреем, некоторые из его родственников пережили Холокост, и свой эксперимент он, очевидно, замыслил как зловещее предупреждение американскому обществу: любой может оказаться таким вот Эйхманом.
Более или менее понятно, как политический и идеологический подтекст может исказить социологическое или психологическое исследование. Но в тех работах, которые перепроверяли Нозек с коллегами, такового не очень много: одна посвящена позитивной дискриминации женщин, другая — зависимости культурного разнообразия группы от ее размера — и, пожалуй, все. Дело, однако, в том, что искажения могут возникнуть и без всякой политики с идеологией, по причинам самым что ни на есть низменным.
Современная наука — это рынок. Университеты, лаборатории и отдельные исследователи соревнуются между собой за государственное финансирование, гранты, академические надбавки и тому подобное. Чтобы демонстрировать свою конкурентоспособность на этом рынке, им нужны публикации, причем желательно в престижных журналах и с высокой цитируемостью. Ученый, который за год не опубликовал ни одной статьи, рискует остаться голодным. Главный закон этого рынка — “publish or perish”, «публикуйся или пропадай».
Эта конкуренция полезна хотя бы тем, что держит ученых в тонусе. Но она же приводит к тому, что ученые стремятся что-нибудь опубликовать не тогда, когда уверены в том, что сделали значимое открытие, которым необходимо поделиться с миром, а тогда, когда подходит очередная аттестация или срок отчета по гранту.
Эта система не очень-то карает за ошибки. И это, опять же, неплохо: в противном случае в науке наступил бы паралич от страха. Публикация не обязана быть достоверной — достаточно, чтобы она соответствовала признанным критериям научности, из которых главный — пресловутая фальсифицируемость.
Контринтуитивный критерий фальсифицируемости (опровержимости) сформулировал философ Карл Поппер еще в 1930-е годы, а общепризнанным он стал в 1960-е. Смысл его в том, что научным признается только то знание, которое в принципе может быть опровергнуто.
Излюбленный пример Поппера — теория относительности Эйнштейна. Она, среди прочего, предсказывает гравитационное отклонение света. Соответствующие астрономические наблюдения позволяют проверить, происходит ли это отклонение, и тем самым подтвердить или опровергнуть теорию. И именно возможность ее опровергнуть делает ее научной, в отличие от, скажем, астрологии, предсказания которой так нестроги, что всякой ошибке легко найти ситуативное объяснение. Артур Эддингтон провел соответствующие наблюдения в 1919 году — и зафиксировал отклонение. Это стало аргументом в пользу истинности теории Эйнштейна. Но даже если бы отклонения не было и теория оказалась бы ложной, она не перестала бы быть научной и просто перешла бы в разряд опровергнутых гипотез.
Исходя из этого, провести исследование и прийти к выводу, который в итоге окажется ошибочным, — это тоже хороший научный результат. Перепроверить и опровергнуть чужие выводы — значит двинуть науку вперед, устранив ошибку.
Но это теоретически. На практике люди идут в науку не затем, чтобы ловить себя и других на ошибках. Каждый ученый хочет сформулировать какое-то позитивное знание и, желательно, дать ему свое имя. Никто не хочет тратить время, силы и ресурсы на то, чтобы воспроизводить чужие исследования.
Журналы, понятное дело, гораздо охотнее публикуют статьи, содержащие оригинальное позитивное знание, а другие ученые гораздо охотнее ссылаются на такие статьи, а не на те, в которых констатируется, что та или иная гипотеза не подтвердилась.
В систему, конечно, встроена защита от недобросовестности — например, слепое рецензирование в журналах. Но рецензенты — это такие же ученые, подверженные такому же стрессу, и защита нередко сбоит.
Короче говоря, реальное устройство современной науки не очень-то поощряет чрезмерную щепетильность: ученому выгоднее опубликовать свои результаты побыстрее, даже если они основаны на не самых надежных данных; если же результаты впоследствии окажутся ошибочными — что ж, отрицательный результат — тоже результат.
Означает ли невоспроизводимость как классических, так и новейших экспериментов, что наука о социальном поведении человека переживает кризис? Брайан Нозек в письме N + 1 дал понять, что так не считает: «Происходят реформы, направленные на совершенствование исследовательских процедур». Ученые все активнее пользуются платформой OSF для раскрытия своих данных для последующей перепроверки коллегами. В последние пять лет многие журналы, публикующие статьи в этой области, приняли новые правила раскрытия данных об исследованиях. Более того, как отметил Нозек, пять-шесть лет назад, когда он только запустил свой «ревизорский» проект, многие ученые воспринимали перепроверку своих работ как акт агрессии, теперь же такая реакция необычна.
Социолог Владимир Картавцев (обладатель степени магистра социологии, присвоенной Университетом Манчестера), к которому N + 1 обратился за комментарием по поводу очередной публикации Нозека и команды, также не видит повода для разговоров о кризисе: «Мне кажется, что вопрос о воспроизводимости нужно «заземлять» в область методик сбора данных. Реализация исследовательских процедур всегда зависит от действий множества конкретных людей, начиная от руководителей того или иного проекта и заканчивая сетью исполнителей и подрядчиков, занятых на самых разных этапах и «этажах» проекта. Не стоит забывать также и об условиях, в которых эти процедуры разворачиваются — они, как правило, крайне изменчивы и малопредсказуемы. Так что центральный вопрос — даже не о воспроизводимости как таковой, а об эффективности работы протоколов фиксации и обработки ошибок, допущенных в рамках исследовательских процедур. И это касается как оригинальных исследований, так и их воспроизведений».
Из этого можно сделать два вывода. Во-первых, научный метод, уже четыре столетия служащий человечеству, по-прежнему далек от совершенства и продолжает развиваться, движимый тем же импульсом, из которого он возник, — тотальным скептицизмом, в том числе по отношению к тому, что открыто при помощи самого научного метода. Во-вторых, всякий раз, когда очередной новостной заголовок провозглашает, что ученые что-то там «выяснили», «установили» или «доказали», это по-прежнему вовсе не означает, что новообретенное знание окончательно и не подлежит сомнению.
Артем Ефимов
Норвежские и американские психологи выявили, что для женщин, ищущих непродолжительные отношения, более эффективны тактики флирта, связанные с ношением привлекающей внимание одежды и физическим контактом с сексуальным подтекстом, а тактики, связанные с щедростью и обязательствами более эффективны для мужчин в поисках длительных отношений. Исследование опубликовано в Evolutionary Psychology.