Физики боятся математики?

В предисловии к своей научно-популярной книге «Краткая история времени» Стивен Хокинг обещал, что в ней будет только одно уравнение: E=mc². Физик аргументировал это тем, что формулы отпугивают читателей («Некто сказал мне, что каждое уравнение, которое я включу в книгу, отпугнет половину читателей...»). Оказывается, с научными статьями, несмотря на их предназначение (доносить информацию предельно точно), может происходить то же самое: чем меньше в них формул, тем больше их цитируют. Точнее, эти две величины, вероятно, отрицательно коррелируют.

В 2012 году биологи Эндрю Хиггинсон и Тим Фосетт (Университет Эксетера) опубликовали в Proceedings of National Academy of Sciences работу о цитируемости статей по экологии и эволюционной биологии. Авторы обнаружили, что большое количество формул в теоретических статьях уменьшало количество их цитирований в экспериментальных работах. Всего анализ включал в себя почти 650 статей, опубликованных в 1998 году в ряде экологических и биологических журналов. Основным показателем было среднее количество формул на странице. Главным выводом работы была рекомендация: «Для того, чтобы добиться максимального эффекта от своей статьи, биологам следует задуматься о том, чтобы снизить плотность формул в текстах теоретических статей».

В ответ на эту статью с, как поначалу казалось, логичным выводом, вышло сразу несколько комментариев (1, 2, 3, 4), от позитивных, но отмечающих, что надо не убирать формулы, а стараться яснее выражать мысли, до негативных, отмечающих нарушение важного принципа статистики: «корреляция не означает причинности». Иными словами, простое удаление формул из статей не приведет к увеличению цитируемости. Хорошей иллюстрацией этого принципа являются карго-культы.

В январе 2015 года, в ответ на статью Фосетта и Хиггинсона, физики из Германии и Бразилии опубликовали в New Journal of Physics аналогичное исследование физических статей. Сначала группа Джонатана Коллмера перепроверила выводы исследования биологических статей и обратила внимание на то, что неверное деление на теоретические и экспериментальные статьи могло повлиять на результат. Кроме того, выраженность результата Хиггинсона менялась при изменении способа статистической обработки (объединения статей в группы).

После физики построили выборку из двух тысяч статей журнала Physical Review Letters и графически показали отсутствие очевидных взаимосвязей между количеством формул и цитирований. Ученые обратили внимание на выраженную положительную корреляцию между числом авторов и цитированиями. Физики объяснили ее тем, что каждый из авторов, публикуя следующие статьи, вероятно сошлется на предыдущие. Однако главным выводом исследователей было то, что на основе таких «шумных» данных нельзя получить какую-либо явную корреляцию.

В ответ на это, совсем недавно, Фосетт и Хиггинсон опубликовали результаты статистического анализа той же самой выборки физических статей. Биологи снова нашли отрицательную корреляцию большой плотности формул с количеством цитирований, использовав ту же модель отрицательного биномиального распределения, что и в самой первой работе. Результат отличался от нулевой гипотезы (отсутствия взаимосвязи) со статистической значимостью больше двух сигма. В общей выборке цитируемость падала на шесть процентов на каждую формулу на странице, в выборке статей с небольшим количеством цитирований (чтобы избежать влияния «выпадающих точек») — на восемь процентов.

Группа Коллмера ответила на это комментарием о том, что Фосетт и Хиггинсон вновь забыли о том, что причинность и корреляции — не одно и тоже. Поэтому даже наличие корреляций не позволяет утверждать, что физики недолюбливают математику. По словам оппонентов Хиггинсона, если и пытаться установить причинно-следственные связи между количеством формул в статьях и цитируемостью, то для этого следует использовать большие статистические выборки и не такие узкоспециализированные методы анализа. Физики апеллируют к тому, что сейчас для автоматического анализа доступны миллионы статей — «зачем себя ограничивать?». К примеру, в первой работе (про экологию и эволюционную биологию) из выборки в 649 статей лишь 247 содержали хотя бы одну формулу.

Таким образом надежного и признанного ответа на вопрос, боятся ли физики математики (меньше ли физики цитируют насыщенные формулами статьи), нет. Но вывод Хиггинсона по-прежнему выглядит разумным — если ученый хочет поделиться своими изысканиями, то следует пытаться объяснить и адаптировать их для своих же коллег. Можно вспомнить в качестве примера Нобелевскую премию по физике этого года — за теорию топологических фазовых переходов. Большая часть теоретической работы была проведена советским физиком, Вадимом Березинским. Однако его работа была настолько сложна и насыщена математическими выкладками, что для того, чтобы она стала понятной и общепринятой ее пришлось сильно переработать лауреатам премии. Подробнее об этой истории можно прочитать в нашем материале.

Любопытно заметить, что буквально два дня назад Хиггинсон и его коллега из Университета Бристоля опубликовали статью о том, что движет учеными, проводящими «некачественные» исследования. Ее вывод сводится к тому, что в погоне за карьерой и грантами ученые проводят много поверхностных исследований в поисках «новизны». В заключение биолог рекомендует ученым заниматься более глубоким анализом данных, использовать большие выборки и надежную методологию. Может быть, через несколько лет мы все-таки увидим результаты исследования цитируемости на больших выборках и выясним, боятся ли физики математики или нет.