Как ученые делятся друг с другом и миром результатами своих исследований?
Наверное, каждый хоть раз слышал о существовании Nature, Cell, Science и некоторых других всемирно известных авторитетных научных изданий. N + 1 рассказывает, каким образом происходит отбор работ в эти журналы, как вообще можно отличить полезное научное исследование от не очень качественной и не востребованной в научном мире работы. А также с какими трудностями приходится сталкиваться ученым и что может тормозить научный прогресс.
Эта статья — продолжение проекта «Когда рассеется дым». Он посвящен курильщикам, никотину, этическим, биохимическим и антропологическим аспектам практик курения, а также фундаментальной науке, которая связана с этим явлением, — токсикологии; вопросам открытости данных и многому другому. Проект подготовлен при поддержке компании «Филип Моррис Интернэшнл» в России. Мнение авторов статей может не совпадать с позицией компании.
Работа ученых часто ассоциируется с вереницей захватывающих экспериментов и научных открытий, возникающих благодаря блестящим идеям исследователей. Конечно, это все имеет место, но каждый серьезный ученый также проводит внушительное количество времени за чтением и написанием научных статей. И для этого есть несколько причин.
Научный эксперимент нельзя считать завершенным, пока не опубликованы его результаты. Только опубликованные результаты могут быть проверены, воспроизведены и определены как научное знание. Их структурированное изложение в ходе работы полезно и для самого исследователя. Необходимость подведения итогов работы в формате научной статьи мотивирует подробно фиксировать весь ход исследования и сразу же анализировать каждый полученный результат.
С помощью публикаций в журналах ученые делятся своими достижениями с миром, а главное — с коллегами. Многие научные задачи рождаются из полученных ранее результатов, порой опубликованных другими группами ученых. Таким образом, чтение и написание научных статей — важная часть работы исследователей.
Трудно подсчитать количество научных журналов, а уж тем более статей, которые сейчас публикуются по всему миру. Их качество и, как следствие, степень влияния на научный мир сильно различаются. В 1960 году Юджин Гарфилд, основатель Института научной информации, предложил ввести индекс цитирования научных статей (Science Citation Index, SCI) и использовать его в качестве показателя влиятельности научной публикации.
Позже он же предложил оценивать влиятельность научных журналов с помощью импакт-фактора, который рассчитывается по формуле:
Проще говоря, с помощью импакт-фактора можно оценить, насколько часто в публикациях других научных журналов встречаются ссылки на работы конкретного научного журнала. Преимущество такого показателя перед оценкой абсолютного числа ссылок на журнал заключается в том, что учитываются только ссылки на статьи последних двух лет. Тем самым автоматически нивелируется преимущество крупных старых журналов, за время своего существование опубликовавших большое количество статей.
В 1992 году Институт научной информации стал частью корпорации Thomson Scientific, которая также поддерживает поисковую интернет-платформу Web of Science (WoS), содержащую большую базу данных, которая позволяет искать, анализировать и управлять библиографической информацией. Эта база данных охватывает социальные и гуманитарные науки, а также естественные и точные науки (Science Citation Index Expanded, SCIE).
Существуют и другие системы для учета и поиска научных публикаций, например, Scopus и Google Scholar. Интересно, что индекс цитирования, подсчитанный разными системами, может отличаться. Это связано с тем, что, например, WoS учитывает только публикации в рецензируемых журналах, но не учитывает книги, которые принимаются во внимание, например, системой Google Scholar.
Еще один показатель, который по-разному представлен для WoS и Scopus — квартиль научной публикации. В результате оценки востребованности журналов и следующего за этим ранжирования каждый научный журнал попадает в один из четырех квартилей: от Q1 (самого высокого) до Q4 (самого низкого). Представить это можно следующим образом: допустим, есть 100 журналов, публикующих статьи, посвященные клеточной биологии. Если их ранжировать, то 25 верхних журналов попадают в самый высокий квартиль — Q1. Как правило, наиболее авторитетные журналы относятся к двум верхним квартилям — Q1 и Q2.
Для определения квартиля научного журнала WoS использует импакт-фактор Journal Citation Reports (JCR), который мы обсуждали ранее. Для Scopus используется похожий показатель — SCIMago Journal Rank (SJR), однако SJR рассчитывается сложнее по сравнению с импакт-фактором, поскольку учитывает не только цитируемость, но и авторитетность журналов, цитирующих публикацию.
В конце 2006 года была разработана система, которая учитывает суммарный индекс цитирования российских ученых и научных организаций по публикациям в российских и зарубежных научных журналах. Для большинства российских журналов действует похожий механизм индексирования научных статей — российский индекс научного цитирования (РИНЦ). Однако необходимо учитывать, что, например, импакт-фактор WoS и импакт-фактор РИНЦ — разные параметры, хоть и рассчитываются по одинаковой формуле. Чаще всего, говоря об импакт-факторе, имеют в виду импакт-фактор WoS.
Примечательно, что WoS включает в себя множество баз данных и индексов. В области естественных наук имеют импакт-фактор и квартиль только те научные журналы, которые входят в SCIE, относящийся к Web of Science Core Collection. Иначе говоря, не все публикации в WoS имеют импакт-фактор и относятся к какому-либо квартилю.
В 2005 году физик Хорхе Хирш предложил наукометрический показатель — индекс Хирша. Данный показатель вычисляется с помощью распределения цитирований работ ученого.
Как и другие наукометрические параметры, индекс Хирша для одного и того же ученого может различаться в зависимости от того, на основе какой базы данных он рассчитан. Также индекс Хирша может быть рассчитан с или без учета самоцитирования. Считается, что исключение самоцитирования помогает получить более объективную картину.
Каждая рукопись перед публикацией проходит процедуру рецензирования. Это нужно, чтобы убедиться, что автор следует определенным принятым стандартам (и, если необходимо, добиться этого от него). Издатели используют рецензирование для отбора и оценки предоставленных рукописей. Как правило, чем авторитетнее научный журнал, тем серьезнее требования к работам и их проверка. Рецензирование — довольно сложный и длительный процесс, в который вовлечено большое число специалистов. Разумеется, их работа должна оплачиваться. Чтение научной статьи в большинстве случаев стоит денег, а иногда платить приходится даже за публикацию. Например, в случае публикации в open access журналах автор самостоятельно оплачивает все расходы по изданию статьи.
В результате складывается парадоксальная ситуация. С одной стороны, авторитетные издания способствуют распространению научных данных, так как в теории любой интересующийся читатель может получить доступ к результатам даже самых свежих научных работ. С другой стороны, платное чтение и публикации статей, а также их длительное рецензирование в какой-то мере препятствуют распространению научных данных. Наука развивается стремительно, и задержки в распространении результатов исследований препятствуют появлению актуальной информации.
По этой причине исследователи все чаще прибегают к публикации препринтов. Препринт (от англ. «preprint» — пред-публикация) — текст, размещенный в открытом доступе до публикации в рецензируемом научном журнале. В большинстве случаев препринт — своеобразный черновик научного текста, который также может цитироваться в публикациях в рецензируемых научных журналах. Особенность препринта в том, что он не проходит процедуру рецензирования. Публикация препринтов значительно ускоряет коммуникацию между учеными. Подобная практика часто может быть полезна и для самих авторов, так как она открывает возможность получить оперативную обратную связь от читателей, в том числе коллег. Таким образом, правки в рукопись можно внести еще до подачи в журнал.
Один из первых и самых известных ресурсов, публикующих препринты научных статей, — arxiv.org. Это открытый архив препринтов работ в областях естественных и точных наук. Материалы архива не проходят строгого рецензирования, однако их рассматривают модераторы. Также существуют более узкоспециализированные архивы препринтов. Один из таких — bioRxiv, который специализируется на работах, связанных с биологией.
У отсутствия тщательного рецензирования научных работ есть ожидаемые минусы. С помощью рецензирования статей намного эффективнее происходит отбор качественных работ, представляющих реальный интерес для научного сообщества. При практически свободной публикации препринтов в некоторых случаях происходит своеобразное обесценивание информации. Например, с начала эпидемии COVID-19 на 30 июня 2020 года вышло около 13 тысяч препринтов на эту тему. Далеко не все из них реально информативны и полезны для других ученых.
Еще одним примером попытки глобализации научных знаний считается проект — Sci-Hub. Это пиратский ресурс, который открывает свободный доступ к платным статьям. С одной стороны, это незаконный ресурс. Крупные издательства Elsevier и Springer Nature уже подавали на него в суд. С другой стороны, пользователи отмечают, что Sci-Hub помогает им в работе и считают, что научные знания должны быть открыты для любого человека.
Sci-Hub был основан в 2011 году. Важно понимать, что ситуация с тех пор изменилась и продолжает меняться — все больше статей появляется в открытом доступе (в том числе в рецензируемых журналах). Кроме того, большинство институтов, университетов и компаний предоставляют своим работникам и студентам доступ к научным статьям. Нельзя утверждать, что продвижение науки без Sci-Hub затруднилось бы, но невозможно отрицать его удобство.
Не только научные публикации являются предметом обсуждения в контексте открытости данных: существует огромное количество ресурсов, представляющих собой открытые хранилища, базы данных, программное обеспечение и другие интерактивные инструменты, необходимые для проведения исследований. Такие ресурсы пользуются популярностью и активно развиваются как в научном, так и в индустриальном (например, фармацевтическом) сообществах.
Большой популярностью пользуются открытые базы данных. Например, Ensembl, где собраны геномные базы данных более 50 видов позвоночных, включая человека и большинство модельных лабораторных объектов. Не менее популярна GenBank, которая содержит все аннотированные нуклеотидные последовательности, а также последовательности белков, кодируемых ими.
Конечно, это не единственные существующие примеры. Есть еще UniProt (база данных последовательностей белков), RCSB PDB (банк данных 3D-структур белков и нуклеиновых кислот), ClinicalTrials.gov (международный реестр клинических исследований Национального института здоровья США) и многие другие.
В глобализации науки принимают участие крупные общественные организации, которые могут раскрывать данные своих исследований. Pfizer, одна из крупнейших биофармацевтических компаний в мире, сформировала открытую библиотеку медицинских данных для представителей здравоохранения. Novartis — транснациональная фармацевтическая корпорация, которая открыто проводит свои исследования, а также делится разработанным программным обеспечением, вплоть до исходных кодов, опубликованных на GitHub.
Данными и результатами исследований широко делится компания Philip Morris International (PMI). Практически каждая индустрия, имеющая риск причинения вреда здоровью, со временем приходит к пониманию необходимости снижения риска. Поэтому в рамках работы PMI проводятся научные исследования, направленные на создание и научное обоснование альтернативных бездымных продуктов, которые существенно снижают риски при потреблении.
Также компания PMI создала онлайн-платформу INTERVALS — открытый ресурс, предназначенный для совместной работы и анализа данных со стороны третьих лиц. Платформа открывает ученым и работникам индустрии доступ к данным исследований (в том числе сырым) и протоколам, по которым они проводились. Такие платформы позволяют проверять исследования на воспроизводимость, а также использовать данные для проверки новых научных гипотез. В совокупности это делает научный процесс прозрачнее и ускоряет проведение новых научных исследований.
При поддержке PMI в 2011 году с использованием платформы INTERVALS был запущен проект sbv IMPROVER. В нем происходит верификация результатов лабораторных исследований, проведенных компанией. Весь массив полученных компанией данных передается независимым экспертам, которые могут проанализировать их и сделать свои выводы.
Недавно на платформе sbv IMPROVER группа ученых провела краудсорсинговое исследование диагностического потенциала метагеномных данных. Краудсорсинг в условиях биомедицины и системной биологии подразумевает, что абсолютно любой специалист, относящийся к биологии, медицине, химии или любой другой смежной области, может принять участие в исследовании и внести свой вклад. Цель исследования заключалась в разработке и проверке моделей классификации метагеномных образцов биоматериалов. Первоначально весь анализ базировался на результатах, полученных победителями научного испытания.
Изучались данные пациентов, больных язвенным колитом, а также страдающих болезнью Крона. В данном случае применение краудсорсинга позволило собрать значительный массив данных, а также снизить влияние субъективных факторов на полученные результаты. Данные платформы sbv IMPROVER были доступны для международного научного сообщества с сентября 2019 года по март 2020 года.
О краудсорсинговых исследованиях в области биомедицины и проблемах открытости научных данных N + 1 рассказала Стефани Бу, PhD, менеджер по обеспечению научной прозрачности и верификации данных PMI:
«Существует множество примеров краудсорсинга в биомедицинских исследованиях. Один из самых известных заключается в определении участниками структуры белка (CASP, Critical Assessment of protein Structure Prediction). Также есть много других, где используются методы сравнительного анализа в биологических системах и в целом в области биоинформатики.
В основном в этой области и проводятся испытания в рамках sbv IMPROVER. У нас есть два основных вида испытаний. Есть вычислительные задачи, в которых у нас уже имеются контрольные данные. Мы знаем конечный результат и хотим найти лучший вычислительный метод, с помощью которого можно получить этот результат, чтобы в дальнейшем использовать такой метод, когда контрольные данные неизвестны. Это может быть определение того, получена ли информация от больного пациента, на какой стадии болезни он находится и так далее. Этим мы занимались в ходе первого испытания, Disease Signature Challenge.
Нас также интересуют некоторые биологические вопросы, например, насколько схожим могут быть разные виды. Это также очень важно для фармацевтической индустрии, где приходится проводить много тестов с участием животных. Необходима уверенность в том, что полученные результаты будут актуальны и для людей. Это мы проверяли во втором испытании, Species Translation Challenge. Также мы получили в наших лабораториях большой объем данных, подвергая клетки человека и крысы воздействию одинаковых химикатов и затем измеряя профили экспрессии генов и фосфорилирования белков. Мы попросили участников определить, основываясь на результатах, полученных для одного вида, что произойдет с другим.
Подобные анализы данных очень часто основываются на машинном обучении. Один из вопросов, на которые мы ищем ответ, — насколько обнаруженный вами метод способен к обобщению. Для нас очень важно, чтобы набор данных для обучения и тестовые данные были взяты из двух различных исследований, чтобы можно было убедиться, что полученный результат не свойственен лишь одному исследованию.
В последнее время мы также изучали микробиом, так как он связан со многими заболеваниями и в целом ответственен за состояние здоровья. Для нас было важно убедиться в том, что методы, разработанные в ходе испытаний, точно определяют структуру микробиома. В последнем из проведенных испытаний нужно было определить, являются ли предоставленные данные информацией о состоянии пациента, страдающего воспалительным заболеванием кишечника, или здорового человека.
Нас также интересуют и более «биологические» испытания, цель которых — извлечь информацию из научной литературы. Важно, чтобы подобная информация могла быть смоделирована и затем использована для вычислений. Для этого мы создали модели причинно-следственных сетей, которые строятся на основе литературных данных, но затем они могут быть использованы, чтобы показать результаты в объеме данных, например, по экспрессии генов. Работа была построена по принципу соревновательного сотрудничества, предполагающего, что участники будут проявлять активность, добавлять информацию или судить, насколько точна добавленная другими информация. В зависимости от того, насколько остальные будут соглашаться или не соглашаться с их экспертной оценкой, участники могли получить больше баллов.
INTERVALS - платформа для проверки обоснованности научных исследований, благодаря которой стало возможным поделиться информацией и многочисленными деталями, которые мы получили в результате исследований, проведенных совместно с компанией PMI и приглашенными сторонними экспертами.
Мы расширили платформу, вывели ее полностью в открытый доступ, а затем добавили возможность другим пользователям публиковать их данные. Мы все время расширяем наши интересы и также изучаем научные работы, посвященные заболеваниям, вызываемым табакокурением. В дальнейшем мы надеемся, что платформа получит еще большую известность как ресурс, где можно найти результаты исследований, связанных со снижением вреда от потребления табака, и даже на более общие темы.
Полученные результаты исследований — это также доконкурентная область, это результаты, которыми мы можем поделиться с нашими конкурентами, а они, в свою очередь, могут добавить свои данные, ведь это способствует развитию всей области. На платформе INTERVALS у нас хранится много результатов исследований, самое важное мы уже запатентовали и теперь можем поделиться этим.
Я думаю, что сами ученые не хотят или не могут делиться информацией по многим причинам. В компаниях или крупных университетах, где могут быть созданы стартапы, есть необходимость в интеллектуальной собственности, и это честно. Также довольно сложно упорядочить информацию так, что она станет полезна другим. Информационная открытость предполагает большие, но необходимые усилия, которые мы прилагаем уже сегодня».
Несмотря на тенденцию к глобализации, широко распространены патентование и сокрытие данных, которые в той или иной степени препятствуют получению достоверного научного знания. Дело в том, что патентование базовых лабораторных методов и необходимых для них реактивов приводит к сильному удорожанию работы с технологиями, а также накладывает ограничения или запреты, например, на самостоятельное изготовление необходимых реактивов. Существует немало примеров того, как крупные компании относительно дешево массово скупали патенты у ученых-патентообладателей, а затем завышали патентные отчисления либо перепродавали право на патент за намного большие деньги.
Так случилось с разработкой и патентованием метода полимеразной цепной реакции (ПЦР). Кэри Мюллис, разработавший и протестировавший метод ПЦР в 1983 году, на момент своего открытия работал в Cetus Corporation. Эта компания и получила патент на метод ПЦР и позже на термостабильную Taq-полимеразу. Однако в 1991 году патент был продан компании Hoffman-La Roche за 300 миллионов долларов. Примечательно, что Кэри Мюллис с этой сделки получил от Cetus очень небольшую сумму. На сегодняшний день реактивы и приборы ПЦР стоят довольно дорого, в том числе по причине высоких отчислений к стоимости расходных материалов, добавленных Hoffmann-La Roche.
Существуют и некоторые позитивные примеры победы глобализации науки, например, над сокрытием данных. Открытие и разработка методов с использованием флуоресцентных белков — хороший пример объединения ученых ради научного прогресса. Первый флуоресцентный белок, GFP (green fluorescent protein), был найден в морской медузе Aequorea victoria в 1960-х годах. К белку никто не проявлял интереса, пока спустя 30 лет Дуглас Прэшер совместно с коллегами не установил последовательность гена GFP. Недостаток финансирования не позволил Прэшеру продолжить свои исследования. Осознавая потенциальную важность и пользу GFP для науки, Прэшер не спрятал «в стол» свои наработки, а поделился промежуточными результатами с коллегами из других лабораторий.
Таким образом ген GFP попал к Мартину Чалфи и Роджеру Цянь, которые в итоге нашли для него применение. Оказалось, что GFP очень удобно «сшивать» с другими белками. Это позволяет прижизненно, то есть в живом, а не фиксированном объекте, наблюдать за динамикой и локализацией интересующих ученых белков. Решение Прэшера отдать свои результаты другим ученым лишило его возможности получить Нобелевскую премию вместе с Осаму Симомурой, выделившим этот белок из медузы. Однако, возможно, благодаря этому мир узнал о GFP, и теперь применение флуоресцентных белков – неотъемлемый метод любой лаборатории, занимающейся молекулярной или клеточной биологией.
О современном и повсеместном применении флуоресцентных белков в научных исследованиях N + 1 рассказал Константин Лукьянов, доктор биологических наук, заведующий отделом биофотоники Института биоорганической химии им. академиков М. М. Шемякина и Ю. А. Овчинникова РАН:
«GFP — генетически кодируемая флуоресцентная метка, поэтому для работы с ней необходимо создавать некую трансгенную модель, когда в организм вводится ген GFP или другого флуоресцентного белка. Это может быть простая трансфекция клеток в культуре или, например, получение линий трансгенных мышей. В месте экспрессии гена GFP белок становится зеленым флуоресцентным, что можно наблюдать в микроскоп. Это очень удобно, поскольку такая метка прижизненная. Конечно, получается трансгенная живая система, незначительно теряется нативность целевого белка, но это все равно очень помогает.
GFP открыл клеточную биологию в динамике — все динамические процессы, которые происходят в клетке, были в большой степени визуализированы с помощью GFP. Флуоресцентные белки очень широко используются, на сегодняшний день это стандартный метод.
В любой технологии интересно использование нескольких различных инструментов. Применение нескольких цветов, например, позволяет различить структуры клетки. На основе GFP получалось небольшое цветовое разнообразие, поэтому ученые начали активно создавать и искать GFP-подобные белки. В России, в Институте биоорганической химии им. академиков М.М. Шемякина и Ю.А. Овчинникова в сотрудничестве с несколькими другими институтами РАН, мои коллеги открыли флуоресцентные белки кораллов, из которых получились все используемые сейчас красные флуоресцентные белки.
Еще интересный случай – переключаемые флуоресцентные белки, которые бывают двух типов – первые самопроизвольно меняют цвет в зависимости от времени (таймеры), они довольно удобные, но редко используемые на практике. Глядя на такую клетку, можно сказать, когда именно она синтезировала белок. Второй тип, фотоактивируемые белки, очень широко используются в исследованиях. В темноте они, например, одного цвета, а после облучения светом определенной длины волны они изменяют цвет.
Самое простое их применение — трекинг динамики белка. Например, если вам интересно, куда движется белок внутри нейрона, вы активируете лазером белок и следите за его перемещениями. Точно также можно следить за клетками целого организма — такой подход применяется в эмбриологии.
Фотоактивируемые флуоресцентные белки стали применяться в сверхразрешающей микроскопии для решения проблемы преодоления дифракционного барьера, из-за которого в оптических микроскопах не получается достичь серьезного разрешения. Была разработана группа методов, построенных на фотопереключениях флуоресцентных белков. Так достигается разрешение вплоть до 10 нанометров. За это впоследствии тоже дали Нобелевскую премию».
Яркий пример отказа от патента в пользу развития науки — открытие Дэвидом Балтимором обратной транскриптазы, также известной как РНК-зависимая ДНК-полимераза или ревертаза. За это Балтимор совместно с Теминым и Дульбекко получил Нобелевскую премию. Будь этот фермент запатентован, его использование могло быть серьезно ограничено. Как следствие, это отсрочило бы многие научные открытия.
Ревертаза — один из базовых ферментов, необходимых для работы почти любой лаборатории, занимающейся молекулярной или клеточной биологией. Этот фермент, как и ДНК-зависимая ДНК-полимераза, является стандартным и повсеместно используемым инструментом генной инженерии про- и эукариотических организмов.
Наука и научный прогресс во всех своих проявлениях — глобальный процесс, развитие которого невозможно без тесного сотрудничества и коллаборации научных институтов, лабораторий и даже индустриальных компаний. Коммерциализация науки и плодов труда ученых не только неизбежна, но и важна для науки, поскольку способствует привлечению финансирования. Однако важно, чтобы научный прогресс осуществлялся планомерно, а не вопреки дополнительным трудностям.