Чем ученых смущает крупнейшая библиотека вирусных геномов
Пандемия ковида принесла популярность и репутацию не только Zoom’у и мРНК-вакцинам, но и генетическим базам данных. В первую очередь — GISAID, прежде специализировавшейся на гриппе. Лаборатории со всего мира загружают туда отсеквенированные геномы коронавируса, а вирусологи, эпидемиологи и примкнувшие к ним энтузиасты перебирают эти последовательности в поисках новых вариантов и опасных мутаций. Туда же заглядывают производители тестов и вакцин. А еще — те, кто надеется выловить в базе ранние сиквенсы из Уханя и таким образом выяснить что-то о происхождении коронавируса. За три года из узкоспециализированного инструмента платформа GISAID стала ключевым элементом вирусологической инфраструктуры — и чем дальше, тем больше у ее пользователей возникает претензий и вопросов.
В 2006 году мир переживал из-за птичьего гриппа H5N1 (точно так же, как волнуется сейчас из-за его очередного варианта). Стартовав, предположительно, в Юго-Восточной Азии, вирус вместе с птицами долетел до Европы, по пути иногда заражая людей. Европейские вирусологи занервничали: хотелось бы иметь возможность посмотреть на геном пришельца. Вдруг в нем обнаружится что-то опасное и ученым срочно понадобится придумывать вакцину?
С доступом к геномам все было непросто. С одной стороны, были открытые базы генетических данных — например, Национальный центр биотехнологической информации США (NCBI) с 1982 года поддерживает базу GenBank; там, среди прочего, лежит геном человека. С другой стороны, открытая политика GenBank и его аналогов предполагает, что кто угодно из пользователей может скачать оттуда данные и распоряжаться ими на В том смысле, что любой ученый может использовать эти данные в своей научной деятельности как угодно, не упоминая в своих научных статьях тех, кто их выложил.
«На сбор образцов и быстрое секвенирование тратятся миллионы долларов, — объясняет в переписке с N + 1 Андрей Комиссаров, заведующий лабораторией молекулярной вирусологии Института гриппа им. Смородинцева в Санкт-Петербурге и член технического комитета GISAID. — А когда сиквенсы отправляются в public domain, любая группа биоинформатиков может оказаться шустрой и опубликовать анализ тех данных, на получение которых ты потратил силы и время».
Тогда появилась идея сделать новую платформу, честную и справедливую. За это взялись: ученый-вирусолог, чиновник из Центра по контролю заболеваемости (CDC), директор NCBI и — некто Петер Богнер. Они предложили создать консорциум, члены которого будут свободно обмениваться геномами птичьего гриппа. Единственное ограничение — если вы публикуете статью с использованием этих данных, то обязаны указать, кто их добыл. И приложить максимум усилий, чтобы связаться с этим человеком и вместе поработать над результатами. Это, конечно, не поможет индонезийцам первыми получить вакцину. Но, по крайней мере, в любой научной статье по птичьему гриппу появятся их имена — и их сложнее будет забыть или проигнорировать.
Санкции за нечестное использование данных предполагались очень простые — нарушителя лишают доступа к геномам. А без них вирусологу делать совершенно нечего. Придется сидеть без работы полгода — потому что создатели проекта обещали, что не позже чем через шесть месяцев после публикации обработанные, валидированные и проанализированные сиквенсы появятся в одном из открытых генетических банков.
Проект назвали GISAID — всемирная инициатива по распространению данных о птичьем гриппе (Global Initiative on Sharing Avian Influenza Data). Вслед за американскими эпидемиологами его поддержали и европейцы. К птичьему гриппу вскоре добавился человеческий, и уже в 2008 году ВОЗ заглядывала в эту базу за актуальными сиквенсами, чтобы на их основе обновить рекомендации по сезонным вакцинам. А в 2009 году, когда в США вспыхнул свиной грипп, американский Центр по контролю заболеваемости выложил полную расшифровку его генома именно в GISAID.
В 2020-м в платформу вложились уже ВОЗ, институты из Германии, Японии, Сингапура, Бразилии и Сенегала, а также несколько фармкомпаний-гигантов (в том числе производители вакцин Pfizer и Janssen). Все потому, что по миру пошел новый вирус, который нужно было срочно ловить, секвенировать и показывать коллегам. И у вирусологов не возникло сомнений в том, куда выкладывать сиквенсы. Число коронавирусных геномов в базе недавно перевалило за 15 миллионов — это уже в семь раз больше, чем геномов гриппа.
Пандемия вытащила на свет проблемы, которые ученые и медики раньше считали редкими и не заслуживающими особенного внимания, — например, вопрос о том, что такое хроническая усталость. И у GISAID тоже обнаружились недостатки.
В марте 2023 года вышло недоразумение с сиквенсами с уханьского рынка морепродуктов (мы рассказывали эту историю в материале «Где собака зарыта»). Было так: европейские вирусологи заметили, что в GISAID внезапно появились геномы с уханьского рынка. Они, судя по всему, относились к препринту китайских эпидемиологов, который был опубликован еще в феврале 2022-го — но в самой статье никаких исходных сиквенсов не было.
Обрадовавшись находке, вирусологи изучили эти геномы — и обнаружили, что в одном из образцов встречается генетический материал SARS-CoV-2 и енотовидных собак. До сих пор таких результатов никто, включая китайских эпидемиологов, не получал. Вирусологи написали китайцам и поделились своими наблюдениями. После этого геномы пропали из GISAID. Вирусологи рассказали о происходящем ВОЗ — а в ответ получили гневные письма от администрации платформы и потеряли доступ к своим аккаунтам.
Свою позицию GISAID объяснила так: нехорошо распространять результаты, которые получены на чужих данных. Особенно если вы не сотрудничаете с теми, кто эти данные добыл. И тем более если вы знаете, что обладатель данных включил их в манускрипт и ждет публикации.
Вирусологи в ответ возмутились: во-первых, они пытались сотрудничать с хозяевами данных — и не получили ответа. А во-вторых, геномы появились в базе в начале июня 2022 года. То есть пролежали там девять месяцев — заведомо больше, чем срок в шесть месяцев, на который изначально ориентировались создатели платформы. Получается, что эмбарго на эти последовательности, даже если и существовало, то давно истекло.
Через несколько дней все вернулось на свои места. Геномы снова появились в базе, китайский препринт вышел в виде статьи в Nature, а европейцы получили свои аккаунты обратно. Научное сообщество принялось обсуждать, правда ли енотовидных собак стоит теперь считать промежуточными хозяевами SARS-CoV-2 (и не все вирусологи с этим согласились). Но вопросы к GISAID остались.
Китайский препринт появился в сети в феврале 2022-го. Геномы, на которых он основан, судя по метаданным, были выложены в июне 2022-го. Как так вышло, что никто из вирусологов не замечал эти сиквенсы до марта 2023-го? Пропустили и проглядели всем миром — или, может быть, это с метаданными что-то не так?
Метаданные — это первая линия аргументов, которые идут в дело, когда заходит спор о хронологии научных достижений. Особенно если речь о вспышке вирусной болезни, где счет идет на дни. Так, например, оказалось, что есть две разных точки зрения на то, кто первым отсеквенировал геном SARS-CoV-2.
Большинство вирусологов считает, что пальма первенства принадлежит британцу Эдварду Холмсу, который получил сиквенс от Чжана Юнчжэня из Фуданьского университета и выложил его на сайте virological.org. Это не база данных, а форум — Холмсу и Чжану хотелось поделиться своей информацией как можно скорее. Настолько, что они допустили грамматическую ошибку («this data», то есть «этот данные») и позже добавили дисклеймер: «мы знаем, что data — это множественное число, но мы очень торопились».
Сообщение Холмса на форуме датировано двумя часами ночи по США 11 января 2020 года. Руководство GISAID утверждает, что к этому времени в их базе уже лежали коронавирусные геномы — их загрузил китайский Центр по контролю заболеваемости еще 9 января, а всего через час они прошли обработку и появились на сайте.
Поправка
В первой версии статьи мы написали, что на момент публикации генома от Холмса и Чжана в Китае было еще 10 января. Это ошибка. Приносим извинения и благодарим читателей за бдительность.
Как в таком случае вышло, что В некоторых статьях, тем не менее, именно GISAID называют первым источником коронавирусного генома. Но все они опубликованы значительно позже, и сложно проверить, откуда у авторов статей эти сведения.
Можно представить себе, что и эпидемиологи из Центра по контролю заболеваемости по какой-то причине не хотели сразу же делиться ими с широкой общественностью. И сейчас это мешает создателям GISAID отстоять звание первооткрывателей вируса. Они, правда, не сдаются — и даже требуют от авторов статей, которые упоминают платформу в своих публикациях, называть ее первым источником коронавирусного генома.
Это не первый раз, когда у вирусологов возникают разногласия с администрацией GISAID. Еще в 2021 году некоторые ученые жаловались на то, что им закрывают доступ к данным и обвиняют в нарушении правил работы. О «странной и непрозрачной системе аутентификации» говорит в переписке с N + 1 и микробиолог Георгий Базыкин: «Разные люди получали разные права без объяснения причин».
Большинство этих проблем вирусологи связывают с одним из создателей платформы Петером Богнером. Обычно в статьях его называют президентом GISAID, хотя на ее сайте он не упоминается среди руководства — там перечислены только члены научного и технического комитетов платформы. И, судя по недавнему расследованию, которое выпустил журнал Science, это не единственный странный факт в его биографии.
Журналисты Science признаются: восстановить карьеру Богнера довольно непросто. Но до появления GISAID он, видимо, никак не был связан ни с вирусологией, ни вообще с наукой. Человек с таким именем сидел в американской тюрьме за мошенничество при продаже страховок, а потом торговал обучающими видео по горным лыжам. Сам же Богнер рассказывает, что до создания платформы он был теле- и кинопродюсером, — но этого Science подтвердить не смог.
Однако исследователей, которые пользуются GISAID, смущает вовсе не прошлое ее президента. И даже не сложная схема руководства и финансирования проекта — полных отчетов о том, сколько денег и от кого получает платформа, на ее сайте тоже нет. Проблемы возникают с коммуникацией: многие ученые жалуются журналистам Science на то, что Богнер ведет себя грубо и ограничивает доступ к платформе в ответ на любую, даже мягкую критику.
И даже у тех, кто поддерживает с ним хорошие отношения, в последнее время появились некоторые подозрения. Как рассказали Science несколько ученых, иногда они получают письма от некого Стивена Мейерса с домена GISAID. Он общается с ними в роли менеджера платформы — но при этом никто никогда не видел его живьем. Мейерс много переписывался и говорил по телефону с некоторыми исследователями, но не принял ни одного предложения встретиться лично. Более того, иногда он случайно отвечал с адреса Богнера, и некоторые ученые заметили в их голосе похожие акценты.
Сами Мейерс и Богнер, конечно же, отрицают, что они — один и тот же человек. И, в общем-то, для самого существования платформы, которой они управляют, это не так и важно. Другое дело, что GISAID в последние годы приобрела большой вес. Мир живет в условиях пандемии — которая продолжается несмотря на то, что ВОЗ перестала считать ее чрезвычайной ситуацией. И жизнь множества людей (например, вакцины, которые они получают, или карантины, на которые их сажают) во многом определяется вирусологами. А они буквально живут на платформе, где данными управляют люди, про которых мы почти ничего не знаем. Даже сколько их на самом деле.
«И если создателям/поддержателям нельзя доверять, — говорит Базыкин, — то это проблема, конечно». Хотя сам ученый не знает о случаях, когда GISAID искажал бы генетические данные или привязанные к ним метаданные.
«[Расследование в Science —] это позорная беспрецедентная травля, — считает Комиссаров. — То, что кого-то забанили, а потом, рассмотрев апелляцию, разбанили, определенно не стоит того, чтобы рушить такое коммьюнити этими медийными ударами».
Ученый отмечает, что GISAID всегда оказывала поддержку членам своего сообщества и всегда была на стороне тех, кто выкладывает данные. Об этом же говорили и собеседники Science, вспоминая, как платформа выдавала гранты лабораториям из развивающихся стран и проводила для них тренинги по секвенированию.
Сам Комиссаров лично не сталкивался со Стивеном Мейерсом, только видел несколько раз адрес его почты в копиях писем. Зато с Петером Богнером общался много — и считает, что научное сообщество недооценивает его заслуги. «Благодаря Петеру, — говорит он, — международному научному сообществу стали доступны данные из таких закрытых стран, как, например, Туркменистан».
В этих странах, по словам ученого, взаимодействие биологов с GISAID может обернуться следующей ситуацией. Исследователь получает данные, согласовывает выгрузку «со своими компетентными органами», загружает геномы в GISAID и отправляется их анализировать. В это время биоинформатики из другой страны их скачивают, обрабатывают и публикуют в открытом доступе свои выводы — например о том, что в стране появился новый опасный вариант.
И дальше начинается то, что хорошо знакомо ученым из одних стран, но категорически непонятно ученым из других: «Его [исследователя] руководство могут не устраивать выводы чужого исследования (либо сущностно, либо чисто политически, в том числе — почему данные из страны анализируют совершенно другие исследователи). Руководство обвиняет исследователя в том, что он плохо работает/раскрывает лишнюю информацию/еще в чем-то, и требует эти данные удалить. Исследователь сообщает об этом GISAID, платформа закрывает соответствующие записи — и тут же те, кто с ними работал, поднимают шум: такая-то страна что-то скрывает». После чего исследователям из этих стран могут запретить вообще что бы то ни было выкладывать. А то и вовсе уволить. «В результате быстрый препринт приводит к тому, что из какой-то страны или территории данные перестают поступать вообще, — говорит ученый. — Выигрывает ли от этого мировое научное сообщество?»
Именно для того, чтобы такого не происходило, объясняет Комиссаров, GISAID требует от участников консорциума сотрудничать с теми, кто выкладывает данные в открытый доступ. Часто одних только последовательностей и метаданных недостаточно, чтобы правильно интерпретировать результаты. Общение позволяет избежать и таких ошибок, и возможных политических проблем. Хотя и это, конечно, не всегда помогает. Так что президент GISAID постоянно ведет «сложнейшую политическую и лоббистскую работу. И своевременная публикация генетических данных из Китая во время великой китайской волны омикрона в 2022 году потребовала от него недюжинных усилий».
Но, так или иначе, ни у кого не возникает сомнений, что GISAID — хороший и важный инструмент. «Он технически удобнее, чем альтернативы типа NCBI, — говорит Базыкин, — многие задачи, которые в других системах решать очень муторно, решаются в несколько кликов. И он стал де факто стандартом».
Поэтому прямо сейчас, если вирусологи решат сменить площадку, деваться им особенно некуда. «В настоящее время альтернативы GISAID нет, — утверждает Комиссаров. — Я не знаю никакой другой платформы, которая обеспечивала бы такой быстрый обмен данными, настолько поддерживала бы своих пользователей и настолько действовала в интересах науки и общего блага».
«Можно переехать в тот же NCBI, — рассуждает Базыкин, — хотя там все забюрократизировано и слишком открытый доступ (любой ученый может скачать оттуда данные и пользоваться ими на свое усмотрение — N + 1). А разумная система ограничения доступа как раз и позволила GISAID расцвести». Или можно сделать еще одну базу с нуля. «Это все-таки не такое сложное мероприятие, — говорит ученый. — Можно сделать просто то же самое, но с разумным внешним управлением».
Но создавать новую библиотеку никто пока не спешит. К тому же, GISAID аккумулировала в себе огромное количество данных — которые остаются привязаны к платформе. Никто так и не начал перевозить их в другие банки. Администрация базы объясняет это тем, что геномы и без того лежат в открытом доступе, так что нет смысла разрабатывать специальные инструменты, чтобы перемещать их в другие системы.
Поэтому, несмотря на споры и расследования, платформа продолжает жить и пополняться геномами. За время пандемии на ней завелись и другие патогены: к гриппу и коронавирусу добавились респираторный синцитиальный вирус и оспа обезьян.
Почему Нобелевскую премию за микроРНК не вручили 18 лет назад
За несколько дней до объявления первых Нобелевских лауреатов 2024 года журнал Nature составил портрет среднестатистического нобелиата, собрав данные за 123 года существования премии и обобщив биографии 646 ее получателей. Виктор Эмброс и Гэри Равкан вписываются в этот образ идеально: они оба немолоды и выросли в США, начали свою карьеру под руководством других нобелиатов и прождали своей премии почти 30 лет. Но есть одно обстоятельство, которое выделяет их судьбу из общего ряда: про их открытие однажды уже писали в Нобелевском пресс-релизе. Это было 18 лет назад, когда премию присудили другим людям. Рассказываем, как так получилось и почему Эмбросу и Равкану пришлось так долго ждать своей награды.