Вопросы по базе

Чем ученых смущает крупнейшая библиотека вирусных геномов

Пандемия ковида принесла популярность и репутацию не только Zoom’у и мРНК-вакцинам, но и генетическим базам данных. В первую очередь — GISAID, прежде специализировавшейся на гриппе. Лаборатории со всего мира загружают туда отсеквенированные геномы коронавируса, а вирусологи, эпидемиологи и примкнувшие к ним энтузиасты перебирают эти последовательности в поисках новых вариантов и опасных мутаций. Туда же заглядывают производители тестов и вакцин. А еще — те, кто надеется выловить в базе ранние сиквенсы из Уханя и таким образом выяснить что-то о происхождении коронавируса. За три года из узкоспециализированного инструмента платформа GISAID стала ключевым элементом вирусологической инфраструктуры — и чем дальше, тем больше у ее пользователей возникает претензий и вопросов.

В 2006 году мир переживал из-за птичьего гриппа H5N1 (точно так же, как волнуется сейчас из-за его очередного варианта). Стартовав, предположительно, в Юго-Восточной Азии, вирус вместе с птицами долетел до Европы, по пути иногда заражая людей. Европейские вирусологи занервничали: хотелось бы иметь возможность посмотреть на геном пришельца. Вдруг в нем обнаружится что-то опасное и ученым срочно понадобится придумывать вакцину?

С доступом к геномам все было непросто. С одной стороны, были открытые базы генетических данных — например, Национальный центр биотехнологической информации США (NCBI) с 1982 года поддерживает базу GenBank; там, среди прочего, лежит геном человека. С другой стороны, открытая политика GenBank и его аналогов предполагает, что кто угодно из пользователей может скачать оттуда данные и распоряжаться ими на . А во время вспышки события развиваются очень быстро. И можно представить себе ситуацию, когда гипотетические ученые из Индонезии (которой в 2006-м досталось сильнее всех) отсеквенировали геном гриппа, выложили его в открытый доступ — а ученые из условной Италии его взяли, быстро проанализировали и первыми опубликовали статью. Или даже сделали на основе этого генома вакцину — первая партия которой отправится, естественно, не в Индонезию. На таких условиях делиться вирусными геномами никому не хотелось.

«На сбор образцов и быстрое секвенирование тратятся миллионы долларов, — объясняет в переписке с N + 1 Андрей Комиссаров, заведующий лабораторией молекулярной вирусологии Института гриппа им. Смородинцева в Санкт-Петербурге и член технического комитета GISAID. — А когда сиквенсы отправляются в public domain, любая группа биоинформатиков может оказаться шустрой и опубликовать анализ тех данных, на получение которых ты потратил силы и время».

Тогда появилась идея сделать новую платформу, честную и справедливую. За это взялись: ученый-вирусолог, чиновник из Центра по контролю заболеваемости (CDC), директор NCBI и — некто Петер Богнер. Они предложили создать консорциум, члены которого будут свободно обмениваться геномами птичьего гриппа. Единственное ограничение — если вы публикуете статью с использованием этих данных, то обязаны указать, кто их добыл. И приложить максимум усилий, чтобы связаться с этим человеком и вместе поработать над результатами. Это, конечно, не поможет индонезийцам первыми получить вакцину. Но, по крайней мере, в любой научной статье по птичьему гриппу появятся их имена — и их сложнее будет забыть или проигнорировать.

Санкции за нечестное использование данных предполагались очень простые — нарушителя лишают доступа к геномам. А без них вирусологу делать совершенно нечего. Придется сидеть без работы полгода — потому что создатели проекта обещали, что не позже чем через шесть месяцев после публикации обработанные, валидированные и проанализированные сиквенсы появятся в одном из открытых генетических банков.

Проект назвали GISAID — всемирная инициатива по распространению данных о птичьем гриппе (Global Initiative on Sharing Avian Influenza Data). Вслед за американскими эпидемиологами его поддержали и европейцы. К птичьему гриппу вскоре добавился человеческий, и уже в 2008 году ВОЗ заглядывала в эту базу за актуальными сиквенсами, чтобы на их основе обновить рекомендации по сезонным вакцинам. А в 2009 году, когда в США вспыхнул свиной грипп, американский Центр по контролю заболеваемости выложил полную расшифровку его генома именно в GISAID.

В 2020-м в платформу вложились уже ВОЗ, институты из Германии, Японии, Сингапура, Бразилии и Сенегала, а также несколько фармкомпаний-гигантов (в том числе производители вакцин Pfizer и Janssen). Все потому, что по миру пошел новый вирус, который нужно было срочно ловить, секвенировать и показывать коллегам. И у вирусологов не возникло сомнений в том, куда выкладывать сиквенсы. Число коронавирусных геномов в базе недавно перевалило за 15 миллионов — это уже в семь раз больше, чем геномов гриппа.

Пандемия вытащила на свет проблемы, которые ученые и медики раньше считали редкими и не заслуживающими особенного внимания, — например, вопрос о том, что такое хроническая усталость. И у GISAID тоже обнаружились недостатки.

Что такое честно

В марте 2023 года вышло недоразумение с сиквенсами с уханьского рынка морепродуктов (мы рассказывали эту историю в материале «Где собака зарыта»). Было так: европейские вирусологи заметили, что в GISAID внезапно появились геномы с уханьского рынка. Они, судя по всему, относились к препринту китайских эпидемиологов, который был опубликован еще в феврале 2022-го — но в самой статье никаких исходных сиквенсов не было.

Обрадовавшись находке, вирусологи изучили эти геномы — и обнаружили, что в одном из образцов встречается генетический материал SARS-CoV-2 и енотовидных собак. До сих пор таких результатов никто, включая китайских эпидемиологов, не получал. Вирусологи написали китайцам и поделились своими наблюдениями. После этого геномы пропали из GISAID. Вирусологи рассказали о происходящем ВОЗ — а в ответ получили гневные письма от администрации платформы и потеряли доступ к своим аккаунтам.

Свою позицию GISAID объяснила так: нехорошо распространять результаты, которые получены на чужих данных. Особенно если вы не сотрудничаете с теми, кто эти данные добыл. И тем более если вы знаете, что обладатель данных включил их в манускрипт и ждет публикации.

Вирусологи в ответ возмутились: во-первых, они пытались сотрудничать с хозяевами данных — и не получили ответа. А во-вторых, геномы появились в базе в начале июня 2022 года. То есть пролежали там девять месяцев — заведомо больше, чем срок в шесть месяцев, на который изначально ориентировались создатели платформы. Получается, что эмбарго на эти последовательности, даже если и существовало, то давно истекло.

Через несколько дней все вернулось на свои места. Геномы снова появились в базе, китайский препринт вышел в виде статьи в Nature, а европейцы получили свои аккаунты обратно. Научное сообщество принялось обсуждать, правда ли енотовидных собак стоит теперь считать промежуточными хозяевами SARS-CoV-2 (и не все вирусологи с этим согласились). Но вопросы к GISAID остались.

Китайский препринт появился в сети в феврале 2022-го. Геномы, на которых он основан, судя по метаданным, были выложены в июне 2022-го. Как так вышло, что никто из вирусологов не замечал эти сиквенсы до марта 2023-го? Пропустили и проглядели всем миром — или, может быть, это с метаданными что-то не так?

Как пишут историю

Метаданные — это первая линия аргументов, которые идут в дело, когда заходит спор о хронологии научных достижений. Особенно если речь о вспышке вирусной болезни, где счет идет на дни. Так, например, оказалось, что есть две разных точки зрения на то, кто первым отсеквенировал геном SARS-CoV-2.

Большинство вирусологов считает, что пальма первенства принадлежит британцу Эдварду Холмсу, который получил сиквенс от Чжана Юнчжэня из Фуданьского университета и выложил его на сайте virological.org. Это не база данных, а форум — Холмсу и Чжану хотелось поделиться своей информацией как можно скорее. Настолько, что они допустили грамматическую ошибку («this data», то есть «этот данные») и позже добавили дисклеймер: «мы знаем, что data — это множественное число, но мы очень торопились».

Сообщение Холмса на форуме датировано двумя часами ночи по США 11 января 2020 года. Руководство GISAID утверждает, что к этому времени в их базе уже лежали коронавирусные геномы — их загрузил китайский Центр по контролю заболеваемости еще 9 января, а всего через час они прошли обработку и появились на сайте.

Поправка

В первой версии статьи мы написали, что на момент публикации генома от Холмса и Чжана в Китае было еще 10 января. Это ошибка. Приносим извинения и благодарим читателей за бдительность.

Как в таком случае вышло, что из ученых не замечал эти геномы целые сутки? Возможно, сиквенсы действительно появились на сайте, но не в открытом доступе. У администраторов платформы есть техническая возможность скрывать данные от публики — например, по просьбе автора записи, который нашел в ней ошибку или решил ее обновить. Представители GISAID утверждают, что именно это и произошло с сиквенсами с уханьского рынка, когда те временно исчезли из базы.

Можно представить себе, что и эпидемиологи из Центра по контролю заболеваемости по какой-то причине не хотели сразу же делиться ими с широкой общественностью. И сейчас это мешает создателям GISAID отстоять звание первооткрывателей вируса. Они, правда, не сдаются — и даже требуют от авторов статей, которые упоминают платформу в своих публикациях, называть ее первым источником коронавирусного генома.

Кто эти люди

Это не первый раз, когда у вирусологов возникают разногласия с администрацией GISAID. Еще в 2021 году некоторые ученые жаловались на то, что им закрывают доступ к данным и обвиняют в нарушении правил работы. О «странной и непрозрачной системе аутентификации» говорит в переписке с N + 1 и микробиолог Георгий Базыкин: «Разные люди получали разные права без объяснения причин».

Большинство этих проблем вирусологи связывают с одним из создателей платформы Петером Богнером. Обычно в статьях его называют президентом GISAID, хотя на ее сайте он не упоминается среди руководства — там перечислены только члены научного и технического комитетов платформы. И, судя по недавнему расследованию, которое выпустил журнал Science, это не единственный странный факт в его биографии.

Журналисты Science признаются: восстановить карьеру Богнера довольно непросто. Но до появления GISAID он, видимо, никак не был связан ни с вирусологией, ни вообще с наукой. Человек с таким именем сидел в американской тюрьме за мошенничество при продаже страховок, а потом торговал обучающими видео по горным лыжам. Сам же Богнер рассказывает, что до создания платформы он был теле- и кинопродюсером, — но этого Science подтвердить не смог.

Однако исследователей, которые пользуются GISAID, смущает вовсе не прошлое ее президента. И даже не сложная схема руководства и финансирования проекта — полных отчетов о том, сколько денег и от кого получает платформа, на ее сайте тоже нет. Проблемы возникают с коммуникацией: многие ученые жалуются журналистам Science на то, что Богнер ведет себя грубо и ограничивает доступ к платформе в ответ на любую, даже мягкую критику.

И даже у тех, кто поддерживает с ним хорошие отношения, в последнее время появились некоторые подозрения. Как рассказали Science несколько ученых, иногда они получают письма от некого Стивена Мейерса с домена GISAID. Он общается с ними в роли менеджера платформы — но при этом никто никогда не видел его живьем. Мейерс много переписывался и говорил по телефону с некоторыми исследователями, но не принял ни одного предложения встретиться лично. Более того, иногда он случайно отвечал с адреса Богнера, и некоторые ученые заметили в их голосе похожие акценты.

Сами Мейерс и Богнер, конечно же, отрицают, что они — один и тот же человек. И, в общем-то, для самого существования платформы, которой они управляют, это не так и важно. Другое дело, что GISAID в последние годы приобрела большой вес. Мир живет в условиях пандемии — которая продолжается несмотря на то, что ВОЗ перестала считать ее чрезвычайной ситуацией. И жизнь множества людей (например, вакцины, которые они получают, или карантины, на которые их сажают) во многом определяется вирусологами. А они буквально живут на платформе, где данными управляют люди, про которых мы почти ничего не знаем. Даже сколько их на самом деле.

«И если создателям/поддержателям нельзя доверять, — говорит Базыкин, — то это проблема, конечно». Хотя сам ученый не знает о случаях, когда GISAID искажал бы генетические данные или привязанные к ним метаданные.

Кто, если не GISAID

«[Расследование в Science —] это позорная беспрецедентная травля, — считает Комиссаров. — То, что кого-то забанили, а потом, рассмотрев апелляцию, разбанили, определенно не стоит того, чтобы рушить такое коммьюнити этими медийными ударами».

Ученый отмечает, что GISAID всегда оказывала поддержку членам своего сообщества и всегда была на стороне тех, кто выкладывает данные. Об этом же говорили и собеседники Science, вспоминая, как платформа выдавала гранты лабораториям из развивающихся стран и проводила для них тренинги по секвенированию.

Сам Комиссаров лично не сталкивался со Стивеном Мейерсом, только видел несколько раз адрес его почты в копиях писем. Зато с Петером Богнером общался много — и считает, что научное сообщество недооценивает его заслуги. «Благодаря Петеру, — говорит он, — международному научному сообществу стали доступны данные из таких закрытых стран, как, например, Туркменистан».

В этих странах, по словам ученого, взаимодействие биологов с GISAID может обернуться следующей ситуацией. Исследователь получает данные, согласовывает выгрузку «со своими компетентными органами», загружает геномы в GISAID и отправляется их анализировать. В это время биоинформатики из другой страны их скачивают, обрабатывают и публикуют в открытом доступе свои выводы — например о том, что в стране появился новый опасный вариант.

И дальше начинается то, что хорошо знакомо ученым из одних стран, но категорически непонятно ученым из других: «Его [исследователя] руководство могут не устраивать выводы чужого исследования (либо сущностно, либо чисто политически, в том числе — почему данные из страны анализируют совершенно другие исследователи). Руководство обвиняет исследователя в том, что он плохо работает/раскрывает лишнюю информацию/еще в чем-то, и требует эти данные удалить. Исследователь сообщает об этом GISAID, платформа закрывает соответствующие записи — и тут же те, кто с ними работал, поднимают шум: такая-то страна что-то скрывает». После чего исследователям из этих стран могут запретить вообще что бы то ни было выкладывать. А то и вовсе уволить. «В результате быстрый препринт приводит к тому, что из какой-то страны или территории данные перестают поступать вообще, — говорит ученый. — Выигрывает ли от этого мировое научное сообщество?»

Именно для того, чтобы такого не происходило, объясняет Комиссаров, GISAID требует от участников консорциума сотрудничать с теми, кто выкладывает данные в открытый доступ. Часто одних только последовательностей и метаданных недостаточно, чтобы правильно интерпретировать результаты. Общение позволяет избежать и таких ошибок, и возможных политических проблем. Хотя и это, конечно, не всегда помогает. Так что президент GISAID постоянно ведет «сложнейшую политическую и лоббистскую работу. И своевременная публикация генетических данных из Китая во время великой китайской волны омикрона в 2022 году потребовала от него недюжинных усилий».

От редакции

Но, так или иначе, ни у кого не возникает сомнений, что GISAID — хороший и важный инструмент. «Он технически удобнее, чем альтернативы типа NCBI, — говорит Базыкин, — многие задачи, которые в других системах решать очень муторно, решаются в несколько кликов. И он стал де факто стандартом».

Поэтому прямо сейчас, если вирусологи решат сменить площадку, деваться им особенно некуда. «В настоящее время альтернативы GISAID нет, — утверждает Комиссаров. — Я не знаю никакой другой платформы, которая обеспечивала бы такой быстрый обмен данными, настолько поддерживала бы своих пользователей и настолько действовала в интересах науки и общего блага».

«Можно переехать в тот же NCBI, — рассуждает Базыкин, — хотя там все забюрократизировано и слишком открытый доступ (любой ученый может скачать оттуда данные и пользоваться ими на свое усмотрение — N + 1). А разумная система ограничения доступа как раз и позволила GISAID расцвести». Или можно сделать еще одну базу с нуля. «Это все-таки не такое сложное мероприятие, — говорит ученый. — Можно сделать просто то же самое, но с разумным внешним управлением».

Но создавать новую библиотеку никто пока не спешит. К тому же, GISAID аккумулировала в себе огромное количество данных — которые остаются привязаны к платформе. Никто так и не начал перевозить их в другие банки. Администрация базы объясняет это тем, что геномы и без того лежат в открытом доступе, так что нет смысла разрабатывать специальные инструменты, чтобы перемещать их в другие системы.

Поэтому, несмотря на споры и расследования, платформа продолжает жить и пополняться геномами. За время пандемии на ней завелись и другие патогены: к гриппу и коронавирусу добавились респираторный синцитиальный вирус и оспа обезьян.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Универсальные антитела защитили мышей от змеиного яда

Они нейтрализуют α-нейротоксины