Поучительная история о том, как неизвестные паразиты испортили данные в генетической базе
Чтобы войти в культуральную комнату, нужно надеть чистый халат и одноразовые перчатки. Продуть ламинарный бокс, протереть спиртом рабочие поверхности, — и только после этого можно открывать инкубатор с клетками. Если чем-то пренебречь, этим наверняка воспользуются бактерии, которые испортят сначала пробы, потом экспериментальные данные — в результате грязными оказываются целые библиотеки данных. Недавно ученые из Стэнфорда прошерстили одну такую базу с ДНК и нашли в ней миллионы чужеродных последовательностей. Они пытались было взвалить вину на ленивых лаборантов или небрежных производителей оборудования — но потом поняли, что виноваты совсем другие люди.
Сегодня биолог может выпустить статью, ни разу даже не потрогав объект своих исследований, — если информация о нем уже есть в соответствующей базе данных. Это удобнее, быстрее и дешевле, чем каждый раз начинать с «мокрой» лабораторной работы. Правда, для этого чужим данным надо довериться.
Изредка в базах данных встречается откровенный подлог (мы рассказывали о том, как с ним мучаются химики, в материале «Деплатформинг структур»). Но гораздо чаще попадается обычная грязь: даже если образцы и данные действительно существуют, сама проба, с которой они получены, может быть контаминирована. Исследователь, который не сам эту пробу собрал и в руках ее не держал, узнает об этом, только когда не сможет получить ожидаемый результат — или когда его эксперимент не смогут воспроизвести коллеги. А может быть, и не узнает вообще.
Чтобы оценить масштаб этой беды, группа ученых из Стэнфорда провела эксперимент с базой данных iHART. Там собраны геномы детей с расстройствами аутистического спектра, а заодно их братьев, сестер и родителей — всего 4 569 человек. С помощью такой базы можно искать, например, общие варианты отдельных генов в разных семьях, или характерные мутации. Но поскольку для этого не обязательно знать, где какие гены расположены, из результатов секвенирования не собирают цельные геномы. Данные хранятся в виде обрывочных сиквенсов (ридов), это около миллиарда коротких фрагментов на каждого человека в базе.
Ученые наложили их на референсный геном человека, чтобы проверить, не найдется ли в нем фрагментов нечеловеческого происхождения. И не прогадали: около десяти миллионов ридов из каждого образца не подошли ни к одному из участков эталона.
Тогда исследователи стали выяснять, кто обронил эти обрывки, и примерили их к геномам разных микробов. Примерно четверть неопознанных фрагментов оказались не похожи ни на какие известные последовательности ДНК. Еще девять процентов, наоборот, подходили к нескольким референсам сразу. Около трети были ближе к человеческому геному, чем к чьему бы то ни было еще — поэтому их признали неверно прочитанными (или сломанными) кусочками ДНК человека. А еще 30 процентам отрезков нашлись соответствия внутри геномов вирусов, бактерий и архей.
Таким образом в каждом образце обнаружилось по паре миллионов чужих последовательностей. Стэнфордские ученые объединили их под благозвучным термином «контаминóм» и стали искать виноватых: откуда так много грязи в данных, которые добыты в Центре секвенирования в Нью-Йорке, где придерживаются стандартных процедур и работают по общепринятым протоколам?
Проще всего было бы, конечно, решить, что контамином — плод контаминации: бактерии и вирусы попали в образцы по неаккуратности и недосмотру.
Так действительно время от времени случается. Например, в 2013 году группа американских и китайских инфекционистов нашла новый вирус у пациентов с гепатитом. Во всех случаях гепатит был серонегативным — симптомы болезни похожи на инфекцию, но тесты на вирусы гепатита A, B, C, D и E дают негативный ответ. Отсеквенировав всю ДНК, что нашли в крови пациентов, ученые обнаружили в 70 процентах проб похожие друг на друга последовательности — которые к тому же не встречались ни у одного здорового человека и не были близки ни к одному известному вирусу. Незнакомца нарекли NIH-CQV (по названиям институтов, где работали исследователи) и предположили, что он встречается у больных гепатитом неспроста, — хотя поостереглись назвать его причиной болезни.
В следующем году другие ученые подтвердили, что NIH-CQV существует — но к гепатиту никакого отношения не имеет. Его следы нашлись в колонках для выделения ДНК от одной конкретной фирмы. Это пробирки с фильтром из оксида кремия, который удерживает нуклеиновые кислоты и позволяет отмыть их от разных других веществ. На них (но не на колонках других производителей) биологам удалось выделить фрагменты ДНК NIH-CQV даже из чистой воды.
Поправка
В предыдущей версии текста мы ошиблись: фильтр в колонках делают не из силикона, а из оксида кремния (silica). Приносим свои извинения.
Откуда на самом деле взялся этот вирус, точно неизвестно до сих пор, есть только догадки. Его родственника нашли в сиквенсах из прибрежных вод Тихого Океана. Возможно, NIH-CQV на самом деле заражает не людей, а диатомовые водоросли, из панцирей которых получают оксид кремния для колонок.
Такие фокусы с последующим разоблачениями происходили и позже. В 2017 году, например, ученые выяснили, что бактерии, которых часто находят вместе с определенными типами опухолей, скорее всего, живут не в организме больных, а в исследовательских центрах, где обрабатывают их пробы. Поэтому можно было бы предположить, что обрывки нечеловеческих геномов в базе iHART — это просто микробиом лабораторного оборудования (его иногда называют «китомом» — от kit, набор).
В подтверждение этой догадки в iHART нашлись участки генома, принадлежащие известному лабораторному объекту — бактериофагу лямбда. ДНК этого вируса изучена настолько хорошо, что служит стандартом при калибровке секвенаторов — поэтому, в целом, можно представить себе, как она попала в секвенируемые образцы.
Нашлись в контаминоме и следы заражения бактериями. Они, судя по всему, попали на плашки для секвенирования — планшеты с лунками, в которые закапывают разные образцы и потом всем скопом ставят в секвенатор. По крайней мере, обрывки геномов некоторых бактерий встречались чаще на образцах с одной и той же плашки. А поскольку образцы у членов одной семьи, скорее всего, берут и обрабатывают одновременно, они наверняка попадают на одну плашку. В таком случае исследователь, который не делает поправки на контаминацию, может найти следы одних и тех же бактерий у всех членов семьи — и сделать ложные выводы о том, как эти бактерии связаны с наследованием аутизма (а микробов нередко обвиняют в развитии этого расстройства, об этом в нашем тексте «Кто первый начал»).
Но не все фрагменты микробных ДНК в данных iHART можно было напрямую связать со злополучными плашками. Как еще они могли оказаться в базе данных? Можно предположить, что они попали в образец вместе с кровью доноров.
Микробиом есть у множества областей человеческого тела — бактерии живут в кишечнике, в глазу и в половых органах. Но с кровью все не так просто: она всегда считалась стерильной (по крайней мере, у здорового человека), хотя все больше ученых сегодня готовы с этим поспорить.
В 1969 году что-то похожее на бактерий крови итальянские ученые заметили под микроскопом — но потом выяснилось, что это просто мембранные пузырьки, оторвавшиеся от кровяных телец. Потом датчане вырастили микробные культуры из проб крови. А исследователи из ЮАР возразили, что дело тут не в особенностях бактерий, а в мастерстве культивации: быть может, бактерии случайно попали в кровь и жить там не способны, а растут в лаборатории только благодаря удачно подобранной среде.
Позже, когда в лаборатории завезли секвенаторы, ученые стали искать в крови следы бактериальных ДНК и РНК. И находили — но одни объявляли, что наконец открыли кровяной микробиом, а другие списывали эти находки на кривые руки экспериментаторов.
Доказать, что вы имеете дело с исконными обитателями крови, а не со случайными гостями, невероятно сложно. Поскольку самих этих обитателей, даже если они существуют, крайне мало (иначе бы их мы заметили намного раньше, на обычном мазке), то и концентрация их ДНК в пробах тоже должна быть очень низкой. А чем меньше в образце ДНК, тем ближе мы к порогу чувствительности методов, которыми ее ищут и проверяют, — и тем проще ошибиться. Поэтому, чтобы убедить оппонентов в существовании микробиома крови, нужно запастись всеми возможными контролями (например отсеквенировать по отдельности все свои реагенты) — а этим большинство исследований похвастаться не могут.
Кроме того, источником загрязнения могут быть и соседние ткани — например кожа, через которую проходит игла по дороге в вену и которая уж точно населена самыми разными микробами. Или кишечник, сквозь стенку которого время от времени, кажется, могут проникать отдельные бактерии — и тогда непонятно, считать ли кровоток местом их прописки. Например, в недавнем исследовании (еще не прошедшем рецензию) выяснилось, что в тех случаях, когда бактерий все-таки находят в крови, это каждый раз другой набор видов, а не устоявшееся сообщество с общим ядром — как во всех остальных микробиомах человека.
С оглядкой на все это стэнфордские ученые решили, что не будут считать грязь в базе данных iHART следами кровяных бактерий. К тому же, заметили они, те виды, чьи обрывки ДНК обнаружились в человеческих образцах, больше похожи на жителей воды или ротовой полости — а вовсе не на тех, кому приписывают статус постоянных обитателей крови.
И тогда у стэнфордских исследователей появилась третья идея.
Они заметили, что некоторые обрывки микробных геномов подозрительно хорошо коррелируют с полом человека, у которого был взят образец. 77 647 коротких (по сотне нуклеотидов) отрывков бактериальной ДНК чаще встречались в образцах мужчин.
Можно было бы просто решить, что некоторые бактерии сопровождают аутизм в зависимости от пола. Но ученые заметили, что эти микробные фрагменты как будто передаются по наследству. Внутри одной семьи бактериальная ДНК совпадала в основном в парах отец-сын или мать-дочь, но не наоборот: у отцов и дочерей (а также матерей и сыновей) они пересекались редко. Это показалось исследователям странным: если бы микробы жили внутри членов одной семьи, они наверняка обменивались бы ими вне зависимости от пола.
Так у них появилась мысль, что эти сомнительные обрывки ДНК — это не грязь из реактивов и не бактерии крови, а кусочки человеческой ДНК, причем связанные с полом. То есть фрагменты половых хромосом — которые почему-то выглядят похожими на бактериальную ДНК.
Тогда нужно было объяснить, что пошло не так и почему человеческую ДНК приняли за бактериальную, — ведь эти 78 тысяч обрывков совпали с участками из референсных геномов реальных бактерий.
Такие случаи раньше уже встречались. Когда ученые секвенируют геном бактерий, они тоже рискуют его контаминировать — как генетическим материалом источника бактерий, так и собственной ДНК. Поэтому чужеродные фрагменты не раз находили и в бактериальных геномах. Например, в 2014 году в геноме возбудителя гонореи нашлась ДНК овцы и коровы. А в 2011 году обрывки Alu-повторов из генома человека обнаружили в сиквенсах 492 видов, включая амфибий, червей, рыбок данио-рерио и кукурузу. Значит среди бактериальных геномов могли найтись и фрагменты человеческой Y-хромосомы — просто достались им в наследство от работавших с ними биологов. Или пациентов. Или кого-то еще.
Но проверить свою догадку стэнфордские ученые никак не могли — потому что человеческий геном еще не был до конца прочитан. Хотя он уже 20 с лишним лет считался расшифрованным, в нем оставалось немало белых пятен (об этом подробнее в материале «Геном человека: двадцать лет спустя»). И когда стэнфордская группа писала свою работу о контаминоме, полного референса ДНК человека в ее распоряжении попросту не было — в том числе и Y-хромосома, с которой они могли бы сравнить подозрительные последовательности, была «дырявой».
Так что они могли только предполагать, и предположили вот что: когда их предшественники собирали референсные геномы бактерий, им тоже нужно было отделить нужные последовательности в данных секвенирования от ненужных. Например от фрагментов человеческой ДНК, которые случайно попали в пробу. Чтобы их отфильтровать, все полученные последовательности сверяли с референсным геномом человека, отбрасывали совпадения, а остальное считали геномом бактерии. Но поскольку референс был неполон, какие-то участки человеческих ДНК с ним не совпали — и их записали в бактериальные. А теперь, когда эти последовательности появляются в человеческих образцах, их принимают за следы бактерий.
После того, как статью стэнфордских ученых приняли к публикации, новый вариант референсного генома человека уже появился, полноразмерный и без пятен (об этом подробнее в тексте «Путешествие к центру генома»). Поэтому им смогли воспользоваться ученые из Университета Джонса Хопкинса — те самые, что нашли следы коровы и овцы, а потом и человека в геноме возбудителя гонореи. Исследователи примерили все 77 647 сомнительных отрывков ДНК из базы iHART к полной версии Y-хромосомы — и для 73 691 кусочка в ней нашлись соответствия. Так что подозрительная бактериальная ДНК, которая передается по наследству в семьях с аутизмом между людьми одного пола, действительно оказалась частью человеческих половых хромосом.
Вот так, в попытках оценить, как сильно человеческие образцы заражены бактериями, ученые наткнулись на пример обратного — как люди сами поселились в геномах своих же симбионтов. Такую контаминацию исследователи назвали вычислительной (computational contamination) — в противовес обычному экспериментальному загрязнению. И напоминают: тем, кто научился спасать свои образцы от микробов, теперь предстоит встать на защиту самих микробов — отмывать их геномы и придумывать новые меры предосторожности, чтобы оградить бактерий от следов и примесей человека.
Лучшие снимки конкурса European Wildlife Photographer of the Year 2025
24 октября German Society for Nature Photography (GDT) объявило победителей ежегодного конкурса European Wildlife Photographer of the Year, который существует уже четверть века. На этот раз жюри отметило 107 работ в восьми категориях и четырех специальных номинациях. Посмотрите на лучшие снимки этого года.