Поучительная история о том, как неизвестные паразиты испортили данные в генетической базе
Чтобы войти в культуральную комнату, нужно надеть чистый халат и одноразовые перчатки. Продуть ламинарный бокс, протереть спиртом рабочие поверхности, — и только после этого можно открывать инкубатор с клетками. Если чем-то пренебречь, этим наверняка воспользуются бактерии, которые испортят сначала пробы, потом экспериментальные данные — в результате грязными оказываются целые библиотеки данных. Недавно ученые из Стэнфорда прошерстили одну такую базу с ДНК и нашли в ней миллионы чужеродных последовательностей. Они пытались было взвалить вину на ленивых лаборантов или небрежных производителей оборудования — но потом поняли, что виноваты совсем другие люди.
Сегодня биолог может выпустить статью, ни разу даже не потрогав объект своих исследований, — если информация о нем уже есть в соответствующей базе данных. Это удобнее, быстрее и дешевле, чем каждый раз начинать с «мокрой» лабораторной работы. Правда, для этого чужим данным надо довериться.
Изредка в базах данных встречается откровенный подлог (мы рассказывали о том, как с ним мучаются химики, в материале «Деплатформинг структур»). Но гораздо чаще попадается обычная грязь: даже если образцы и данные действительно существуют, сама проба, с которой они получены, может быть контаминирована. Исследователь, который не сам эту пробу собрал и в руках ее не держал, узнает об этом, только когда не сможет получить ожидаемый результат — или когда его эксперимент не смогут воспроизвести коллеги. А может быть, и не узнает вообще.
Чтобы оценить масштаб этой беды, группа ученых из Стэнфорда провела эксперимент с базой данных iHART. Там собраны геномы детей с расстройствами аутистического спектра, а заодно их братьев, сестер и родителей — всего 4 569 человек. С помощью такой базы можно искать, например, общие варианты отдельных генов в разных семьях, или характерные мутации. Но поскольку для этого не обязательно знать, где какие гены расположены, из результатов секвенирования не собирают цельные геномы. Данные хранятся в виде обрывочных сиквенсов (ридов), это около миллиарда коротких фрагментов на каждого человека в базе.
Ученые наложили их на референсный геном человека, чтобы проверить, не найдется ли в нем фрагментов нечеловеческого происхождения. И не прогадали: около десяти миллионов ридов из каждого образца не подошли ни к одному из участков эталона.
Тогда исследователи стали выяснять, кто обронил эти обрывки, и примерили их к геномам разных микробов. Примерно четверть неопознанных фрагментов оказались не похожи ни на какие известные последовательности ДНК. Еще девять процентов, наоборот, подходили к нескольким референсам сразу. Около трети были ближе к человеческому геному, чем к чьему бы то ни было еще — поэтому их признали неверно прочитанными (или сломанными) кусочками ДНК человека. А еще 30 процентам отрезков нашлись соответствия внутри геномов вирусов, бактерий и архей.
Таким образом в каждом образце обнаружилось по паре миллионов чужих последовательностей. Стэнфордские ученые объединили их под благозвучным термином «контаминóм» и стали искать виноватых: откуда так много грязи в данных, которые добыты в Центре секвенирования в Нью-Йорке, где придерживаются стандартных процедур и работают по общепринятым протоколам?
Проще всего было бы, конечно, решить, что контамином — плод контаминации: бактерии и вирусы попали в образцы по неаккуратности и недосмотру.
Так действительно время от времени случается. Например, в 2013 году группа американских и китайских инфекционистов нашла новый вирус у пациентов с гепатитом. Во всех случаях гепатит был серонегативным — симптомы болезни похожи на инфекцию, но тесты на вирусы гепатита A, B, C, D и E дают негативный ответ. Отсеквенировав всю ДНК, что нашли в крови пациентов, ученые обнаружили в 70 процентах проб похожие друг на друга последовательности — которые к тому же не встречались ни у одного здорового человека и не были близки ни к одному известному вирусу. Незнакомца нарекли NIH-CQV (по названиям институтов, где работали исследователи) и предположили, что он встречается у больных гепатитом неспроста, — хотя поостереглись назвать его причиной болезни.
В следующем году другие ученые подтвердили, что NIH-CQV существует — но к гепатиту никакого отношения не имеет. Его следы нашлись в колонках для выделения ДНК от одной конкретной фирмы. Это пробирки с фильтром из оксида кремия, который удерживает нуклеиновые кислоты и позволяет отмыть их от разных других веществ. На них (но не на колонках других производителей) биологам удалось выделить фрагменты ДНК NIH-CQV даже из чистой воды.
Поправка
В предыдущей версии текста мы ошиблись: фильтр в колонках делают не из силикона, а из оксида кремния (silica). Приносим свои извинения.
Откуда на самом деле взялся этот вирус, точно неизвестно до сих пор, есть только догадки. Его родственника нашли в сиквенсах из прибрежных вод Тихого Океана. Возможно, NIH-CQV на самом деле заражает не людей, а диатомовые водоросли, из панцирей которых получают оксид кремния для колонок.
Такие фокусы с последующим разоблачениями происходили и позже. В 2017 году, например, ученые выяснили, что бактерии, которых часто находят вместе с определенными типами опухолей, скорее всего, живут не в организме больных, а в исследовательских центрах, где обрабатывают их пробы. Поэтому можно было бы предположить, что обрывки нечеловеческих геномов в базе iHART — это просто микробиом лабораторного оборудования (его иногда называют «китомом» — от kit, набор).
В подтверждение этой догадки в iHART нашлись участки генома, принадлежащие известному лабораторному объекту — бактериофагу лямбда. ДНК этого вируса изучена настолько хорошо, что служит стандартом при калибровке секвенаторов — поэтому, в целом, можно представить себе, как она попала в секвенируемые образцы.
Нашлись в контаминоме и следы заражения бактериями. Они, судя по всему, попали на плашки для секвенирования — планшеты с лунками, в которые закапывают разные образцы и потом всем скопом ставят в секвенатор. По крайней мере, обрывки геномов некоторых бактерий встречались чаще на образцах с одной и той же плашки. А поскольку образцы у членов одной семьи, скорее всего, берут и обрабатывают одновременно, они наверняка попадают на одну плашку. В таком случае исследователь, который не делает поправки на контаминацию, может найти следы одних и тех же бактерий у всех членов семьи — и сделать ложные выводы о том, как эти бактерии связаны с наследованием аутизма (а микробов нередко обвиняют в развитии этого расстройства, об этом в нашем тексте «Кто первый начал»).
Но не все фрагменты микробных ДНК в данных iHART можно было напрямую связать со злополучными плашками. Как еще они могли оказаться в базе данных? Можно предположить, что они попали в образец вместе с кровью доноров.
Микробиом есть у множества областей человеческого тела — бактерии живут в кишечнике, в глазу и в половых органах. Но с кровью все не так просто: она всегда считалась стерильной (по крайней мере, у здорового человека), хотя все больше ученых сегодня готовы с этим поспорить.
В 1969 году что-то похожее на бактерий крови итальянские ученые заметили под микроскопом — но потом выяснилось, что это просто мембранные пузырьки, оторвавшиеся от кровяных телец. Потом датчане вырастили микробные культуры из проб крови. А исследователи из ЮАР возразили, что дело тут не в особенностях бактерий, а в мастерстве культивации: быть может, бактерии случайно попали в кровь и жить там не способны, а растут в лаборатории только благодаря удачно подобранной среде.
Позже, когда в лаборатории завезли секвенаторы, ученые стали искать в крови следы бактериальных ДНК и РНК. И находили — но одни объявляли, что наконец открыли кровяной микробиом, а другие списывали эти находки на кривые руки экспериментаторов.
Доказать, что вы имеете дело с исконными обитателями крови, а не со случайными гостями, невероятно сложно. Поскольку самих этих обитателей, даже если они существуют, крайне мало (иначе бы их мы заметили намного раньше, на обычном мазке), то и концентрация их ДНК в пробах тоже должна быть очень низкой. А чем меньше в образце ДНК, тем ближе мы к порогу чувствительности методов, которыми ее ищут и проверяют, — и тем проще ошибиться. Поэтому, чтобы убедить оппонентов в существовании микробиома крови, нужно запастись всеми возможными контролями (например отсеквенировать по отдельности все свои реагенты) — а этим большинство исследований похвастаться не могут.
Кроме того, источником загрязнения могут быть и соседние ткани — например кожа, через которую проходит игла по дороге в вену и которая уж точно населена самыми разными микробами. Или кишечник, сквозь стенку которого время от времени, кажется, могут проникать отдельные бактерии — и тогда непонятно, считать ли кровоток местом их прописки. Например, в недавнем исследовании (еще не прошедшем рецензию) выяснилось, что в тех случаях, когда бактерий все-таки находят в крови, это каждый раз другой набор видов, а не устоявшееся сообщество с общим ядром — как во всех остальных микробиомах человека.
С оглядкой на все это стэнфордские ученые решили, что не будут считать грязь в базе данных iHART следами кровяных бактерий. К тому же, заметили они, те виды, чьи обрывки ДНК обнаружились в человеческих образцах, больше похожи на жителей воды или ротовой полости — а вовсе не на тех, кому приписывают статус постоянных обитателей крови.
И тогда у стэнфордских исследователей появилась третья идея.
Они заметили, что некоторые обрывки микробных геномов подозрительно хорошо коррелируют с полом человека, у которого был взят образец. 77 647 коротких (по сотне нуклеотидов) отрывков бактериальной ДНК чаще встречались в образцах мужчин.
Можно было бы просто решить, что некоторые бактерии сопровождают аутизм в зависимости от пола. Но ученые заметили, что эти микробные фрагменты как будто передаются по наследству. Внутри одной семьи бактериальная ДНК совпадала в основном в парах отец-сын или мать-дочь, но не наоборот: у отцов и дочерей (а также матерей и сыновей) они пересекались редко. Это показалось исследователям странным: если бы микробы жили внутри членов одной семьи, они наверняка обменивались бы ими вне зависимости от пола.
Так у них появилась мысль, что эти сомнительные обрывки ДНК — это не грязь из реактивов и не бактерии крови, а кусочки человеческой ДНК, причем связанные с полом. То есть фрагменты половых хромосом — которые почему-то выглядят похожими на бактериальную ДНК.
Тогда нужно было объяснить, что пошло не так и почему человеческую ДНК приняли за бактериальную, — ведь эти 78 тысяч обрывков совпали с участками из референсных геномов реальных бактерий.
Такие случаи раньше уже встречались. Когда ученые секвенируют геном бактерий, они тоже рискуют его контаминировать — как генетическим материалом источника бактерий, так и собственной ДНК. Поэтому чужеродные фрагменты не раз находили и в бактериальных геномах. Например, в 2014 году в геноме возбудителя гонореи нашлась ДНК овцы и коровы. А в 2011 году обрывки Alu-повторов из генома человека обнаружили в сиквенсах 492 видов, включая амфибий, червей, рыбок данио-рерио и кукурузу. Значит среди бактериальных геномов могли найтись и фрагменты человеческой Y-хромосомы — просто достались им в наследство от работавших с ними биологов. Или пациентов. Или кого-то еще.
Но проверить свою догадку стэнфордские ученые никак не могли — потому что человеческий геном еще не был до конца прочитан. Хотя он уже 20 с лишним лет считался расшифрованным, в нем оставалось немало белых пятен (об этом подробнее в материале «Геном человека: двадцать лет спустя»). И когда стэнфордская группа писала свою работу о контаминоме, полного референса ДНК человека в ее распоряжении попросту не было — в том числе и Y-хромосома, с которой они могли бы сравнить подозрительные последовательности, была «дырявой».
Так что они могли только предполагать, и предположили вот что: когда их предшественники собирали референсные геномы бактерий, им тоже нужно было отделить нужные последовательности в данных секвенирования от ненужных. Например от фрагментов человеческой ДНК, которые случайно попали в пробу. Чтобы их отфильтровать, все полученные последовательности сверяли с референсным геномом человека, отбрасывали совпадения, а остальное считали геномом бактерии. Но поскольку референс был неполон, какие-то участки человеческих ДНК с ним не совпали — и их записали в бактериальные. А теперь, когда эти последовательности появляются в человеческих образцах, их принимают за следы бактерий.
После того, как статью стэнфордских ученых приняли к публикации, новый вариант референсного генома человека уже появился, полноразмерный и без пятен (об этом подробнее в тексте «Путешествие к центру генома»). Поэтому им смогли воспользоваться ученые из Университета Джонса Хопкинса — те самые, что нашли следы коровы и овцы, а потом и человека в геноме возбудителя гонореи. Исследователи примерили все 77 647 сомнительных отрывков ДНК из базы iHART к полной версии Y-хромосомы — и для 73 691 кусочка в ней нашлись соответствия. Так что подозрительная бактериальная ДНК, которая передается по наследству в семьях с аутизмом между людьми одного пола, действительно оказалась частью человеческих половых хромосом.
Вот так, в попытках оценить, как сильно человеческие образцы заражены бактериями, ученые наткнулись на пример обратного — как люди сами поселились в геномах своих же симбионтов. Такую контаминацию исследователи назвали вычислительной (computational contamination) — в противовес обычному экспериментальному загрязнению. И напоминают: тем, кто научился спасать свои образцы от микробов, теперь предстоит встать на защиту самих микробов — отмывать их геномы и придумывать новые меры предосторожности, чтобы оградить бактерий от следов и примесей человека.
В него входят шесть видов приматов, включая человека
Сяоцюнь Ван (Xiaoqun Wang) из Китайской академии наук с коллегами представил мультиомный атлас мозга шести видов приматов, включая человека. Для его создания исследователи воспользовались собственными наработками и базами данных PubMed, Gene Expression Omnibus (GEO), UCSC Cell Browser, NeMO, Descartes, EMBL-EBI и Allen Brain Map, чтобы собрать и интегрировать имеющиеся в открытом доступе результаты транскриптомных исследований отдельных клеток, пространственного транскриптомного и эпигеномного анализов мозга. Полученные матрицы экспрессии генов сопоставили с референсными геномами человека, шимпанзе, гориллы, макака-резуса, макака-крабоеда и обыкновенной игрунки. Результаты опубликованы в журнале Nucleic Acids Research.