Это было главное белое пятно в последней версии прочитанного генома
В новой версии человеческого генома стало на одну хромосому больше — добавилась Y-хромосома. В полную последовательность, которую Консорциум T2T («От теломеры к теломере») опубликовал весной 2022 года, она не вошла — по разным причинам ее технически сложно отсеквенировать. Сейчас участники того же Консорциума наконец-то собрали и ее. Результаты работы они выложили на портал препринтов bioRxiv. И подтвердили, что с помощью собранной последовательности можно вычислять в геномах людей мутации, сцепленные с полом. А еще — искать в опубликованных геномах бактерий следы загрязнения человеческой ДНК.
Обновлено: 23 августа 2023 года статью опубликовали в журнале Nature.
Проект «Геном человека» начался еще в 1980-х годах, но полностью прочитать последовательность человеческой ДНК и собрать из нее законченный генетический «стандарт» удалось не сразу. О том, какие технические препятствия этому мешали, мы рассказывали в тексте «Путешествие к центру генома». Первый черновик появился в 2001 году, за ним последовали еще несколько, а весной 2022 года Консорциум T2T опубликовал новую практически полную версию генома, CHM13. Но эта версия была «женской» — в нее вошла только последовательность Х-хромосомы. Дело в том что CHM13 — это клетки опухоли, которая образовалась при удвоении генома сперматозоида с X-хромосомой. Поэтому все хромосомы у нее были в двух идентичных экземплярах, в том числе и Х.
Чтобы собрать Y-хромосому, участники Консорциума T2T под руководством Адама Филиппи (Adam M. Phillippy) из американского Национального института исследований человеческого генома взяли другой геном, HG002, принадлежащий реальному человеку — мужчине-ашкеназу. Здесь их ждала другая техническая сложность — как и у большинства мужчин, в его клетках есть одновременно Х- и Y-хромосомы. А у них немало очень похожих (псевдоаутосомных) участков.
Сначала исследователи отсеквенировали две эти хромосомы с помощью технологии PacBio HiFi и построили струнные графы (string graphs) — диаграммы, на которых видны отдельные непересекающиеся фрагменты хромосом, но не всегда очевидно, в каком порядке они расположены. Эти графы для X- и Y-хромосомы ожидаемо перекрывались — потому что часть фрагментов была общей.
Чтобы восстановить последовательность хромосом более точно и по отдельности, ученые секвенировали их еще раз с помощью другой технологии — Oxford Nanopore. А потом прогнали через алгоритм, который помогает справиться с повторами — а их в Y-хромосоме немало — и выстроить их в последовательность. После чего понадобилось еще четыре раунда «полировки» — то есть сопоставления с другими результатами секвенирования. На выходе получился текст длиной в 62 460 029 нуклеотидов без пробелов — и, по оценкам авторов работы, с вероятностью ошибки меньше, чем в 1 нуклеотид на 10 миллионов пар. Это примерно на 30 миллионов нуклеотидов длиннее, чем предыдущая сборка Y-хромосомы из версии GRCh38 (которая была еще до CHM13).
Отличия затронули несколько мест хромосомы. Во-первых, псевдоаутосомные участки — которые для GRCh38 просто скопировали с X-хромосомы, а не собрали с нуля именно для Y-хромосомы. Во-вторых, центромеры — в предыдущей сборке они были скорее моделью, чем честно выстроенной последовательностью (о том, почему так сложно читать центромеры, мы тоже рассказывали в тексте «Путешествие к центру генома»). В-третьих, повторы — их на Y-хромосоме немало. И хотя они чаще всего не несут наследственной информации, но влияют на структуру хромосомы в целом, а заодно мешают быстро собрать ее последовательность.
Потом исследователи аннотировали собранную хромосому — то есть расписали, какой участок чему соответствует и где расположены конкретные гены. Всего они насчитали 693 гена, из которых 107, вероятно, кодируют белки.
А дальше ученые проверили, может ли собранная ими последовательность работать генетическим стандартом — то есть можно ли сверять с ней геномы отдельных людей в поисках значимых мутаций, передающихся по мужской линии. Они взяли из базы данных проекта «Тысяча геномов» последовательности ДНК реальных людей, которые предположительно находятся на Y-хромосоме, и поискали их аналоги в своей сборке и в GRCh38. Оказалось, что новый вариант сборки (его назвали T2T-CHM13+Y) помогает распознать и найти на 27,6 процента больше участков, чем его предшественник. Кроме того, исследователи взяли несколько баз данных клинически значимых мутаций, которые до этого сверяли с GRCh38, и перенесли их на новую последовательность — то есть проверили, что больше 98 процентов мутаций имеют свои «здоровые» аналоги и на новой сборке. Таким образом, они подтвердили, что новую последовательность Y-хромосомы можно использовать как клинический стандарт.
Наконец, авторы новой сборки решили проверить еще одну гипотезу — о том, что бактериальные геномы из баз данных загрязнены человеческими последовательностями (об этом мы рассказывали в тексте «Наследили тут»). Поэтому исследователи взяли 77 647 бактериальных последовательностей, которые раньше уже вызывали подозрения у ученых, и наложили их на прочитанную Y-хромосому. Более 95 процентов подошли идеально — то есть они действительно попали в геномы бактерий по ошибке. Потом они проверили еще одну базу бактериальных геномов целиком — и нашли еще несколько тысяч вкраплений человеческой ДНК с Y-хромосомы. Из их 1009 последовательностей можно было вычислить только с помощью новой сборки, но не версии GRCh38.
Таким образом, исследователи не только дополнили прочитанный геном человека еще одной хромосомой. Но еще и подтвердили, что она может работать стандартом при поиске клинически значимых мутаций. А еще — образцом при поиске человеческих «следов» в бактериальной ДНК. Кроме того, авторы работы отработали важную методику — они научились работать с клетками, в которых было не две копии одной хромосомы, а две разных хромосомы, похожих друг на друга (X и Y). Эта технология еще пригодится в будущем, поскольку в планах этого и других консорциумов секвенировать больше человеческих геномов — а в клетках реальных людей (в отличие от специально выбранной опухоли CHM13) всех хромосом по паре, и внутри пары они довольно сильно похожи друг на друга.
Недавно мы рассказывали о японских мышах, которые научились обходиться вообще без Y-хромосомы. А о том, ждет ли такая судьба и человека, читайте в нашем тексте «Полураспад Адама».
Как Вавилов стал посредником между научным сообществом и большевиками
Мнение редакции может не совпадать с мнением автора
Кажется, что в XXI веке история переживает «научный поворот», преодолевая разделение между естественными и гуманитарными дисциплинами. Однако историки заимствовали идеи и методы ученых-естественников и до этого. В книге «История как наука и политика: Эксперименты в историографии и Советский проект» (издательство «НЛО»), переведенной на русский язык Марией Семиколенных, историк науки Елена Аронова прослеживает судьбы шести интеллектуалов и их масштабных программ, чтобы понять, как практики генетики, ботаники и информатики становились востребованными среди историков. Предлагаем вам ознакомиться с фрагментом о начале карьеры Николая Вавилова.