Опубликован первый черновик человеческого пангенома

Он позволяет на треть сократить число ошибок при поиске небольших вариаций в индивидуальных геномах


Консорциум референсного пангенома человека показал первые результаты своей работы. Исследователи отсеквенировали образцы от 47 людей и собрали из них пангеном — граф, в котором учитываются даже минимальные нуклеотидные различия между образцами. Дальше они планируют отсеквенировать еще три сотни геномов — чтобы создать генетический стандарт, который учитывает разнообразие людей и точечные вариации в их ДНК. О своей работе ученые рассказали в журнале Nature в трех статьях (1, 2, 3).

В 2022 году, спустя тридцать с лишним лет работы, генетики собрали полный геном человека: 23 хромосомы без единого пробела. Но чтение генома на этом не закончилось — хотя бы потому, что среди этих 23 хромосом не было Y-хромосомы. Ее дочитали только к концу 2022 года. Теперь у биологов есть полноценный стандарт человеческого генома.

Но работа над ним продолжается: дело в том, что предыдущая сборка генома, GRCh38, составлена из фрагментов ДНК нескольких человек. А вариант 2022 года, CHM13, — это вообще геном одной-единственной клеточной линии, причем опухолевой. То есть ни предыдущий, ни новый стандарт (который пока мало где применяется) не учитывают генетического разнообразия людей и не включают в себя множество возможных вариаций. Это окажется важным, когда генетики будут секвенировать геномы отдельных людей и искать в них мутации: чтобы зафиксировать аномалию, нужно хорошо представлять себе, как может выглядеть норма.

Эту проблему должен решить пангеном человека — который представляет собой не линейную последовательность нуклеотидов, а граф, где каждое ответвление соответствует одному из вариантов. Чтобы его собрать, Консорциум референсного пангенома человека (Human pangenome reference consortium) взялся отсеквенировать еще 350 геномов от доноров разного происхождения. Пока получилось собрать 47 геномов — и об этой работе Консорциум отчитался в трех статьях.

Ученые воспользовались 18 образцами, которые раньше уже были отсеквенированы в ходе других исследований, и отобрали еще 29 образцов из базы проекта «1000 геномов». При этом ученые старались добиться максимального разнообразия в своей выборке: они подсчитали генетическое расстояние между 2504 образцами в базе данных и выбрали представителей каждой субпопуляции, которые находятся дальше всего от других субпопуляций. В результате в пангеном попали представители Африканского континента, а еще Азии, Европы и обеих Америк.

Каждый образец отсеквенировали с использованием технологий Oxford Nanopore и PacBio Hi-Fi. Кроме того, в каждом случае генетики использовали сиквенсы генома обоих родителей, чтобы точнее восстановить последовательность. Затем все 47 сиквенсов собрали в единый пангеном — тремя разными методами, поскольку общепринятого алгоритма для сборки пангеномов пока нет. Ученые подсчитали вариации в пангеноме: в одном из вариантов сборки нашлось 22 миллиона маленьких вариаций (длиной меньше 50 нуклеотидов) и 67 тысяч структурных вариаций (длиннее 50 нуклеотидов), в другом варианте — 21 миллион и 73 тысячи соответственно.

Потом исследователи проверили, насколько хорошо их пангеном решает задачу поиска небольших вариаций в геноме отдельных людей. Они взяли данные из еще одного предыдущего исследования и наложили короткие фрагменты сиквенса (риды; то, из чего потом с помощью алгоритмов собирают полный геном) на свой пангеном и на референс GRCh38. В случае с пангеномом получилось 21 700 ошибок (как ложноположительных, так и ложноотрицательных), а с GRCh38 их вышло 29–36 тысяч в зависимости от алгоритма.

Во второй статье, посвященной пангеному, исследователи сосредоточились на сегментных дупликациях — мутациях, в ходе которых большие фрагменты ДНК удваиваются и мигрируют. Они составили карту донорных и акцепторных участков, в которых это происходит, и подсчитали, какие точечные мутации возникают в таких повторах. Третья статья рассказывает о коротких плечах акроцентрических хромосом (то есть таких, у которых плечи сильно неравномерны по длине) — 13, 14, 15, 21 и 22. Авторы этой статьи нашли в них практически идентичные участки и предположили, что из-за этого хромосомы до сих пор продолжают рекомбинировать и обмениваться последовательностями.

Участники Консорциума заключают, что их пангеномная сборка позволит получать более точные данные о геномах — и врачам, которые секвенируют ДНК своих пациентов, и ученым, которые изучают разнообразие вариаций в человеческом геноме. Тем не менее, их работа далеко не завершена. Во-первых, их целью остается собрать 350 полных геномов. Во-вторых, им предстоит повысить точность секвенирования: когда они наложили свой пангеном на последний вариант референса CHM13, то для 4,4 процента последовательности референса в пангеноме не нашлось соответствий. Это означает, что технология нуждается в доработке и некоторые области генома все еще ускользают от секвенирования.

90 процентов таких областей, по подсчетам исследователей, лежат в области центромер. О том, что такое центромеры, почему их так сложно расшифровать и о чем они рассказывают тем, кому все-таки удалось их прочесть, читайте в нашем материале «Путешествие к центру генома».

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Живая музыка тронула слушателей сильнее записанной

Амигдала и слуховая кора реагировали сильнее на живую игру пианиста