В поисках предка

Что можно узнать о своих корнях с помощью персональной геномики

Александр Ершов

В прошлый раз мы говорили о технологиях, с помощью которых ученые читают ДНК. О секвенировании (полном или частичном) и о близкой технологии генотипированния, которая позволяет узнать только отдельные (но при этом наиболее информативные), «избранные места» своего генома. Обе технологии дают огромное количество информации и сегодня речь пойдет о том, как ученые пытаются ее интерпретировать и как разобраться в ней обычному человеку.

Компании, которые занимаются Direct To Consumer-геномикой, то есть работают непосредственно с потребителями (а не врачами-генетиками), часто являются объектом либо безосновательных надежд, либо, наоборот, яростной, но столь же безосновательной критики. И то и другое объясняется тем, что люди не знают, чего ждать от результатов генотипирования/секвенирования. Попробуем с этим разобраться.
Начнем с необходимой матчасти. Вся генетическая информация любого человека может быть поделена на три неравные фрагмента. Это, во-первых, «обычные» хромосомы (аутосомы), которые у каждого человека присутствуют в двух копиях: той, что получена от матери, и той, что от отца. Во-вторых, это половые хромосомы: Х и Y. В яйцеклетках всегда присутсвует только одна X хромосома, в сперматозоидах — одна копия либо X, либо Y. Соответственно, Y-хромосомы наследуются только по мужской линии, у женщин их нет. Последняя и самая маленькая часть генома — это митохондриальная ДНК, то есть та нуклеиновая кислота, которую продолжают нести с собой «порабощенные» миллиарды лет назад симбиотические бактерии, превратившиеся в митохондрии. Всех их мы получаем от матери, поэтому наследуется митохондриальная ДНК только по материнской линии. Как видим, здесь соблюдается некоторый изящный паритет.
Почему важно знать об этих трех частях генома? Потому, что они очень по-разному говорят о нашем происхождении. Дело в том, что в каждом поколении аутосомы проходят стадию перетасовывания (рекомбинации), а половые хромосомы (большая их часть) и митохондриальная ДНК в этом процессе не участвуют. В нашем геноме каждая из гомологичных хромосом отца и матери существует отдельно, но вот детям передается их усредненный «микс»: ровно пятьдесят на пятьдесят. Тасуется эта генетическая информация не на уровне хромосом или генов, а как попало: бывает, что половину некоторого гена мы передаем детям от матери, а половину от отца. Соответственно, построить генеалогическое древо отдельного человека по данным аутосом невозможно— этого древа просто нет. Для каждого отдельного гена — есть, а для человека — нет. В этом смысле аутосомный геном напоминает раствор, состав которого мы можем установить довольно точно, а вот историю смешивания — почти никак (можно, однако, оценить «степень перемешанности» — но об этом позже).

С митохондриальной ДНК и Y-хромосомой ситуация совсем другая. Эти части генома постепенно накапливают мутации, но не участвуют в рекомбинации. Поэтому любые вновь появившиеся мутации сохраняются в будущих поколениях носителя практически навсегда (если не произойдет обратной мутации). Так формируются гаплогруппы — совокупности людей, несущих данную мутацию и являющихся потомками того человека, в геноме которого она впервые возникла. Гаплогруппы образуют ветвистое дерево, более тонкие ветви которого — это подварианты более толстых ветвей. Каждому из нас можно сопоставить листик на дереве митохондриальных гаплогрупп, а мужчинам — еще и на дереве гаплогрупп Y-хромосомы.
Если немного подумать о характере наследования этих частей генома, то станет понятно, что где-то в прошлом должна была существовать женщина, которая является последней общей матерью всех ныне живущих людей. Аналогично с Y-хромосомой: должен был существовать некто, чью Y-хромосому унаследовали все ныне живущие мужчины. Читатель, конечно, знает этих персонажей: это так называемые митохондриальная Ева и Y-хромосомный Адам.
Несмотря на громкие имена, в существовании таких людей нет ничего необычного: это простое следствие характера наследованиям митохондрий и Y-хромосом. Для любой группы людей (да и многоклеточных организмов вообще) такие предки должны существовать.

Может показаться, что митохондриальная Ева и Y-хромосомный Адам должны были обязательно отличаться от своих современников — ну, хотя бы, быть основателями некоторого нового сообщества, отделившегося от остальной популяции людей. Это не так. Если взглянуть на схему наследования, становится ясно, что момент появления митохондриальной «Евы» (или «Адама») для любой разделившейся популяции всегда раньше, чем время разделения. А если учитывать неизбежно случайный характер наследования, то получается, что считать этих людей какими-то особенными нет никаких оснований.

Здесь можно было бы рассказать, как, где и когда по данным анализа митохондриальной ДНК и Н-хромосомы человеческая популяция разделялась на разные ветви. Но, во-первых, это данные довольно известные, по ним уже написаны книги и даже сняты фильмы. А, во-вторых, это первое, что в популярной форме расскажет вам любая занимающаяся DTS-геномикой компания. Поэтому здесь интереснее будет упомянуть несколько историй о том, какую информацию о происхождении можно извлечь из генома, если применять современные методы его анализа.

История первая: Братья Коэны

«И сказал Моисей Господу: о, Господи! человек я не речистый[...]: я тяжело говорю и косноязычен. И возгорелся гнев Господень на Моисея, и Он сказал: разве нет у тебя Аарона брата, Левитянина? Я знаю, что он может говорить, и вот, он выйдет навстречу тебе, и, увидев тебя, возрадуется в сердце своем; ты будешь ему говорить и влагать слова в уста его, а Я буду при устах твоих и при устах его и буду учить вас, что вам делать; и будет говорить он вместо тебя к народу; итак он будет твоими устами, а ты будешь ему вместо Бога (Исход 4:14-16)».
Так впервые в Торе и Ветхом Завете появляется Аарон, брат Моисея. Именно Аарон, согласно еврейской традиции, стал основателем священнического сословия, получившего имя Коэнов. Статус коэна передавался из поколения в поколение строго по мужской линии: от отца к сыну. И хотя после разрушения Храма коэны оказались без возможности исполнения своего призвания, их престижный статус сохранился, а название сословия превратилось в множество фамилий: Кохен, Кахана, Кун, Кац и так далее.
Но причем тут персональная геномика? Дело в том, что характер наследования статуса коэнов совпадает с наследованием Y-хромосомы, что дает возможность проверить, во-первых, общность происхождения ныне живущих коэнов, а, во-вторых, время жизни их последнего общего предка. И такая работа была проведена (продолжение здесь), причем в конце 90-х годов, еще до широкого распространения ДНК-микрочипов и появления персональной геномики.
Оказалось, что почти половина современных людей, называющих себя коэнами, являются носителями довольно редкого варианта гаплотипа J1, причем среди остальных евреев частота этого варианта в несколько раз меньше. Частота этого гаплотипа почти одинакова как у сефардов, так и у ашкеназов, хотя эти группы были весьма изолированы друг от друга в течение последних 500 лет. Левиты же (то есть потомки Левия, к которым относились и Аарон, и Моисей) являются существенно более гетерогенной группой.
Более того, на основании существующего разнообразия внутри «коэновского» гаплотипа генетикам удалось рассчитать его возраст. Он составил около 2,5 тысяч лет (с вероятностью в 95 процентов находится в интервале 2100-3250 лет), что хорошо согласуется с временем выхода из Египта и основанием первого Храма.
Но случай коэнов — довольно специфический, можно ли провести подобное исследование на других популяциях? Оказывается, можно, и даже довольно легко.
Исследования, проведенные на населении Великобритании и Ирландии показали, что во многих (хотя и далеко не всех) случаях у носителей одной фамилии резко повышена частота некоторого Y-гаплотипа по сравнению с другим населением. Конечно, такое исследование осложняется тем, что некоторые фамилии берут себе разные «основатели», что фамилии передаются не только биологическим, но и приемным детям и так далее. Тем более удивительно, что на практике это работает. Например, почти 90 процентов британцев с фамилией Аттенборо являются носителями гаплогруппы E1b1b1, а 95 процентов Херриков – это носители гаплогруппы I.
Созданию базы соответствий фамилий и поиску родства посвящены многие проекты энтузиастов геномики, например Ysearch, Ybase или академический YSTR. Успешность такой работы показывает хотя бы тот факт, то в 2013 году на основании открытых данных таких баз было показано, что геномные данные можно довольно легко деанонимизировать, предсказав по ним фамилию владельца.

История вторая: Геномный GPS

Одной из самых интересных иллюстраций того, как генетические данные можно использовать для анализа происхождения, является статья группы Карлоса Бустаманте из Корнельского университета. Статья эта была опубликована уже довольно давно, в 2008 году, но по какой-то причине до сих пор не так хорошо известна, как того заслуживает.
Работа касается анализа генетического разнообразия современного населения Европы и того, как это разнообразие соотносится с географией проживания. Для человека, который интересуется своим происхождением, конечно, неплохо узнать, что он, например, принадлежит к Y-хромосомной гаплогруппе R1a. А значит, его отцовская линия восходит скорее всего к населению восточной Европы. Но этого как-то мало. Тем более обидно получать такую скудную информацию тогда, когда мы знаем, что при анализе мы просто выкинули львиную долю генома.
Как мы уже видели, использовать генетические полиморфизмы в аутосомах не так просто, как при работе с митохондриальной ДНК и Y-хромосомой. Никакого подобия дерева гаплотипов тут нет. Это с одной стороны. С другой — разнообразие SNP в аутосомах гораздо выше, чем в остальных частях генома. Просто потому, что эти последние части гораздо меньше. А значит, разрешение генетического анализа аутосом потенциально может быть гораздо выше.
Группа Карлоса Бустаманте решила эту проблему весьма изящным путем. В работе анализировали геномы более трех тысяч европейцев, которые были собраны в рамках проекта POPRES. Данные были получены с помощью обычных микрочипов примерно на пол-миллиона SNP, которые применяются сейчас почти всеми DTC-геномными компаниями. Из трех тысяч человек исследователи отобрали только тех, чьи бабушки и дедушки происходили из одной страны и забраковали тех, в геноме которых были видны следы недавнего смешивания. Осталось 1387 человек, на данных которых и был построен анализ.
Механизм этого анализа довольно прост. Представим себе множество SNP одного человека как последовательность. С математической точки зрения это будет вектор размерностью ~500000×1 (то есть столько, сколько SNP анализирует чип × 1 человек). Если собрать данные всей выборки, мы получим матрицу размерностью 500000×1387 (столько людей были отобраны для анализа). Затем к этой матрице можно применить метод главных компонент, задача которого — найти размерности, по которым в матрице наблюдается наибольшее разнообразие значений (для двумерного облака точек главной компонентой станет диагональ, вдоль которой это облако вытянуто, для холодильника главная компонента — высота, телевизора — ширина и т.д.).
Так вот, если собрать все генетическое разнообразие 1387 европейцев, и сжать его до двух измерений, то получится вот такая картина. Первая компонента вертикальная, она «кодирует» наибольшую долю разнообразия и при этом всего на десяток градусов отклоняется от географического направления север-юг.

Обратите внимание, в этой картине ней нет ни бита географических данных. То, что она до такой степени напоминает карту Европы — целиком и полностью следствие самих генетических данных, а не топографических сведений о донорах материала. Если не учитывать нескольких, буквально считанных промахов — разрешение такого анализа действительно удивляет. На двумерной диаграмме видны и «сапог Италии», и «генетические Пиринеи», и «генетические Балканы». Прекрасно отличаются друг от друга франко-, немецко- и италоговорящие жители крошечной Швейцарии.

В этой же работе авторы провели и обратную процедуру: попытались предсказать место жительства человека на основании его генетических данных. При этом полиморфизмы одного человека сравнивались с полиморфизмами и данными о месте жительства всех остальных. Получилось, что для 90 процентов людей предсказать место проживания можно с точностью не менее 700 километров, а для половины исследованных ошибка вообще составляет менее 300 километров. Особенно впечатляет этот результат тогда, когда понимаешь, что основой работы стали данные всего-навсего полторы тысячи людей, а анкетные сведения о географии проживания были очень грубыми и приблизительными.

К счастью, данные, о которых идет речь, не остались на страницах журнала. Они доступны любому желающему в нескольких специализированных сервисах по анализу генома. Любой, кто прошел генетическое тестирование и имеет «на руках» свои данные может попробовать найти себя на генетических координатах Европы.

Тут, однако, следует иметь ввиду три ограничения. Во-первых, для не-европейцев такой анализ будет бессмысленным, – нужно применять тут карту, которая соответствует бекграунду (или начать с мировой, которая тоже, конечно, есть). Во-вторых, людям, в геноме которых перемешано несколько далеких друг от друга линий, интерпретировать результаты нужно аккуратно, так как по первым двум компонентам он может очень сильно промахнуться (ведь PCA анализ рассматривает геном как нечто целое, как гомогенный «раствор»). В-третьих, точность позиционирования зависит от подробности полученной базы. Например, в оригинальной работе участвовало очень мало людей славянского происхождения, поэтому жителям восточной Европы рассчитывать на хорошее разрешение анализа не приходится. К счастью, недавно появились данные, которые, потенциально, могут сказать гораздо больше именно таким людям.

История третья: Прощание славян

Речь идет о статье большой международной группы под руководством Олега Балановского в Институте Общей генетики РАН. Работа вышла всего месяц назад и посвящена изучению генетического разнообразия носителей балто-славянских языков. Она не только сфокусирована на жителях восточной Европы, но и включает данные существенно большего числа людей, чем в проекте Бустаманте, а и спектр этих данных существенно шире: тут и данные по аутосомам, и по митохондриальной ДНК, и по Y-хромосоме. Кроме того, для анализа привлекались и некоторые данные сравнительной лингвистики.
Как известно из данных этой самой лингвистики, славяно-балтийские языки выделились в отдельную ветвь индо-европейского где-то около 5-7 тысяч лет назад. Затем, около 3 тысяч лет назад, они поделились на балтийскую (нынешние латышский и литовский языки) и славянскую ветви. Последняя разделилась на южную (сербский, болгарский, македонский и другие), западную (польский, чешский, словацкий и другие) и восточную (русский, украинский, белорусский) ветви, причем последнее деление относится примерно к XII-XIV векам.
По языковым и историческим меркам период формирования балто-славянских языков, безусловно, крупный промежуток времени. Однако в масштабах времени, которыми оперирует геномика, это не так. Достаточно сказать, что большинство ныне существующих крупных гаплотипов мтДНК возникли десятки тысяч лет назад, задолго до появления даже самых древних языковых групп. Тем интереснее, что разрешения, достигнутого в проекте российских генетиков, оказалось достаточно для того, что бы сделать какие-то выводы о нынешних носителях славянских языков и их предках.

Не будет лишним напомнить, что язык, этнос, нация, материальная культура и национальность — это очень разные понятия, которые состоят друг с другом в исключительно сложных соотношениях. Сплошь и рядом лингвисты и историки сталкиваются с тем, что одни народы перенимают языки других народов, что разные народы ассимилируют чужую материальную культуру, сливаются, разделяются и образуют разные государства. Поэтому при интерпретации результатов надо быть внимательным к тому, о чем идет речь: о языковом, генетическом или культурном родстве.

Основой работы стал все тот же анализ полиморфизмов методом главных компонент. Однако на этот раз были выбраны не первые

две

, а первая и третья компонеты, потому что они в рамках использованной выборки они дают лучшее разрешение среди славян. Кроме того, некоторые группы (например, носители русского) были поделены на подгруппы по географии расселения. Для трех частей генома были сделаны три отдельные карты. Причем карты по аутосомам и Y-хромосомной ДНК оказались довольно схожи, а вот картина по митохондриальной ДНК от них отличается (и имеет существенно меньшее разрешение).

Что же удалось узнать? Во-первых, генетические данные в целом подтвердили то, что можно было предполагать из данных лингвистики: балто-славяне действительно образуют относительно компактный кластер среди окружающего их населения. Однако генетические границы не всегда такие жесткие, как лингвистические. Например, между поляками и немцами существует довольно сильный генетический водораздел, в то время как между теми же немцами и чехами граница более плавная, соответствующая длительному обмену генами.

Во-вторых, оказалось, в рамках Восточной Европы генетическая близость довольно хорошо предсказывается близостью географической. Напротив, довольно близкие в языковом плане группы могут быть далеки друг от друга в генетическом смысле, если они разделены большими расстояниями. Стандартное объяснение такой картины у генетиков — это наличие так называемого субстрата, то есть некоей популяции, которая населяла территорию до того, как на ней распространились исследуемые языки. По такому сценарию потомки «аборигенного» населения в целом так и остались жить на тех же местах что и раньше и сохранили свои генетические особенности, но переняли новый язык и, возможно, культуру.

В-третьих, оказалось, что в генетическом смысле южные славяне существенно дальше от западных и восточных; последние же образуют весьма компактный кластер, к которому очень близки носители балтийских языков. Во многом это можно объяснить все тем же «действием расстояний», о которых уже говорилось, ведь заселяющие Балканы южные славяне отделены от западных и восточных неславяноязычными народами (румынами, венграми) с которыми их объединяет почти такое же количество аутосомной ДНК, что и с северными родственниками по языку.

Ну и, в-четвертых, довольно интересным оказалось распространение генетического разнообразия среди восточных славян. Носители русского в работе были поделены на три географические группы: северную, центральную и южную. И три эти группы на полученной генетической карте вытягиваются в очень узкую и длинную линию, которая протягивается от основного кластера украинцев, белоруссов и поляков к финнам, карелам и коми. При этом южная подгруппа русских почти неотличима от других восточных славян.

Очевидно, что здесь идет речь о масштабном смешивании или ассимиляции на севере нынешней России, которая привела к повышенной генетической неоднородности носителей русского языка по сравнению с другими восточными славянами. Для многих русскоязычных людей, желающих узнать больше о своих корнях, такая картина может быть весьма интересной. Потенциально, она позволяет уточнить свое происхождение даже тогда, когда известно, что среди ближайших предков человека все были носителями одного и того же (русского) языка. Таким образом можно, например, оценить: к какой из трех подгрупп данный носитель ближе: к северной, центральной или южной.

К счастью, данные, собранные в этой работе, свободно доступны. Прямо сейчас воспользоваться ими, скорее всего, не удастся, ведь это требует создания сервиса и некоторой адаптации. Но если взглянуть на пример с генетической картой западной Европы, которая уже доступна на многих сервисах, то можно предположить, что долго этого момента ждать не придется.

Александр Ершов

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.

21:59 31.07.19 1.3 Наука

Российские школьники заняли пятое место на Международной олимпиаде по экономике

Тимур Кешелава

31 июля в Санкт-Петербурге завершилась II Международная олимпиада школьников по экономике (International Economics Olympiad, IEO). Золото в командном зачете досталось команде из Бразилии, серебро и бронза у участников из Китая. Одна из двух российских команд заняла пятое место, сообщается в пресс-релизе, поступившем в редакцию N+1.