Утечка ДНК

Стоит ли опасаться за конфиденциальность генетических данных

Вокруг продажи персональных данных уже давно ведутся оживленные дискуссии. Но с развитием биотехнологий встает вопрос и о конфиденциальности генетических данных. Строго говоря, мы каждый день в буквальном смысле разбрасываемся генетической информацией о себе, оставляя повсюду частички кожи, волосы, слюну и другие субстанции. На протяжении долгого времени она была не особенноо полезной даже для детективов, не говоря о коммерческих компаниях. С появлением же по-настоящему гигантских баз генетических данных ситуация начала меняться. Мы разобрались, кто потенциально может получить информацию о вашем геноме и стоит ли из-за этого волноваться.

Для развлечения и науки

Организации, занимающиеся исследованием генома, можно для простоты поделить на четыре типа — каждый со своими целями, бизнес-моделями и организацией хранения данных.

К одному из них принадлежат компании, специализирующиеся в области, условно говоря, «развлекательной геномики», такие как 23andme, Аncestry или российский «Атлас». Их клиенты — широкий круг людей, желающих узнать нечто интересное о себе, и цены там, как правило, невысокие.

Но если внимательно прочитать пользовательские соглашения подобных сервисов, становится понятно, что они зарабатывают не только на секвенировании для массового потребителя.

Например, компания 23andme предлагает пользователям принять участие в исследовательской программе. Это означает, что компания может передавать ваши анонимизированные данные третьим лицам для исследований. Личная информация, которую вы указываете при регистрации, отделяется от собственно генетических данных и хранится отдельно (две группы данных связывает лишь случайно присваиваемый ID).

Российская компания «Атлас» честно признается, что собирает данные «в целях проведения научных исследований обезличенной генетической информации и организации участия потребителей в исследованиях на коммерческой основе». При этом сервис оставляет за собой право «распоряжаться по своему усмотрению полученной информацией, при условии, что такая информация не идентифицирует личность и все вышеперечисленное не совершается в целях идентификации личности».

Последнее замечание — важный момент: если информация не используется для идентификации гражданина, она, согласно закону о персональных данных, не считается биометрической.

Правда, в договорах, заключаемых с пользователями компаний типа 23andme, часто недостаточно четко прописано, кому принадлежат права на данные, полученные в ходе расшифровки. Если данные не принадлежат пользователю, компания может один раз взять с него разрешение делиться информацией на определенных условиях, а потом, например, добавить кого-то нового в список тех, кто получит доступ к данным, — и уже не информировать об этом клиента. Но ваша личность внешних исследователей чаще всего и не интересует — они готовы платить за большие данные.

В некоторых случаях (например, при редких генетических мутациях) конкретным клиентам могут через сервис предложить поучаствовать в исследовании, где о них запросят какую-то личную информацию, — но это делается только с согласия пользователя.

Второй тип организаций — лаборатории, чьи сотрудники заняты фундаментальной наукой и проводят большие популяционные исследования, пытаясь найти взаимосвязь между отдельными генами или их группами и определенными признаками у носителя. Такие лаборатории могут быть клиентами вышеупомянутых компаний.

Третий тип — лаборатории генетической криминалистики. О них мы еще поговорим.

В медицинских целях

И, наконец, есть медицинские лаборатории, куда люди обращаются, чтобы узнать причину тяжелых наследственных заболеваний, таких как миодистрофия, эпилепсия или пороки развития у детей. Здесь речь идет о моногенных заболеваниях, поскольку на вероятность развития полигенных расстройств влияет слишком много факторов, чтобы делать эффективные прогнозы.

Медицинские лаборатории не особо интересуются большими данными — только частотой встречаемости конкретного гена в популяции (для того, чтобы отсеивать непатогенные варианты), но не их корреляцией с другими признаками. Поэтому они очень ограниченно используют внешние базы, а информацию о геноме конкретного пациента могут опубликовать только с его согласия, анонимно и в очень специфических ситуациях (сложный клинический случай).

Кроме того, медицинские лаборатории зарабатывают на решении проблемы конкретного пациента, а не на сборе данных, которые потом обычно хранятся с согласия пациента, но никуда не передаются. И на действия медицинских генетиков распространяются все правила врачебной этики.

«Я регулярно общаюсь с генетическими лабораториями, и за всю свою профессиональную карьеру не слышал ни об одном случае, чтобы клиент пострадал от утечки генетической информации, — рассказывает основатель частной Лаборатории клинической биоинформатики Федор Коновалов. — И на мой взгляд, лучше не давать людям пищу для необоснованной паранойи. В нынешней атмосфере запретов это может побудить чиновников наложить необоснованные ограничения, затрудняющие жизнь ученым».

«Обычно генетические данные хранятся отдельно от информации о личности, и чтобы снова привязать их к личности, требуются ресурсы и знания, которых нет у рядового гражданина, — объясняет Екатерина Померанцева, руководитель лабораторного комплекса Genetico. — Плюс и то и другое по закону (и мы его соблюдаем) хранится не в облаке, а на вполне физически изолированных серверах, охраняемых со всей приличествующей случаю паранойей. Так что клиенты особо ничем не рискуют».

При этом есть разумные аргументы в пользу того, чтобы секвенировать свой геном в медицинских целях. Благодаря этому человек узнает полезную, а иногда и жизненно важную информацию о себе.

«Главная проблема — это носительство наследственных заболеваний, — подчеркивает Федор Коновалов. — Примерно у половины людей, рождающихся с моногенными заболеваниями, их можно было бы предотвратить, зная статус носительства у родителей».

Самая вероятная неприятность, которая может случиться с человеком, решившим заказать анализ ДНК, по мнению Померанцевой, — это возможность столкнуться с неприятной информацией о риске редкого заболевания.

«Вообще лаборатория смотрит то, что у нее просят, а лишнего не смотрит. Но иногда все-таки что-то попадается, и есть особый список случайных находок, которыми рекомендуется делиться с клиентом. Как правило, это генетические маркеры, которые требуют от человека каких-то превентивных мер для сохранения здоровья. И даже на то, чтобы получить информацию из этого списка, пользователь должен заранее дать согласие. Кстати, пользуясь случаем, хочу передать пламенный привет клиникам, которые забывают прислать информированное согласие и пояснить, что отсутствие согласия может стать причиной задержки выдачи результата».

Альтруизм и прибыль

У альтруистически настроенных граждан есть и дополнительная мотивация. Исследования генетических данных могут помочь развитию превентивной медицины (если ученым удастся выделить генетические маркеры, сигнализирующие о корреляции между определенной генной последовательностью и определенным заболеванием), включая заблаговременное выявление раковых опухолей.

Кроме того, такие исследования помогают подбирать более персонализированные (и, соответственно, лучше работающие) лекарства на основании генетических особенностей пациентов.

«Базы данных это очень хорошо, — считает Екатерина Померанцева. — Причем их польза не всегда известна заранее. Иногда задним числом выясняются новые полезные возможности. Например, становится возможным исследовать заболевания, которых на момент сбора данных могло вообще не быть в диагностических справочниках. И привязка баз к описанию человека (с его согласия) может быть полезна для исследователей, если речь идет о медицинском анамнезе клиента — чтобы можно было проводить параллели между генетическими маркерами и реальными проблемами со здоровьем.

При этом всего один пациент может изменить будущее медицины. Так, например, случилось с американкой Генриеттой Лакс, которая в 1951 году обратилась в госпиталь Джонса Хопкинса, получила диагноз «рак шейки матки» и через восемь месяцев скончалась в возрасте 31 года, несмотря на лечение.

Пока она была в госпитале, лечащий врач обнаружил у клеток ее опухоли уникальные свойства: они размножались вдвое быстрее нормальных, и у них не было ограничения на количество делений. Клетки назвали HeLa, и они стали редкой находкой для биологов и медиков, потому что над ними было очень удобно производить эксперименты в силу их живучести и неограниченной способности к воспроизведению.

Клетки HeLa очень помогли развитию молекулярной биологии, поучаствовали в огромном количестве исследований и даже слетали в космос. Но из соображений конфиденциальности ни Генриетте, ни ее родственникам медики не сообщили, что собираются использовать ее клетки на благо науки. Никто из ее родных не получил никакого финансового вознаграждения, а имя Генриетты было практически незнакомо даже специалистам, пока научный журналист Ребекка Склут в 2010 году не выпустила про нее книгу.

Возможно, было бы справедливо, если бы компании делились с пользователями частью прибыли, полученной от исследования их генетической информации. Однако не все так просто. Потому что, во-первых, такая практика приучит людей ждать вознаграждения, а не исходить из альтруистических соображений, а во-вторых, не очень понятно, как решать, кого стоит вознаграждать, а кого нет.

Но если исследователи и медицинские компании так жаждут получить наш геном, что готовы за него платить, то, возможно, стоит избавиться от посредников и торговать своей генетической информацией напрямую? Если сейчас человек может продать свои волосы или сперму, то в ближайшем будущем товаром станет также информация о его ДНК.

Есть уже два стартапа, готовые предоставить всем желающим такую возможность. Первый — основанный гарвардскими генетиками Nebula Genomics. Создатели проекта обещают сохранять анонимность продавцов и одновременно раскрывать информацию о покупателях, чтобы продавцы могли понять, с кем имеют дело. Все транзакции будут регистрироваться через блокчейн.

Второй — Shivom, куда можно загрузить и зашифровать уже готовую генетическую информацию в формате VCF, а потом решить, кем с ней делиться.

Сыщики и воры

С появлением больших данных генетическая криминалистика тоже начала делать большие успехи. Как вообще можно опознать человека по ДНК? 99,9 процента нашей ДНК идентичны ДНК других людей, но для судебных генетиков важна оставшаяся 0,1 процента. Как правило, это нуклеотидные последовательности — короткие тандемные повторы, или STR. Их можно использовать как генетические маркеры, характерные для близких родственников.

Есть и другие маркеры, называемые SNP (однонуклеотидный полиморфизм), и они обычно используются в биомедицинских исследованиях. SNP варьируют значительно медленнее, чем STR, поэтому им все чаще находят применение и в криминалистике.

Следующий шаг — ДНК-фенотипирование: основываясь на генетической информации, можно делать предположения о наследственных чертах внешности (например, росте или цвете кожи и глаз) — неточные, но все же практически применимые.

В 2017 году американский генетик Крейг Вентер вместе с сотрудниками собственной компании Human Longevity опубликовал статью с результатами испытаний алгоритма, который по геномным данным с высокой вероятностью предсказывал рост человека, цвет кожи, глаз и другие параметры внешности. Успех алгоритма, по мнению Вентера, означал, что генетические данные людей не должны находиться в публичном доступе.

Правда, специалист из Колумбийского университета Янив Эрлих поставил под сомнение способность алгоритма прогнозировать какие-то черты сверх того, что и так можно предположить по полу и этнической принадлежности индивида. Кроме того, утверждал Эрлих, даже если алгоритм дает какие-то специфические бонусы, для его работы потребуется целая база разнообразных биометрических данных.

При этом тот же Эрлих провел несколько громких исследований (раз, два), которые выявили уязвимости публичных (то есть доступных хотя бы для сторонних исследователей) генетических БД.

В базах только 20 крупнейших организаций в мире, занимающихся генными исследованиями, содержится около 100 петабайт информации. Для сравнения: серверы компании Twitter пополняются информацией на 0,5 петабайта в год.

Используя информации о геномах более миллиона пользователей, прошедших сервисы секвенирования, ученые предположили, что около 60 процентов поисковых запросов про индивидов европейского происхождения выведут хотя бы на троюродных родственников, что теоретически позволяет вычислить человека через демографические базы данных.

Например, можно использовать знание о том, что в силу культурных традиций фамилия часто передается по отцовской линии, так что есть корреляция между фамилиями и Y-гаплотипами (совокупность генетических маркеров, позволяющая найти близких родственников по мужской линии).

Если у злоумышленника есть неизвестный образец ДНК для секвенирования или готовая расшифровка, он может поискать совпадения в публичных генеалогических базах, что позволит ему с большой вероятностью вычислить фамилию человека. А затем можно сократить круг вариантов с помощью соцсетей и другой открытой информации. Чтобы опознать личность более 50 человек из проекта 1000 Genomes, Эрлиху и его коллегам понадобилось вычислить лишь 5 фамилий.

Причем, чтобы вас могли отыскать по ДНК, необязательно секвенировать ваш личный геном — достаточно генетических данных даже ваших далеких родственников. Это похоже на коллективный иммунитет, только наоборот: если вы отдаете свои геномные данные кому-то, это потенциально ставит под удар не только вас, но и всех ваших родственников.

Это палка о двух концах — с одной стороны, нетрудно представить, как такими знаниями могут злоупотреблять в тоталитарном государстве, с другой стороны, эта же технология помогает находить преступников.

В частности, таким образом недавно был пойман знаменитый «Убийца из золотого штата», известный серией жутких убийств, ограблений и изнасилований, совершенных в Калифорнии в 1970-х-1980-х. Полицейские сопоставили ДНК преступника с открытой базой генеалогической информации GEDmatch, и в результате круг поиска сократился до нескольких семейств, среди которых уже искали оптимальное совпадение по возрасту и месту жительства.

Впрочем, для России этот метод пока не очень актуален, потому что у нас большой сети генеалогических баз пока нет.

Дискриминация по генам

У западной общественности есть опасения и насчет генетической дискриминации — а вдруг потенциальный работодатель, страховщик или сотрудник банка, принимающий решение о выдаче кредитов, предложит вам чашку кофе, выделит и секвенирует вашу ДНК, а потом пробьет по базам данных и узнает, что у вас в прошлом были аресты или есть определенное генетическое заболевание?

В некоторых развитых странах уже появились законы против против генетической дискриминации: Genetic Information Nondiscrimination Act of 2000 (GINA) в США, Bill S-201 в Канаде и британский The Equality Act of 2010, который запрещает работодателям использовать генетическую информацию для принятия решений о найме, а также накладывает мораторий до 2019 года на использование подобной информации страховыми компаниями.

С 25 мая 2018 года в Евросоюзе начал действовать новый регламент по защите данных (General Data Protection Regulation), запрещающий компаниям искать и обрабатывать информацию, в том числе, о расовой или этнической принадлежности и состоянии здоровья людей. Генетические и биометрические данные нельзя собирать с целью точной идентификации отдельного человека.

При этом, по данным некоммерческой организации Human Rights Watch, в китайском городе Синцзян полиция уже сейчас собирает генетическую и другую биометрическую информацию, что вызывает тревогу у правозащитников, ведь Синцзян — столица автономного округа, где живут уйгуры, притесняемая в Китае народность.

Журналисты New York Times выяснили, что китайские ученые совершенствуют свои методы анализа ДНК, используя базы данных из 1000 Genome Project и американских исследовательских лабораторий (тут важно напомнить, что технология, позволяющая предположить этнические корни по ДНК, существует, а вот таргетированное оружие с прицелом на конкретный этнос, к счастью, создать невозможно).

Правда, из собранного материала не следует напрямую, что китайcкие власти нацелились распознавать именно этническое происхождение и что это, например, просто не пилотный регион для централизованного сбора информации по всей стране.

Судя по этой информации, в Синьцзяне идет создание базы данных по индивидуальной ДНК для каждого человека — то, что в России и других странах делают только для преступников. Эта информация далее может использоваться для индивидуальной идентификации человека (по его крови или по оставленным им следам вроде окурков) и для выявления его близких родственников. Я не вижу никаких явных указаний на привязку к популяции — да и зачем по ДНК пытаться определять, уйгур это или китаец, если ДНК указывает на конкретного человека, о котором в базе данных и так известно все?

С другой стороны, использовались данные из лаборатории Кеннета Кидда, американского генетика, который занимается именно популяционным анализом. Но такое принудительное обследование, как в Синьцзяне, не имеет ничего общего с научным изучением популяций. Можно даже сказать, что на примере этого вопиющего нарушения этических стандартов особенно хорошо видно, насколько эти стандарты — в первую очередь добровольность участия и анонимность ДНК данных — правильны и необходимы.

Олег Балановский,
руководитель лаборатории геномной географии Института общей генетики РАН

Опасения и реальность

Итак, несанкционированный доступ к генетической информации конкретного человека сегодня вполне возможен. Но насколько это опасно — если вы не преступник и не представитель дискриминируемого национального меньшинства? Стоит ли ждать, например, что и в России скоро начнут собирать данные о ДНК так же, как сегодня собирают их с помощью анкет, соцсетей, кредитных историй и общедоступных баз персональных данных?

«У нас уже есть неплохой предиктор многих вещей, связанных со здоровьем, поведением, работоспособностью и сроком жизни — курение, — дополняет Екатерина Померанцева. — При прочих равных некурящий сотрудник для работодателей выгоднее: он будет меньше болеть, дольше проживет, не будет бегать на перекуры, некурящие клиенты не будут морщиться, почуяв от него запах сигарет. Скрывают ли люди на собеседовании то, что они курят? Нет, потому что на практике это ни к какой дискриминации не приводит. Получается, что если даже такой практически на лбу написанный признак особенно не влияет на решения работодателей, вряд ли они будут придавать много значения генетическим особенностям. Тем более что все, что связано с талантами и способностями человека, по геному предсказывается плохо — ведь это продукт сложного сочетания биологических и социальных факторов».

«Если говорить о работодателях, то, строго говоря, они уже дискриминируют соискателей на основе генетической информации, случаев таких в России и мире миллионы, — напоминает Федор Коновалов. — Я говорю про две Х-хромосомы. И масштаб явления куда серьезнее, чем у опасений о каких-то проблемах со здоровьем сотрудника, предсказанных по ДНК. Ведь когда работодатели предпочитают нанимать мужчин, они делают это не из-за риска развития у женщин рака молочной железы (для которого именно пол является основным фактором), а по совершенно иным соображениям».

Даже обычная медицинская информация может быть чувствительнее генетической в плане возможных уязвимостей клиента. Например, если в семье есть тяжело больной ребенок, работодатели могут отказать кому-либо из родителей в найме, опасаясь, что те будут проводить слишком много времени по уходу за ним. Но будет ли кто-то специально копаться в базе детской поликлиники, чтобы извлечь эту «бесценную» информацию? О больном ребенке проще узнать из соцсетей.

Человеческий мозг не очень хорошо работает с вероятностями — видимо, поэтому перспектива утечки генетических данных пугает нас больше, чем тот факт, что в соцсетях и повседневном общении мы оставляем куда больше персональной информации, чем потенциальный злоумышленник может извлечь из нашей ДНК.

Дарья Варламова