Рассказ о биологии, в которой ученые чаще сталкиваются с компьютерной мышкой, чем с живой
В научной фантастике часто бывают такие сцены: ученый в поисках решения серьезной проблемы человечества нажимает кнопку на клавиатуре компьютера, на мониторе вращаются молекулы, стремительно заполняется полоса загрузки. Как только прогресс достигает 100 процентов (происходит это обычно за пару секунд), ученый восторженно оповещает коллег, что совершил научное открытие. Давайте разбираться, правда ли так легка жизнь биоинформатиков.
Этой статьей N + 1 продолжает проект «Когда рассеется дым». Он посвящен курильщикам, никотину, этическим, биохимическим и антропологическим аспектам практик курения, а также фундаментальной науке, которая связана с этим явлением, — токсикологии, вопросам открытости данных и многому другому. Проект подготовлен при поддержке компании «Филип Моррис Интернэшнл» в России. Мнение авторов статей может не совпадать с позицией компании.
Обычно профессию биолога ассоциируют с работой пипеткой в лаборатории, сбором гербариев или наблюдением за животными, но никак не с компьютерами. И это заблуждение, потому что современная биология просто немыслима без компьютера. Сами биологи на профессиональном языке даже подразделяют эксперименты на «мокрые», то есть выполняемые в лабораториях с использованием химических растворов, и «сухие», подразумевающие вычислительные эксперименты на компьютерах. Подобные компьютерные эксперименты часто по аналогии с латинскими выражениями in vitro («в пробирке») и in vivo («в живом») называют in silico (от in silicio — «в кремнии», подразумевая кремний в компьютерных микрочипах).
Междисциплинарную область, которая объединяет биологию, химию, компьютерные и математические науки, принято называть биоинформатикой. При этом биоинформатику, скорее, можно представить не как науку в чистом виде, а как набор приемов и методов работы с биологическими данными. Эти подходы позволяют решать биологические проблемы, требующие анализа больших объемов данных.
Выделяют три крупных области работы биоинформатиков:
В каждом направлении ученые сталкиваются с вычислительно сложными биологическими задачами, для многих из которых однозначных решений не существует. Давайте познакомимся поближе с некоторыми из этих задач.
Задача: Зная аминокислотную последовательность, получить структуру белка.
Зачем это нужно? Неправильно свернутые белки легко разрушаются и теряют свою структуру и функцию, что может привести ко многим заболеваниям. Болезнь Альцгеймера — пример нейродегенеративного состояния, вызванного неправильной упаковкой белка. Это заболевание характеризуется бляшками в головном мозге, вызванными неправильной укладкой β-листов фибриллярных β-амилоидов, присутствующих в мозговом веществе. Болезнь Хантингтона и болезнь Паркинсона — также примеры нейродегенеративных заболеваний, вызванных неправильным сворачиванием белков. Получение большего количества структур белков — путь к разработке новых лекарств, поиску новых терапевтических мишеней, пониманию механизмов развития ряда патологий.
Белки — это биополимеры, мономеры которых — аминокислотные остатки. Даже из школьного курса биологии вы можете помнить, что у большинства белков несколько уровней структурной организации: первичная, вторичная, третичная и четвертичная структуры (как правило, в последнем случае речь идет уже о целых комплексах белков). Простая цепочка из аминокислотных остатков — это первичная структура белка. Однако в естественных условиях белок крайне редко пребывает в таком состоянии.
Белки могут сворачиваться, образуя вторичную и третичную структуру. Такой процесс на языке биологов принято называть фолдингом (от английского folding — «складывание»). Белок может правильно выполнять свою биологическую функцию, только когда он имеет нативную структуру (от английского native — «естественный»). То есть полученную в результате фолдинга пространственную структуру.
Благодаря кулинарным экспериментам по приготовлению яичницы всем известен, скорее, обратный процесс: под воздействием дестабилизирующих внешних факторов (например, высоких температур) белки способны претерпевать изменения в своей конформации и «расплетаться». Этот процесс называется денатурацией. При этом аминокислотная последовательность белка не меняется, а подвергается изменениям лишь его структура.
С точки зрения науки и вычислительной биологии созерцательный процесс фолдинга значительно интереснее. Во время него происходит высокоточная настройка ориентации всех участков молекулы относительно друг друга. Настраивается не просто положение каждого аминокислотного остатка, но и положение химических связей внутри них.
В белках таких комбинаций огромное множество, однако из бесчисленных вариантов сворачивания одной и той же белковой молекулы, лишь немногие являются правильными (семейство очень похожих друг на друга конформаций). Методы структурной биоинформатики помогают с определенной точностью предсказать такое правильное положение белка.
С фолдингом белка связан интересный парадокс, сформулированный в 1986 году американским молекулярным биологом Сайрусом Левинталем и названный в его честь «парадоксом Левинталя»: «Промежуток времени, за который полипептид приходит к своему скрученному состоянию, на много порядков меньше, чем если бы полипептид просто перебирал все возможные конфигурации».
Левинталь приводил следующую оценку: для каждого аминокислотного остатка в полипептидной цепи возможно около 10 различных конформационных положений. Представим длинный белок, состоящий из 100 аминокислотных остатков. Если учесть все возможные комбинации положений его остатков, то мы получим около 10100 конформаций (кстати, такое большое число называется гугол). В таком случае перебор всех возможных конформаций в поисках правильной занял бы очень много времени.
Левинталь предположил, что нативная структура белка определяется кинетикой, то есть она соответствует не глобальному, а быстро достижимому минимуму свободной энергии цепи. Однако поднятый вопрос невозможно решить экспериментально.
Тогда родилась аналитическая теория сворачивания однодоменных глобулярных белков — теория Финкельштейна–Бадретдинова. Белок может сворачиваться не «весь вдруг», а путем роста компактной глобулы за счет последовательного прилипания к ней новых звеньев белковой цепи, при этом постепенно будут восстанавливаться финальные взаимодействия. Падение энтропии по ходу последовательного сворачивания почти тут же компенсируется энергией возникающих взаимодействий. Таким образом, из расчетов «по Левинталю» исключится член, пропорциональный 10N, где N — число аминокислотных остатков, и время фолдинга белка будет зависеть от меньших по порядку величин.
Как мы уже говорили, с помощью методов структурной биоинформатики можно предсказывать структуру белка и рассматривать молекулярную динамику фолдинга. Однако вычислительно это довольно трудоемкий процесс, нередко требующий применения суперкомпьютеров — мощных вычислительных кластеров, позволяющих для достижения максимальной производительности распараллеливать решение вычислительной задачи.
Похожего эффекта можно добиться, если проводить вычисления не с помощью суперкомпьютера, а используя множество обычных компьютеров. Об этом задумались ученые из Стэнфордского университета, создатели проекта Folding@home. Это проект распределенных вычислений для проведения компьютерного моделирования фолдинга молекул белка. Цель проекта — с помощью моделирования процессов свертывания/развертывания молекул белка разобраться с причинами возникновения болезней, вызываемых дефектными белками, таких как болезнь Альцгеймера и Паркинсона.
Для выполнения вычислений Folding@home использует не суперкомпьютер, а вычислительную мощь сотен тысяч персональных компьютеров со всего мира. Для участия в проекте нужно загрузить небольшую программу, которая запускается в фоновом режиме и выполняет вычисления лишь в то время, когда ресурсы процессора не полностью используются другими приложениями. Folding@home периодически подключается к серверу для получения очередной порции данных для вычислений, а после завершения расчетов их результаты отсылаются обратно. При этом участники проекта могут видеть статистику своего вклада.
Folding@home не единственный подобный проект. Rosetta@home — распределенный вычислительный проект, нацеленный на предсказание структуры белка. Это одна из самых точных систем для предсказания третичной структуры белковой молекулы. Поскольку Rosetta@home только предсказывает конечное свернутое состояние белка, не моделируя сам процесс фолдинга, Rosetta@home и Folding@home не взаимоисключают друг друга, а, наоборот, дополняют, так как реализуют решение немного разных задач.
Из Rosetta@home даже родилась игра-головоломка, посвященная фолдингу белка. Некоторые пользователи Rosetta@home отмечали, что в процессе расчета видят пути решения, но не могут взаимодействовать с программой, чтобы показать их самостоятельно. Тогда в Вашингтонском университете разработали головоломку fold.it. Цель этой игры состоит в поиске трехмерной структуры определенного белка с самым низким уровнем свободной энергии, то есть наиболее нативной структуры белка.
Игроку необходимо самостоятельно «руками» проделать фолдинг белка. Например, игроки могут интерактивно манипулировать молекулой, меняя форму основного каркаса и положение боковых групп. Также они могут вращать α-спирали вокруг оси, изменять сообщение цепей в β-структурах, накладывать ограничения на изменения в определенных участках белка. Игрок узнает, насколько хорошо ему удался фолдинг, получая баллы. Они начисляются, в частности, за образование новых водородных связей и сокрытие гидрофобных остатков внутрь молекулы.
В 2020 году в области предсказания трехмерной структуры белка был совершен прорыв благодаря разработчикам компании DeepMind. Они представили вторую версию алгоритма для предсказания трехмерной структуры белка по последовательности аминокислот — AlphaFold 2. AlphaFold 2 пока не решает проблему фолдинга, потому что, как минимум, не моделирует промежуточный процесс фолдинга, а только предсказывает финальную структуру. Однако, если опустить все технические тонкости, разработка подобного алгоритма — это еще не революционная, но также важная ступень для структурной биоинформатики.
На этом компания DeepMind не остановилась. 15 июля 2021 года команда разработчиков DeepMind опубликовала полную информацию об AlphaFold 2 и исходной код программы. Теперь компания объявила, что планирует использовать AlphaFold 2 для предсказания структуры почти каждого белка в организме человека, а также структуры сотен тысяч белков, обнаруженных в 20 наиболее широко изученных организмах. Среди них плодовые мушки, мыши и дрожжи.
В ближайшие несколько месяцев DeepMind обещают предсказать структуры более чем 100 миллионов белков, более или менее известных науке. Если уровень достоверности предсказаний AlphaFold 2 будет достаточно высок, ученые смогут совершить значительный скачок в разработке лекарств и понимании механизмов развития некоторых патологий.
Задача: научиться моделировать клеточные процессы целиком с учетом взаимодействия всех внутриклеточных компонентов.
Зачем это нужно? Почти все сегодняшние эксперименты в области моделирования молекулярной динамики используют упрощенные условия, не учитывающие все особенности внутриклеточных процессов. Важно понимать, как исследуемые биологические макромолекулы ведут себя внутри клеток, так как результаты без учета внешней среды и некоторых взаимодействий полученные результаты могут быть нерелевантны.
Изучение не только фолдинга, но и конформационной динамики белков и нуклеиновых кислот в принципе широко изучается с помощью моделирования молекулярной динамики. Уже сегодня это привело к более глубокому пониманию механизмов ряда биохимических процессов. Однако почти все эти исследования и эксперименты используют упрощенные условия, которые не учитывают физико-химической сложности внутриклеточной среды. Фактически остается много вопросов о том, как биологические макромолекулы ведут себя внутри клеток и насколько релевантны полученные «в вакууме» результаты.
И ученые приходят к выводу, что нужно изучать структуры и конформационные динамики на атомарном уровне с учетом взаимодействий на клеточном уровне в реальных биологических условиях. То есть в идеале уметь моделировать целую клетку со всеми биохимическими процессами внутри нее, а какие-то точечные изучения свойств отдельных белков производить уже в контексте окружающих их среды.
Наиболее успешные модели целых клеток основаны на эмпирических математических моделях, параметризованных на основе экспериментальных данных и ориентированных на кинетическое представление о клеточных процессах. Из-за эмпирической природы этих моделей в них не рассматриваются взаимодействия отдельных моделей. Отсутствие атомарного разрешения не позволяет детально рассматривать молекулярные механизмы и процессы, происходящие внутри клетки. Из-за этих проблем часто оказывается невозможно предсказать, как изменения на молекулярном уровне влияют на работу клетки в целом.
Альтернативно можно использовать физические модели. Чтобы построить модель целой клетки на атомарном уровне, необходимо уметь также моделировать белки этой клетки, для чего, в свою очередь, необходимы их структуры в достаточно хорошем атомарном разрешении. Получение таких качественных структур — нетривиальная задача. И особенно сложная для мембранных белков, так как их очень трудно кристаллизовать. Кристаллизация белков — один из важнейших этапов рентгеноструктурного анализа, наиболее популярного метода получения структур белков.
Такие модели уже позволяют связать изменения на молекулярном уровне с влиянием на клеточную функцию. Однако основным ограничением физического моделирования является нехватка вычислительных мощностей для построения моделей, сохраняющих молекулярные детали с высоким разрешением.
В будущем, возможно, с развитием компьютерных технологий и увеличением вычислительных мощностей компьютеров получится моделировать большинство процессов, происходящих внутри клеток. Моделирование изменений на молекулярном уровне и их связь с биологическими функциями клеток делают более эффективной разработку препаратов. Станет возможно учитывать побочные эффекты с самого начала разработки лекарства, вылавливая их еще на этапе компьютерного моделирования, а не во время доклинических исследований.
Задача: расшифровать геномы организмов.
Зачем это нужно? С помощью расшифрованных нуклеотидных последовательностей ученые узнают, какая генетическая информация содержится в определенном сегменте генома. Например, так можно определить, какие участки ДНК содержат кодирующие белок гены, а какие несут в себе регуляторные функции. Кроме того, работая с последовательностью генома, можно выявить генетические изменения, которые могут быть причиной ряда болезней.
Сегодня трудно найти человека, который не слышал бы про секвенирование нуклеиновых кислот — хотя бы в контексте расшифровки собственной ДНК. При желании и материальных возможностях каждому доступна услуга «расшифровки» собственного генома. Секвенирование ДНК и РНК для научно-исследовательских лабораторий довольно рутинный процесс.
Есть несколько способов секвенирования нуклеиновых кислот. Исторически первый и самый простой из них, секвенирование по Сэнгеру, позволяет считывать последовательности до тысячи пар нуклеотидных оснований. Этот метод чаще всего используется для прочтения небольших фрагментов генома, а также для валидации результатов более современного секвенирования (next-generation sequencing, NGS), где размер одного прочитанного фрагмента варьирует от 25 до 500 пар нуклеотидных оснований.
Методы NGS обычно используют для более точного и глубокого прочтения генетического материала, которое необходимо, например, для ресеквенирования, сборки новых геномов (de novo), транскриптомных и эпигеномных исследований. Также NGS-секвенирование значительно производительнее. Оно позволяет одновременно считывать миллионы коротких фрагментов нуклеиновых кислот.
Cеквенаторы нового поколения не могут за раз определить нуклеотидную последовательность всей молекулы ДНК, так как при большой длине «читаемого» фрагмента неминуемо возникают ошибки. Поэтому перед непосредственным секвенированием ДНК случайно измельчают на фрагменты со средней длинной около 500 нуклеотидов. Считываются такие фрагменты с обоих концов. В результате работы секвенатора получаются «риды» (от английского read — читать).
Остановимся немного подробнее на двух основных озвученных выше задачах NGS: ресеквенирование и секвенирование de novo. В первом случае исходно предполагается, что геном изучаемого объекта совпадает с «эталонным» (референс), то есть известна некая обобщенная последовательность ДНК. Ресеквенирование позволяет обнаружить индивидуальные отличия конкретного образца от референса. Кроме того, если каждое нуклеотидное основание последовательности ДНК проверяется многократными прочтениями, увеличивается статистическая достоверность найденных генетических особенностей. Считается, что геном ресеквенирован с высоким «покрытием» (deep sequencing), если каждая его буква была прочитана в среднем 30 раз или более (30×).
Вычислительно задача ресеквенирования считается относительно легкой, в отличие от задачи сборки генома de novo. В данном случае из набора ридов необходимо реконструировать геном, не имея при этом «золотого стандарта» для сборки. То есть в этом случае речь идет о расшифровке абсолютно неизвестных последовательностей ДНК, например, генома какого-нибудь нового неизвестного ранее вида.
Методологически подход основан на том, что при достаточно большом количестве ридов обязательно найдутся несколько, которые перекрываются. Если их совместить, то постепенно можно «наращивать» расшифрованную последовательность ДНК. Набор таких перекрывающихся фрагментов ДНК называется контиг.
Далее контиги также объединяются в связки-скаффолды. Это промежуточная неполная структура секвенируемой последовательности. По сути, это серия контигов, расположенных в правильном порядке, но не обязательно соединенных в одну непрерывную последовательность. Нерасшифрованные «дыры» в скаффолдах расшифровывают с помощью других подходов. Сборка геномов de novo — алгоритмически и вычислительно сложный процесс, почти невозможный без привлечения мощностей суперкомпьютеров. Это не только перспективный, но и пока единственный подход сборки генома в отсутствие референса.
Однако нехватка эффективных алгоритмов, реализованных на видеоускорителях, накладывает ограничения на размеры обрабатываемых данных, точно как и нехватка оперативной памяти. Так что развитие этой области биоинформатики (на самом деле, как и большинства других) напрямую связано с увеличением вычислительных мощностей устройств, доступных сейчас человеку.
Задача: решить крупные проблемы биологии с помощью биоинформатики.
Зачем это нужно? Большинство крупных задач биологии лежат в междисциплинарной области знаний. Объединение усилий, распределение задач, передача друг другу знаний и опыта - вот, что необходимо для нахождения не самых очевидных ответов на вопросы, которые преподносит жизнь и биология в частности.
Решение крупных проблем биологии с помощью методов биоинформатики — дело не только опытных ученых, например, благодаря проекту Folding@home. Также проводится большое количество био-хакатонов — форумов для специалистов и студентов из разных областей биоинформатики и биологии, которые сообща решают какую-либо проблему за ограниченное время.
Примером такого био-хакатона может послужить BioHackathon Europe, который организовывается каждый ноябрь европейской межправительственной организацией ELIXIR. В течение недели больше 150 специалистов со всего мира работают над разнообразными проектами (с их списком на 2021 год можно ознакомиться здесь). Неделя начинается с симпозиума, посвященного представлению этих проектов. А затем пять дней участники пишут коды для решения разных проблем биоинформатики.
Помимо хакатонов проводятся также и краудсорсинговые исследования. Краудсорсинг в условиях биомедицины и системной биологии подразумевает, что абсолютно любой специалист, относящийся к биологии, медицине, химии или любой другой смежной области, может принять участие в исследовании и внести свой вклад.
При поддержке PMI (Philip Morris International) в 2011 году с использованием платформы INTERVALS (открытый ресурс, предназначенный для совместной работы и анализа данных со стороны третьих лиц) был запущен проект sbv IMPROVER. В нем происходит верификация результатов лабораторных исследований, проведенных компанией. Также на базе sbv IMPROVER проводятся и краудсорсинговые исследования.
В 2019-2020 годах на базе sbv IMPROVER группа ученых провела краудсорсинговое исследование диагностического потенциала метагеномных данных. Метагеномика — раздел геномики, изучающий геном не отдельного организма, а совокупности обитателей микробных сообществ, живущих в разных природных условиях. Цель данного исследования заключалась в разработке и проверке моделей классификации метагеномных образцов биоматериалов. Первоначально весь анализ базировался на результатах, полученных победителями научного испытания.
Изучались данные пациентов, больных язвенным колитом, а также страдающих болезнью Крона. В данном случае применение краудсорсинга позволило собрать значительный массив данных, а также снизить влияние субъективных факторов на полученные результаты. Данные платформы sbv IMPROVER были доступны для международного научного сообщества с сентября 2019 года по март 2020 года.
О том, как было устроено это исследование, и о важности его результатов, рассказывает научный сотрудник PMI Science и специалист в области вычислительной биологии исследовательского центра PMI Лусине Хачатрян:
«Основные типы клинических проявлений воспалительных заболеваний кишечника — болезнь Крона и язвенный колит. Для их диагностики, как правило, требуется проведение высокоинвазивных процедур.
Однако в ряде исследований предполагается связь между разнообразием микробиоты желудочно-кишечного тракта и воспалительных заболеваний кишечника, поэтому мы стали определять диагностический потенциал микробиоты с точки зрения воспалительных заболеваний кишечника. Кроме того, важно отметить, что образец кала можно взять неинвазивным способом, что значительно облегчило бы диагностику воспалительных заболеваний кишечника.
Цель исследования заключалась в разработке и проверке моделей классификации метагеномных образцов биоматериалов. Изучались данные двух типов пациентов: тех, кто болеет язвенным колитом, или тех, кто страдает болезнью Крона. В качестве контрольной группы использовались данные здоровых людей – у кого воспалительные процессы в кишечнике не зафиксированы. С помощью метагеномных данных необходимо было найти различия между пациентами с воспалительными заболеваниями кишечника и без них. Также важно было понять, можно ли внутри группы заболевших различить людей, страдающих болезнью Крона и язвенным колитом. Основная идея заключалась в том, что участникам The Metagenomics Diagnosis For IBD Challenge необходимо было создать алгоритм машинного обучения, который сначала сможет учиться на известных данных, а затем применяться к новым наборам данных для прогнозирования классов людей в неизвестном наборе данных.
Основная задача состояла из двух дополнительных подзадач. В первой подзадаче участникам было предложено начать с необработанных данных секвенирования. Они могли применить свой собственный пайплайн для обработки данных метагеномного секвенирования и получения параметров, а затем, используя эти параметры, они могли сгенерировать алгоритм машинного обучения.
Во второй подзадаче уже имелись сгенерированные параметры. То есть участникам оставалось только сгенерировать алгоритм машинного обучения. Участники могли выбрать одну из предложенных подзадач, либо попробовать решить обе.
Данные, которые мы использовали в этом проекте, — два общедоступных набора данных о китайской и американской когорте пациентов. Также мы предлагали наш новый набор тестовых данных, который нигде ранее не публиковался. По каждой подзадаче были определены по три самые успешные команды, которые мы наградили.
Главный вывод нашего проекта заключается в том, что метагеномные данные можно использовать для определения, болен человек воспалительным заболеванием кишечника или нет. Может показаться, что это не новая информация, так как есть много исследований на похожие темы. Однако во всех предыдущих исследованиях использовались одни и те же когорты для обучения модели и прогнозирования. Нет никаких исследований, в которых бы использовалась одна когорта для обучения модели, а совершенно другая — для прогнозирования статуса человека (больной он или здоровый). Поэтому результаты, полученные в ходе нашего проекта, — новые и отличающиеся от полученных в предыдущих исследованиях.
Однако оказалось, что все еще довольно сложно определить внутри группы больных людей, болен ли человек язвенным колитом или болезнью Крона, так как классические подходы в этом случае приводят к очень высокой вероятности ошибочного предсказания».
Это не единственная задача, которую предлагалось решать на платформе sbv IMPROVER. Задача «Идентификации маркеров реакции на воздействие» из области системной токсикологии была направлена на проверку того, что маркеры, позволяющие прогнозировать статус курильщика, могут быть получены из данных экспрессии генов из крови человека/грызунов.
Соревнование включало в себя две подзадачи: для первой участники должны были разработать модели, которые могут предсказать генные сигнатуры и биомаркеры воздействия курения, используя данные об экспрессии генов крови человека. Необходимо было по имеющимся данным отличить курильщиков от некурящих, а также классифицировать некурящих как бывших курильщиков или никогда не куривших. Во второй подзадаче участники также работали с данными экспрессии генов, но уже в крови мышей. Нужно было найти не зависящие от вида генетические сигнатуры, которые могут предсказать воздействие курения.
Исследование проводилось в 2015-2016 годах. И хотя вычислительная задача системной токсикологии предлагала участникам прогнозировать статус курения, предложенные участниками методы теоретически могут быть применены для прогнозирования воздействия любых токсичных веществ или внешних раздражителей. Воздействие всех внешних токсичных веществ может вызывать молекулярные изменения в крови человека, и возможность определить статус воздействия по легкодоступным образцам крови имеет важное значение для оценки токсикологического риска химических веществ, лекарств и потребительских товаров.
Надеемся, что, прочитав эти 3 тысячи слов, вы смогли составить представление о том, как в современной биологии и биомедицине происходит работа с огромными массивами данных.
Специалистам, которые занимаются их обработкой, необходимо уметь правильно извлекать из них информацию, строить эффективные алгоритмы, грамотно автоматизировать работу — здесь и происходит объединение компьютерных наук и биологии. И современная биология совсем не ограничивается работой в лаборатории среди колб и пипеток — некоторые биологи проводят за компьютером значительно больше времени, чем в лаборатории в халате.
Данная статья не является рекламной и преследует социально значимые цели предупреждения потенциальных потребителей табачных изделий о вреде, наносимом потреблением табака, и просвещения населения и информирования его о вреде потребления табака и вредном воздействии табачного дыма на окружающих.