Разработчики из DeepMind представили вторую версию алгоритма для предсказания трехмерной структуры белка по последовательности аминокислот — AlphaFold 2. Алгоритм определяет структуру белка со средней точностью в 92,4 балла из 100, то есть может правильно определить расположение в цепочке 92,4 процента аминокислотных остатков — больше, чем любой другой подобный алгоритм. Подробнее о разработке рассказывается в блоге DeepMind.
При трансляции — считывании информации с матричной РНК молекула белка начинает формироваться как полипептид — линейная цепочка аминокислотных остатков без стабильной структуры. Далее, в зависимости от химических свойств аминокислот (электрического заряда, гидрофобности и гидрофильности) и их взаимодействия друг с другом, цепочка сворачивается. Таким образом формируется трехмерная структура белка, от которой, в свою очередь, полностью зависят его функции, а также то, как он взаимодействует с другими белками и веществами (например, лекарствами).
Определить аминокислотную последовательность белка довольно просто, а вот механизм его сворачивания до сих пор до конца неясен. Именно поэтому в последние несколько десятков лет исследователи пытаются найти способ, с помощью которого можно было бы предсказать конечную трехмерную структуру белка. Это, с учетом всех возможных последовательностей аминокислот и взаимодействия между ними, сложно на уровне вычислений: например, если взять последовательность из 101 аминокислоты и 100 связей между ними, у каждой из которых может быть три возможных состояния, то вариантов структур у конечного белка будет 3100 — и понадобится несколько тысяч лет, чтобы перебрать их все.
Немного ускорить процесс предсказания структуры белка по аминокислотной последовательности помогли нейросети: в конце 2018 года компания DeepMind показала AlphaFold — алгоритм, который принимает на вход последовательность аминокислот и на выход выдает расстояние и углы связей между ними, что позволяет восстановить структуру. Тогда алгоритм по точности и скорости правильных вычислений превзошел все другие существующие алгоритмы и занял первое место на соревнованиях предсказания структуры белка CASP, которые проходят с 1994 года.
Сейчас разработчики представили вторую, улучшенную версию алгоритма — AlphaFold 2. Конечную последовательность аминокислот в белке он рассматривает в виде графа, где вершины — это аминокислотные остатки, а ребра — связи между ними. Задача алгоритма (в его основе — нейросеть с блоком внимания, предположительно — рекуррентная) — определить связи между аминокислотными остатками, учитывая уже известных похожих и эволюционно родственных белков. После этого из получившихся связей выстраивается конечная трехмерная структура белка.
Для разработки AlphaFold2 исследователи использовали данные о структурах примерно 170 тысяч белков, а весь процесс обучения занял несколько недель, что, по словам разработчиков, не так много. Точность работы алгоритма оценили на недавней конференции CASP: AlphaFold2 занял первое место, набрав 92,4 из 100 возможных баллов (оценка — процент правильно расположенных аминокислотных остатков в цепочке белка). Для сравнения, предыдущая версия AlphaFold на CASP два года назад набрала чуть меньше 60 баллов (максимум ей удалось набрать 87). Погрешность расположения остатков в свернутой алгоритмом структуре составила 1,6 ангстрема, что сопоставимо с экспериментальными методами.
Понимание структуры белка важно не только для биологических, но и медицинских исследований: в частности, с помощью AlphaFold2 разработчикам удалось определить структуру нескольких белков коронавируса SARS-CoV-2, включая неизвестную ранее структуру ORF3a и ORF8 (ее структуру предсказывали на CASP). Классические методы определения структуры белка с помощью рентгеноструктурного анализа или ядерного магнитного резонанса, которые используются сейчас, пусть и эффективны, но требуют довольно много времени и работы. Разработка определяющих структуру алгоритмов, вроде AlphaFold, позволит значительно ускорить и упростить этот процесс.
В марте этого года ученым удалось определить структуру первого внеземного белка, который входит в состав гемолитинов — органических полимеров, обнаруженных в метеоритах.
Елизавета Ивтушок
Также на когнитивное снижение повлияли варианты Гена APOE: аллель APOE4 его ускорила, а аллель APOE2 — замедлила
Исследователи из Колумбии и США изучили, как генотип аполипопротеина и годы образования влияют на когнитивные функции при наследственной болезни Альцгеймера. Выяснилось, что у носителей мутации PSEN1 E280A, связанной с семейной болезнью Альцгеймера, когнитивное снижение наступает раньше и развивается быстрее, если у них в то же время есть аллель APOE4, а у таких же носителей, но с аллелью APOE2, это снижение происходит медленнее. Также более медленное снижение когнитивных способностей было характерно для пациентов, которые больше лет жизни потратили на учебу, — и это к тому же ослабляло влияние особенно опасных вариантов APOE. Результаты опубликованы в Nature Communications. При семейной или наследственной болезни Альцгеймера (БА) когнитивный спад наступает рано и за несколько лет прогрессирует до слабоумия. Семейную болезнь Альцгеймера вызывают некоторые мутации, например, мутация E280A в гене мембранного белка пресенелина PSEN1. Еще один ген, влияющий на развитие и течение БА — ген белка аполипопротеина Е (APOE). Разные варианты этого гена связаны с большим или меньшим риском спорадической (ненаследственной) болезни Альцгеймера: аллель APOE4 повышает риск, а аллель APOE2 снижает его. О том, как варианты APOE влияют на развитие семейной БА известно мало. Одно небольшое исследование показало, что деменция у носителей мутации PSEN1 E280A наступает раньше, если у них есть аллель APOE4. Другое исследование не обнаружило влияния APOE4, но выявило, что аллель APOE2 задерживает клиническое начало заболевания примерно на 8 лет. Кроме того, на развитие БА влияют другие факторы: образ жизни, социально-экономические условия и другие показатели здоровья. Стефани Лангелла (Stephanie Langella) из Гарвардской медицинской школы вместе с коллегами из Колумбии и США решила выяснить, как варианты APOE и количество лет учебы влияют на когнитивные показатели пациентов с наследственной БА (исследователи не выделяли отдельно высшее образование или ученую степень, а смотрели именно на число лет, уделенных образованию). Для этого они проанализировали данные 675 носителей мутации E280A и 594 пациентов, у которых этой мутации не было. Носители и неносители мутации были членами одних и тех же семей. Ученые сравнивали баллы пациентов в краткой шкале оценки психического статуса (MMSE), которую используют для диагностики клинических проявлений деменции. Баллы MMSE у носителей и неносителей мутации PSEN1 E280A начинали различаться уже в возрасте 31,5 года — с этого момента когнитивные показатели носителей снижаются намного быстрее. У пациентов с мутацией E280A, у которых также была аллель APOE4 (141 человек), клиническое начало БА было более ранним, а у пациентов с мутацией E280A, но без аллели APOE4 (534 человека) — наоборот, наступало позже. Расхождения начинались в возрасте 44,3 лет — как раз во столько появляются первые признаки болезни Альцгеймера у пациентов с наследственной формой. Другая аллель, APOE2, напротив, была связана с более медленным когнитивным снижением в группе носителей PSEN1 E280A. А вот когнитивные траектории пациентов без мутации E280A были примерно одинаковыми и не зависели в от варианта APOE. Также исследователи обнаружили, что возраст начала клинических проявлений БА у пациентов с мутацией PSEN1 E280A зависел от количества лет, которые они потратили на учебу. Их когнитивные показатели снижались тем медленнее, чем больше они учились, — и это проявлялось особенно сильно у носителей аллели APOE4 и неносителей APOE2. То есть отрицательный эффект аллели APOE4 ослаблялся. Почти то же было и с неносителями мутаций, связанных с БА: более долгая учеба была связана с более высокими баллами MMSE, но здесь варианты APOE роли не играли. Пока не ясно, как именно аллель APOE4, связанная с большим риском, ухудшает течение семейной болезни Альцгеймера, и как другая аллель — APOE2 — от нее защищает. Но, как видно, большая продолжительность учебы снижает дополнительный риск. А иногда от вредного действия мутаций защищают другие мутации. Недавно исследователи обнаружили мутацию, которая отсрочила развитие семейной болезни Альцгеймера у мужчины. Это был редкий вариант гена RELN — H3447R или RELN-COLBOS. Клинические проявления начались у пациента почти на 20 лет позже обычного. Мужчина был не первым счастливчиком: до этого подобный случай был с женщиной, у нее мутация была как раз в гене APOE.