Машинное обучение ускорит поиск мишеней для лекарств

Надежда Бессонова

Канадские ученые применили методы машинного обучения для восстановления 3D-формы молекул белка из двухмерных изображений, полученных криомикроскопией. Высокое разрешение, точность и быстродействие нового метода обещают существенно упростить разработку средств для лекарственной терапии широкого диапазона болезней, включая онкологические заболевания и болезнь Альцгеймера. Описание работы опубликовано в журнале Nature Methods.

Одно из направлений современной медицины — таргетированная терапия, основанная на выявлении особенностей молекулярной патологии: лекарственный препарат находит нетипичные молекулы белка, связывается с ними и изменяет их форму, меняя поведение белка в организме. Идеальный препарат может связываться только со специфическими белками, форма которых обусловлена конкретной болезнью — таким образом можно избежать побочных эффектов, которые возникают при связывании препарата с другими белками в организме. Таким образом, разработка новых лекарственных препаратов напоминает сборку пазла: не зная трехмерную форму белка, задача становится практически не разрешимой.

Одним из многообещающих подходов восстановления трехмерной структуры белков основан на использовании микроскопических двухмерных изображений, полученных методом электронной криомикроскопии (крио-ЭМ). Этот метод использует электронные микроскопы для выполнения десятков тысяч снимков замороженных образцов белка под разными углами. После того, как получены двухмерные изображения, их нужно объединить в точную 3D-модель высокого разрешения.

Существующие методы позволяют выполнить эту задачу за несколько дней, а то и недель, с использованием кластера мощных компьютеров; при этом для их работы требуется исходная экспертная оценка молекулы, структуру которой нужно восстановить.

Новый подход основан на применении стохастического градиентного спуска (SGD), а также алгоритмов оптимизации на базе методов максимального правдоподобия и метода ветвей и границ. Набор методов машинного обучения объединен в программу cryoSPARC (cryo-EM Single-Particle Ab initio Reconstruction and Classification), которая работает на базе графических процессоров (GPU). Программа выполняет задачу определения структуры молекулы в течение нескольких часов или даже минут, а основное новшество метода заключается в том, что метод не требует предварительных экспертных знаний о структуре молекулы белка, что позволяет получать в том числе вполне неожиданные структуры макромолекул.

Стандартные методы градиентного спуска, применяемые для приближения трехмерных моделей, чувствительны к первоначальной инициализации: произвольная начальная картинка может привести к локальному минимуму функции ошибки, далекому от искомой 3D-модели, в то время как корректная инициализация приведет к корректной модели (глобальному минимуму) — поэтому важно иметь предварительную экспертную оценку искомой структуры. При этом классический подход использует все исходные двухмерные изображения на каждом шаге, что значительно замедляет процесс. Примененный в новой работе модифицированный метод стохастического градиентного спуска на каждой итерации использует некоторое произвольным образом выбранное подмножество начальных двухмерных изображений для аппроксимации 3D-модели; при каждой итерации метод использует градиенты, рассчитанные на основе случайного набора исходных изображений, что позволяет избежать застревания в локальном минимуме и обеспечить многократное обновление восстанавливаемой модели за один проход всего исходного набора двухмерных изображений.

Метод был протестирован на известных наборах данных для молекул рибосомы и протеасомы: полученные модели обеспечили разрешение около трех ангстремов (один ангстрем равен 10⁻¹⁰ метра), при этом модели были построены за два часа и 70 минут соответственно — в известных аналогах построение этих моделей занимает около 20 часов.

Ученые рассчитывают, что новый метод даст новаторский подход к изучению объектов структурной биологии и поможет в создании новых лекарств.

Надежда Бессонова