Представлена модель для предсказания структуры белков AlphaFold 3

Она работает на сервере с квотой и не разрешает изучать потенциальные лекарства

Компании Google DeepMind и Isomorphic Labs, принадлежащие Alphabet, представили AlphaFold 3 — новую версию модели на основе машинного обучения и диффузионной модели для предсказания точной структуры белков и их взаимодействий друг с другом и другими веществами. По заявлению разработчиков, она стала первой, превзошедшей по точности методы предсказания, основанные на физических свойствах молекул. Статья о модели принята для ускоренной публикации в Nature. Кроме того, о разработке рассказывают редакционные подкаст и статья, а также пресс-релизе Google.

Знание структуры белков необходимо в самых разных областях биологии — от понимания фундаментальных механизмов функционирования живых организмов до описания патогенеза болезней и рациональной разработки лекарств. До появления машинного обучения ее определение представляло собой крайне сложную, трудоемкую и затратную задачу. Ситуация начала меняться в 2018 году, когда сотрудники DeepMind представили первую высокоэффективную модель AlphaFold 1, которая сразу победила в конкурсе CASP. Вторая, более эффективная, версия AlphaFold 2 увидела свет в 2020 году и до сих пор служила стандартом в исследованиях по определению белковых структур. С ее помощью были разработаны вакцины от малярии, различные лекарства, ферменты и многое другое.

Руководитель проекта Джон Джампер (John Jumper) из Google DeepMind вместе с коллективом авторов разработал AlphaFold 3 на основе предыдущей версии, однако каждый ее компонент претерпел существенные модификации. Ее ядром служит улучшенная версия модуля глубокого обучения Evoformer, задействованного в AlphaFold 2. После обработки вводных данных AlphaFold 3 предсказывает структуру с помощью диффузионной модели, схожей с теми, которые используются для генерирования изображений. Процесс начинается с неорганизованного облака атомов, которое через множество итераций превращается в максимально точную белковую структуру.

Возможности новой модели включают предсказание структуры сложных комплексов, содержащих белки, нуклеиновые кислоты, низкомолекулярные соединения, ионы и модифицированные остатки. По данным разработчиков, AlphaFold 3 по точности предсказаний взаимодействий белков с лигандами на 50 процентов превосходит лучшие классические методы молекулярного докинга, включенные в тест PoseBusters, а также существующие модели на основе машинного обучения, такие как RoseTTAFold All-Atom и другие. При этом в некоторых практических аспектах точность модели может быть вдвое больше, чем у существующих методов. Isomorphic Labs уже сотрудничает с разными фармпроизводителями, чтобы использовать модель для дизайна новых лекарств.

В отличие от AlphaFold 2 и RoseTTAFold, ученые не получат код AlphaFold 3 и не смогут запускать его у себя. Для работы с новой моделью Google DeepMind запустила AlphaFold Server, предназначенный только для некоммерческих исследований (и он не позволяет получить структуру белков, связанных с потенциальными лекарственными молекулами). Сервер работает намного быстрее, чем приложение AlphaFold2, доступ к нему предоставляется бесплатно, но ограничен квотой в десять предсказаний ежедневно.

Фармакохимик Брайан Шойчет (Brian Shoichet) из Калифорнийского университета в Сан-Франциско отметил, что из-за подобных ограничений AlphaFold 3 не сможет оказать такое же влияние на науку и практику, как AlphaFold 2. В то же время, эволюционный биолог Сергей Овчинников (Sergey Ovchinnikov) из Массачусетского технологического института в разговоре с Nature выразил надежду, что информации из публикации о модели окажется достаточно, чтобы разработать версии с открытым кодом, причем они могут появиться еще до конца года.

Поправка

В первоначальной версии заметки говорилось, что AlphaFold 3 превосходит физические методы исследования. На самом деле, речь шла о моделировании методами молекулярного докинга, которые основаны на физических принципах взаимодействия молекул. Приносим извинения за допущенную неточность.

Ранее в 2024 году американская компания Profluent представила нейросетевой инструмент OpenCRISPR, который предназначен для генерирования полностью искусственных систем редактирования генома CRISPR-Cas9. Наиболее удачную из созданных на данный момент назвали OpenCRISPR-1, успешно испытали на человеческих клетках и выложили в открытый доступ.