Математики радикально ускорили обработку данных криомикроскопии

Слева направо: структуры белков GroEL-GroES и АТФазы T. thermophilus, использовавшиеся как модельные в работе авторов

Marcus A. Brubaker et al./ arXiv

Ученые из Университета Торонто добились значительного улучшения в технике криомикроскопии — многообещающего подхода к расшифровке строения белков. Их результаты обеспечивают статысячекратное увеличение скорости обработки данных. Препринт статьи доступен на сайте arXiv.org, кратко ознакомиться с работой можно в блоге издания MIT Technology Review.

Традиционный подход к изучению строения белков заключается в рентгеновском исследовании их кристаллов. Ученые выращивают монокристаллы белков и изучают, как рассеивается рентгеновское излучение, проходя через них. Самой трудной частью такого метода является получение самих кристаллов — во многих случаях белки попросту не кристаллизуются, а порой их структура в монокристалле значительно отличается от существующей в живом организме.


В связи с этим ученые ищут альтернативные методы получения трехмерных структур белков. Одним из них является просвечивающая электронная криомикроскопия. В этом методе раствор белка в воде очень быстро замораживается — достаточно быстро, чтобы не успели образоваться кристаллики льда, способные нарушить естественную геометрию молекулы. Получается очень тонкая пластинка, содержащая огромное количество молекул, повернутых под разными углами к наблюдателю. Ее исследуют в просвечивающем электронном микроскопе, получая сотни тысяч изображений — «теней» молекул. 

Компьютерными методами ученые складывают двухмерные изображения в одно трехмерное, получая тем самым структуру белка. Главным минусом данной методики долгое время было низкое разрешение и большое время, требующееся для получения структуры - на 300 ядрах суперкомпьютера расчет библиотеки из 200 тысяч «теней» занимает порядка двух недель.


Авторы новой работы предложили ряд усовершенствований, позволивших значительно ускорить процесс восстановления структуры белков и увеличить их точность. Во-первых, используя алгоритмы машинного обучения, исследователи провели предварительную обработку изображений «теней», позволившую убрать большое количество шумов, содержащихся в них. Это сократило объем информации, который обрабатывается компьютером, однако наибольший прирост в скорости обработки информации привнесло другое нововведение.

Ученые включили в алгоритм, накладывающий «тени» друг на друга, предположение о том, что большинство молекул в слое лежат «на боку». Это позволило уменьшить в разы количество вариантов наложений, рассматриваемых компьютером. Два этих усовершенствования, по словам авторов, увеличили скорость обработки данных в сотни тысяч раз. Для сравнения, теперь вычисление строения белка занимает всего сутки на современной рабочей станции.


Сам процесс вычисления итеративен, то есть улучшение разрешения структуры идет постепенно. На примере АТФ-синтазы термофильной бактерии Thermus thermophilus, авторы показали, что грубая оценка структуры белка может быть получена уже за час работы программы.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.