Метагеномика помогла предсказать структуры для 614 семейств белков

Третичные структуры белков: в каждой паре слева стоит предсказание компьютерной модели, а справа — экспериментально установленная структура.

Изображение: Sergey Ovchinnikov et al./ Science

Международный коллектив ученых из США и Саудовской Аравии при помощи нескольких вычислительных методов и анализа метагеномных последовательностей предсказал трехмерные структуры 614 белковых семейств, для которых этого ранее не удавалось сделать экспериментально. Исследование опубликовано в Science.

Исследование структуры белков остается одной из самых востребованных задач в современной молекулярной биологии, так как все функции белков, параметры их взаимодействий друг с другом и прочими веществами так или иначе определяются именно пространственной структурой. Несмотря на то, что первичную структуру (последовательность аминокислот в цепи) узнать сравнительно нетрудно, восстановление из нее третичной структуры (как именно белок свернут в пространстве) оказывается крайне сложной вычислительной задачей. Экспериментально для ее решения применяются методы рентгеноструктурного анализа или спектроскопия ядерного магнитного резонанса, однако далеко не во всех случаях с их помощью удается установить структуру того или иного белка.

Одним из подходов к решению этой проблемы является гомологическое моделирование. Гомологами называют белки, имеющие общее происхождение и поэтому обладающие схожими фрагментами в аминокислотной последовательности. Два белка-гомолога обычно обладают похожей пространственной структурой за исключением небольшого числа отличающихся участков, которые уже не так сложно разрешить. Проблемой этого метода остается тот факт, что для многих белковых семейств структура не известна, поэтому нет такого гомолога, с которым можно было бы сравниться.

В том случае, когда о структуре целевого белка не известно практически ничего, для ее предсказания применяются вычислительные методы, которые пытаются хотя бы угадать третичную структуру на основе аминокислотной последовательности. Для этого необходимо учесть все взаимодействия между всеми боковыми аминокислотными радикалами, а затем найти такую конфигурацию цепи, при которой энергия этих взаимодействий минимальна. Эта задача, если подходить к ней методом перебора, практически неразрешима даже на современных суперкомпьютерах за счет огромного числа вариантов укладки цепи. Однако это число можно значительно уменьшить, если учесть многие локальные особенности, характерные для большинства белковых цепей. Например, можно построить «карты», указывающие на то, какие аминокислоты часто находятся рядом, а какие — наоборот, стремятся оттолкнуться.

Недавно исследователями был предложен один из самых эффективных методов уменьшения пространства перебора укладки белковой цепи, который основан на анализе мутантных гомологичных последовательностей. Идея метода заключается в том, что довольно часто случайные мутации аминокислот в белковой цепи сопровождаются возникновением других, компенсаторных мутаций, которые нивелируют негативный эффект исходной мутации. Например, появление в цепи аминокислоты с крупным боковым радикалом может компенсироватся уменьшением размера радикала в соседней области, что позволяет сохранить общую укладку цепи. Такая ко-эволюция в белковой последовательности может указывать на то, что мутированные аминокислоты скорее всего контактируют друг с другом в пространстве. Такая информация существенно упрощает компьютерным системам перебор возможных вариантов структуры.

Этот подход ученые уже использовали для моделирования нескольких белковых структур (1,2,3), однако до сих пор он был ограничен последовательностями из известных баз данных. Авторы нового исследования предложили учитывать при компьютерном предсказании структуры неизвестного белка результаты метагеномных анализов. Метагеномика подразумевает секвенирование всей выделенной из какого-либо живого сообщества ДНК (это могут быть образцы морской воды, содержимого кишечника и т.д.), что позволяет узнать последовательности гораздо большего числа микроорганизмов, чем можно вырастить в лаборатории. При анализе белковых последовательностей такой подход хорош еще и тем, что в «дикой» микробной экосистеме одновременно присутсвует большое число близких видов, имеющих различные компенсаторные мутации.

Применив новый метод к известным аминокислотным последовательностям, ученым удалось предсказать ранее не описанные структуры для белков из 614 семейств, среди которых 206 были мембранными белками (их структуры биологам традиционно даются существенно тяжелее). Многие из предсказанных структур удалось отнести к уже известному типу третичной структуры, однако для 137 белков поиск по крупнейшей специализированной базе Protein Data Bank не дал результатов, то есть они представляли собой новые типы свертки (новые фолды).

Авторы отмечают, что их результаты описывают около 12 процентов от всех белковых семейств, для которых известна первичная, но не определена третичная структура. Тем не менее, остается еще большое число неописанных структур, которые, как полагают ученые, удасться предсказать на основании метагеномных данных.

Тарас Молотилин

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.