Машинное обучение предсказало изменения в кишечном микробиоме человека

Wikimedia Commons

Исследователи предложили новый метод регрессии, который позволяет предсказывать изменения в составе кишечного микробиома человека на основе данных о микробиоме в прошлом. Метод позволяет анализировать изменение долей различных видов микроорганизмов индивидуально. Исследование было опубликовано в журнале PLoS Computational Biology.

Микрофлора кишечника связана со многими физиологическими процессами, а также со здоровьем человека. Например, уже обнаружена связь между микрофлорой кишечника и иммунной системой человека, диабетом, развитием рака, ожирением и даже депрессией. В связи с этим понимание и моделирование процессов изменения микробиома кишечника интересует как биологов, так и врачей. К сожалению, на сегодняшний день ученые плохо понимают, как микробиом кишечника меняется и от чего эти изменения зависят. Кроме того, до сих пор неизвестно, насколько развитие микробиома кишечника детерминировано: до какой степени состав микробиома кишечника в один момент времени определяет состав микробиома в следующий момент времени. Важно понимать, что на состав микробиома влияет очень много внешних и «случайных» процессов. Под составом микробиома подразумеваются относительные размеры популяций микроорганизмов обитающих в кишечнике человека. Авторы исследования попытались частично ответить на этот вопрос с помощью нового метода машинного обучения.

От редактора

Чтобы упростить терминологию, мы будем называть отношение размера популяции конкретного вида организма в кишечнике человека к общему количеству организмов в кишечнике долей этого вида.

Предыдущие исследования указывали на то, что виды организмов из кишечника человека можно условно разделить на две категории: виды, чьи доли в микрофлоре можно хотя бы частично предсказать, основываясь на временных последовательностях, и виды, чьи доли ведут себя «случайным» образом. Отталкиваясь от этого наблюдения, авторы нового исследования задались целью определить, примерно какой процент видов принадлежит к первой категории. Для этого ученые ввели формальный параметр временной объяснимости (time-explainability). Такой параметр количественно характеризует, насколько доля вида в следующий момент времени зависит от состава микрофлоры в прошлом.

Чтобы измерить параметр временной объяснимости для разных видов, авторы предложили новую статистическую модель, которая основана на временных последовательностях. Главным преимуществом их модели, которая была названа MTV-LMM (Microbial community Temporal Variability Linear Mixed Model), является то, что она может объединять информацию о составах кишечных микробиомов сразу нескольких человек, при этом учитывая генетические различия между этими людьми (или различия в окружающих их средах). Формально предложенная модель является смешанной линейной моделью регрессии (linear mixed model). В этой модели доля каждого таксона в следующий момент времени моделируется на основе долей этого таксона в p предыдущих моментов времени, а также на основе полных составов микробиомов в q предыдущих моментов времени. Здесь p и q являются настраиваемыми параметрами модели.

Помимо измерения временной объяснимости, эта модель может быть напрямую использована для предсказания состава микробиома кишечника в будущие моменты времени. Чтобы проверить качество таких предсказаний, авторы провели эксперименты на трех настоящих медицинских наборах данных и одном синтетическом наборе. Все четыре набора данных находятся в открытом доступе. Также важно заметить, что два из использованных несинтетических наборов данных содержат информацию о взрослых донорах, тогда как третий набор содержит информацию о младенцах-донорах. Таким образом авторы заодно смогли изучить разницу между динамикой микробиома кишечников у младенцев и взрослых.

Все четыре набора данных представляют собой временные ряды, то есть упорядоченные данные о долях разных таксонов микробиома кишечника в разные моменты времени. Максимальный размер временных рядов из этих наборов данных составлял 332 элемента.  Для получения наиболее точных результатов по предсказаниям обучение и тестирование проводились отдельно на каждом наборе данных. Для фиксированного набора данных обучение проводилось по следующему принципу: временной ряд данных о микробиоме разбивался на три последовательных временных отрезка так, чтобы в каждый отрезок входило примерно одинаковое количество элементов из временной последовательности. Данные, входящие в первый отрезок времени — то есть самые ранние данные — использовались для обучения (то есть определения наиболее подходящих параметров линейной регрессии) нескольких моделей MTV-LMM с разными значениями параметров p и q. Параметр p варьировался от 0 до 1, а параметр q варьировался от 1 до 3. Все обученные модели потом проходили валидацию на данных из второго временного отрезка. Таким образом, на второй стадии отбиралась те значения параметров p и q, которые лучше всего подходят для предсказания следующих элементов последовательности данных на втором отрезке времени. В итоге выбранная модель оценивалась на финальном, третьем отрезке времени. Заметим, что оценка качества предсказаний как на втором, так и на третьем отрезках проводилась с помощью коэффициента корреляции Пирсона: предсказанный состав микробиома сравнивался с настоящим составом.

В результате этих экспериментов было выявлено, что предложенная модель MTV-LMM значительно превосходит ранее предложенные модели по качеству предсказаний на всех четырех наборах данных. Для сравнения использовались, например, ранее предложенный авторегрессионный метод sVAR, который был заимствован из эконометрики, и другой авторегрессионный метод ARIMA Poisson, основанный на известном методе моделирования временных рядов ARIMA. Что касается параметра временной объяснимости, то эксперименты выявили, что более 85 процентов таксонов во всех трех несинтетических наборах данных имели сравнительно высокий параметр временной объяснимости. В среднем уровень временной объяснимости по набору данных с младенцами составлял 23 процента, а по двум другим наборам данных этот средний показатель составлял 21 и 14 процентов соответственно. Это на порядок выше, чем считалось ранее. Таким образом, ранее считалось, что внешние (неизвестные) процессы играют куда более доминирующую роль в динамике кишечного микробиома.

Новые результаты меняют это представление и указывают на то, что сравнительно высокая доля динамики кишечного микробиома человека объясняется с помощью временных (детерминистических) зависимостей. Предложенный метод продемонстрировал качественный скачок вперед в области моделирования и предсказания состава кишечного микробиома по сравнению с предыдущими исследованиями. Также важным результатом стала способность модели выявлять таксоны, которые наиболее (или, наоборот, наименее) подвержены временной зависимости.

Последние несколько лет ученые активно изучают микрофлору кишечника. Например, недавно другая группа исследователей нашла две тысячи новых видов бактерий в человеческом кишечнике.

Алексей Маркин

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.