Машинное обучение упростило диагностику рака по подтипам

Модели-классификаторы выложили в открытый доступ

Олег Лищук

Исследователи из пяти стран воспользовались алгоритмами машинного обучения, чтобы разработать простые в использовании модели для классификации образцов злокачественных новообразований по известным подтипам. Эти модели, призванные облегчить молекулярное типирование опухолей пациентов в клинических условиях, выложили в открытый доступ. Отчет о работе опубликован в журнале Cancer Cell.

Молекулярные подтипы рака, определяемые, к примеру, в Атласе ракового генома (TCGA), дают информацию о биологических процессах в опухоли, которая помогает оценить прогноз пациента и выбрать рациональные подходы к лечению. При этом имеющиеся подходы к классификации опухолей по подтипам основаны на моделях и методах кластеризации, которые сложно применять за пределами того датасета, где они были выявлены, что делает их клиническое применение практически невозможным.

Питер Лэрд (Peter Laird) из Института Ван Андела с коллегами из Бразилии, Греции, Грузии, Канады и США провел мультиомный анализ 8791 опухолей из TCGA, относящихся к 106 известным подтипам 26 анатомогистопатологических разновидностей рака, по пяти типам данных: мутациям, числу копий, матричной РНК, метилированию ДНК и микроРНК. Исследователи разработали сбалансированные по подтипам повторные проходы перекрестной проверки, которые использовали в обучающих и тестовых наборах данных для пяти алгоритмов машинного обучения: AKLIMATE, CloudForest, SK Grid, JADBio (их тренировали для каждой разновидности рака в отдельности) и subSCOPE (для всех сразу).

С помощью этих алгоритмов и перекрестных проверок были созданы модели-классификаторы, оптимизированные для выявления молекулярных подтипов рака по минимальным наборам признаков, чтобы избежать чрезмерного обучения. Всего было создано почти 412,6 тысячи таких моделей. Из них отобрали наилучшие по каждой разновидности рака, алгоритму обучения и типу данных (всего 737 моделей-классификаторов для определения подтипа опухолей не из когорты TCGA), контейнеризировали и выложили в открытый доступ.

Полученные модели можно использовать для создания компактных систем и комплектов для генетической диагностики рака в клинических испытаниях и медицинской практике. Авторы работы выразили надежду, что их наработки станут первым шагом к сокращению разрыва между обширной библиотекой данных TCGA и ее клиническим применением.

О том, как эволюционировала диагностика рака от видимых глазом проявлений до генетических маркеров, и как проводят диагностический поиск в настоящее время, можно почитать в материале «За версту видно».