Машинное обучение все чаще находит применение в медицине. В обозримом будущем алгоритмы не заменят врачей, но помогут им с рутинной работой и компенсируют недостатки людей, которым свойственно уставать, лениться и пытаться упростить себе жизнь. В книге «Искусственный интеллект в медицине: Как умные технологии меняют подход к лечению» (издательство «Альпина Паблишер»), переведенной на русский язык Александром Анваером, профессор молекулярной медицины, кардиолог и исследователь Эрик Тополь рассказывает об алгоритмах, меняющих современную диагностику и лечение. N + 1 предлагает своим читателям ознакомиться с отрывком, в котором рассказывается, как машинное обучение упрощает исследование основ геномных болезней.
Огромные массивы данных, которые имеются на сегодня в биологии и медицине, настоятельно требуют внедрения машинного обучения и искусственного интеллекта. Возьмем для примера «Атлас ракового генома» (TCGA), содержащий многомерные биологические данные, охватывающие множество «-омик» — геномику, протеомику и так далее. Всего в атласе содержится более 2,5 петабайт информации, извлеченной из данных по более чем 30 тысячам пациентов. Ни одному человеку не под силу просмотреть и проанализировать все эти данные. Онколог Роберт Дарнелл, работающий в настоящее время на факультете нейробиологии Рокфеллеровского университета, заметил: «Мы, как биологи, можем лишь указать, например, на биологические основы аутизма. Мощь машины, которая может задать триллион вопросов там, где мы успеваем задать всего десять, меняет правила игры».
Правда, в отличие от тех осязаемых и зримых изменений, которые уже сегодня ощущают в связи с применением искусственного интеллекта специалисты таких отраслей медицины, как рентгенология и патологическая анатомия (то есть там, где требуется распознавание сложных образов), наука стоит особняком: искусственный интеллект пока не посягает на статус-кво ученых, ИИ может им только помочь. Как выразился Тим Аппенцеллер в материале для журнала Science, искусственный интеллект — это пока «подмастерье» ученых. Но искусственный интеллект уже может предложить им весьма ощутимую помощь: на обложке одного из номеров Science 2017 г. так и было написано — «Искусственный интеллект преображает науку». Оказывается, ИИ не только «породил нейробиологию» (как мы скоро сами убедимся), но и «перезагрузил процесс открытия». В самом деле, Science разглядел там, за горизонтом, нечто по-настоящему новое — «перспективу полностью автоматизированной науки», и это, по мнению авторов статьи, означало, что «неутомимый ученик очень скоро может стать равноправным коллегой».
ИИ-«коллега» — это, на мой взгляд, дело довольно далекого будущего, но его проникновение в науку происходит быстрыми темпами, независимо от того, сможет ли он когда-нибудь потеснить ученых. И действительно, ИИ в приложении к биологическим наукам развивается быстрее, чем в приложении к здравоохранению. В конце концов, данные фундаментальной науки далеко не всегда требуют валидации на̀ основании клинических испытаний. Фундаментальная наука не нуждается в одобрении со стороны медицинского сообщества, ее не нужно внедрять в практику, она не обязана соответствовать строгим требованиям регулирующего законодательства. Впрочем, несмотря на то, что наука не всегда способна пробиться в клиническую практику, в конечном счете все передовые достижения — будь то открытие новых, более эффективных лекарств или выявление биохимических механизмов, отвечающих за здоровье и болезни, — так или иначе повлияют на практикующих медиков. Давайте посмотрим, чего же добился наш «подмастерье».
В геномике и биологии искусственный интеллект — незаменимый партнер ученых, так как машины обладают зрением, способным различать вещи, недоступные человеческому глазу, и просеивать огромные массивы данные, непостижимые человеческим разумом.
Богатая данными геномика представляет собой идеальное поле приложения компьютерных методов. Каждый из нас — это сокровищница генетических данных, в диплоидном (от отца и матери) хромосомном наборе каждого из нас содержится 3,2 млрд пар различных сочетаний нуклеотидов: А (аденин), Ц (цитозин), Г (гуанин) и Т (тимин), причем 98,5 процента этого генома не кодирует никаких белков. То есть спустя 10 с лишним лет после полной расшифровки человеческого генома функция всего этого материала остается непонятной. Одна из первых попыток глубокого обучения, касающегося генома, Deep-SEA, была посвящена выяснению функции элементов, не принимающих участия в кодировании белков. В 2015 г. Цзянь Чжоу и Ольга Трояновская из Принстонского университета опубликовали алгоритм, который после обучения на основе данных каталогизации десятков тысяч нуклеотидов, не кодирующих белки, оказался способным предсказать, как именно последовательности ДНК взаимодействуют с хроматином. Хроматин состоит из крупных макромолекул, которые обеспечивают «упаковку» ДНК для хранения, а также помогают развертывать ее нить для транскрипции РНК и (в конечном счете) для трансляции белков. Таким образом, взаимодействие между хроматином и последовательностями ДНК играет важную регуляторную роль. Сяохуэй Се, специалист по ИТ из Калифорнийского университета в Ирвайне назвал это «важной вехой на пути приложения глубокого обучения к геномике».
Еще одним доказательством этой концепции, одним из первых, стало исследование генетических основ расстройств аутического спектра (РАС). До этого исследования скаутизмом с высокой степенью достоверности связывали только 65 генов. Алгоритмы позволили идентифицировать 2500 генов, которые с большой вероятностью влияют на проявление симптомов или даже являются первопричиной РАС. Алгоритмы позволили даже картировать взаимодействие заинтересованных генов.
Глубокое обучение также помогает решать фундаментальную задачу интерпретации вариантов идентифицированных последовательностей полного генома человека. Наиболее широко используется программа Genome Analysis Toolkit (GATK). В конце 2017 г. компания Google Brain разработала и внедрила систему DeepVariant в дополнение к GATK и другим ранее разработанным инструментам. DeepVariant не использует статистический подход ни для выявления мутаций и ошибок, ни для вычисления вероятности, истинным или ошибочным является сочетание нуклеотидов. Вместо этого система создает визуализацию базовых эталонных (референсных) геномов, известную под названием «стопки изображений», и использует ее для глубокого обучения сверточной нейронной сети, а затем создает визуализации заново секвенированных геномов, в которых ученые хотят идентифицировать варианты. К сожалению, несмотря на то, что DeepVariant находится в открытом доступе, использовать его сложно, так как он требует массивных вычислений и дает большую нагрузку на процессор, чем GATK.
Определение потенциальной патогенности обнаруженного варианта представляет собой нелегкую задачу, а если вариант находится в части генома, не кодирующей белки, то дело становится еще более запутанным. И хотя на сегодня существует более 10 алгоритмов ИИ, направленных на решение этой задачи, идентификация вариантов генома, вызывающих заболевания, остается пока самой важной нерешенной проблемой. Принстонская команда, упомянутая выше, сделала еще один важный шаг вперед в приложении глубокого обучения к геномике, приступив к предсказанию влияния вариантов элементов генома, не участвующих в кодировании, на экспрессию генов и риск заболеваний6. Коллектив ученых компании Illumina использовал глубокое обучение в приложении к исследованию генома приматов для повышения точности прогнозирования болезнетворных мутаций человеческого генома.
Геномика (исследования ДНК) — не единственная «-омика», созревшая для машинного и глубокого обучения. Глубокое обучение уже используется для каждого уровня биологической информации, включая данные об экспрессии генов, о факторах транскрипции и РНК-связывающих белках, о протеомике и метагеномике (в частности, о кишечном микробиоме), а также для изучения данных, касающихся отдельных клеток. DeepSequence и DeepVariant — инструменты искусственного интеллекта, помогающие разобраться в функциональном эффекте мутаций и точно идентифицировать варианты генома, — соответственно, и качество выполнения этих задач у них выше, чем у всех прежних моделей. Алгоритм DeepBind используется для предсказания функциональной адекватности факторов транскрипции. Программа DeFine способна количественно оценивать связывание ДНК с факторами транскрипции РНК и помогает оценить патогенную роль вариантов последовательностей в областях генома, не кодирующих белки. Были проведены работы по предсказанию специфичности ДНК- и РНК-связывающих белков, выявлению последовательностей, кодирующих определенные белковые каркасы по последовательностям аминокислотных остатков, а также по определению гиперчувствительности клеток многих типов к ДНК-азе I. Эпигеномы анализировали с помощью алгоритма DeepCpG, который способен предсказывать степень метилирования оснований в отдельных клетках. Также с помощью этой программы были предсказаны места связывания ДНК в хроматине и сайты метилирования, а в ходе сложнейшего анализа данных о последовательностях нуклеотидов в РНК отдельных клеток были усовершенствованы глубокие нейронные сети. Внутри разных «-омик» и в промежутках между ними число взаимодействий представляется бесконечным, и ученые все чаще используют машинное обучение, чтобы понять и оценить мириады способов взаимодействия генов в пределах одной клетки.
Приложение ИИ к редактированию генома имеет особенно впечатляющие перспективы. Подразделение Microsoft — Microsoft Research — разработало алгоритмическое приложение Elevation, которое оказалось способным предсказывать неэффективные замены в человеческом геноме при попытках его редактирования: таким образом, это позволяет предсказать оптимальные места редактирования участков ДНК и проектирования РНК-носителей для редактирования CRISPR (эта аббревиатура обозначает фрагменты ДНК, или, более точно, «короткие палиндромные повторы, регулярно расположенные группами»). Этот алгоритм превзошел по эффективности другие алгоритмы CRISPR, при создании которых использовали глубокое обучение. Такие алгоритмы не только повышают точность результатов в экспериментальной биологии, но еще и играют ключевую роль во многих клинических испытаниях, в проведении которых уже используют систему CRISPR для редактирования генома (при таких заболеваниях, как гемофилия, серповидно-клеточная анемия и талассемия).
Вероятно, поэтому совсем не вызывает удивления, что распознавание изображений стало играть центральную роль в клеточном анализе (особенно если учитывать, что это одна из самых сильных сторон глубокого обучения): для сортировки формы, классификации типов, определения происхождения, идентификации редких клеток в крови или для различения мертвых и живых клеток. Внутренняя работа клеток— в центре внимания DCell, алгоритма глубокого обучения, который прогнозирует клеточный рост, взаимодействие генов и другие функции.
Рак — это геномная болезнь, поэтому ничего удивительного, что именно онкология особенно выигрывает от внедрения искусственного интеллекта. Помимо помощи в интерпретации данных о последовательностях ДНК в опухолевых клетках (что было проделано в отношении глиобластомы, злокачественной опухоли головного мозга), мы получили новые инструменты для познания генеза и биофизики злокачественных новообразований.
Данные о метилировании ДНК злокачественных опухолей оказались весьма полезным следствием применения ИИ в классификации опухолей в онкологии. Для диагностики опухолей головного мозга патологоанатомы традиционно пользуются гистологическими препаратами. Эта диагностика достаточно трудна: существует множество редких форм рака, которые создают патологоанатому большие проблемы, если он не видел их прежде; клетки опухоли представляют собой мозаику клеток разных типов; биопсия, как правило, не позволяет отобрать все клетки, которые присутствуют в ткани опухоли. Кроме того, визуальная оценка препарата неизбежно субъективна. В 2018 г. Дэвид Каппер и его коллеги по больнице Шарите (Берлин) изучили метилирование целостного генома в образцах опухолей: их исследование показало точность около 93 процента в классификации всех 82 типов злокачественных опухолей головного мозга, что значительно превосходит результаты патологоанатомов. Определяемая машиной степень метилирования ДНК привела к пересмотру классификации более 70 процентов маркированных людьми опухолей, а это означает изменение прогнозирования в отношении как исходов заболевания, так и тактики лечения. Эти данные найдут широкое применение и в биологических исследованиях рака, и в клинической практике.
С помощью искусственного интеллекта мы многое узнали об эволюции рака. Ученые смогли расшифровать скрытые сигналы эволюции раковой опухоли у 178 пациентов при помощи технологии переноса обучения, что серьезно повлияло на формирование прогноза относительно этих пациентов. Однако в современном мире, переполненном дешевой шумихой по поводу ИИ, этот факт представили на первой полосе британского таблоида Daily Express следующим образом: «Война роботов против рака». Инструменты искусственного интеллекта помогли обнаружить онкогенные соматические мутации и понять сложность взаимодействия генов клеток раковых опухолей.
Последний наглядный и поучительный пример изучения рака с помощью искусственного интеллекта — это его применение к комплексной биологической системе для предсказания малигнизации составляющих ее клеток. Используя в качестве модели головастиков лягушек, ученые вводили головастикам сочетание трех реагентов, чтобы выявить ту комбинацию, которая вызывает малигнизацию меланоцитов у некоторых головастиков и приводит к росту опухоли, подобной раковой. И хотя не у всех головастиков из этой популяции развилась опухоль, любопытно было другое — все меланоциты конкретного головастика вели себя одинаково: либо все становились злокачественными, либо все развивались нормально. Ученые попытались определить комбинацию реагентов, которая привела бы к возникновению промежуточных форм — когда только некоторые клетки организма становятся злокачественными.
Проведя несколько экспериментов для определения эталонов, авторы затем использовали модели искусственного интеллекта для проведения 576 виртуальных экспериментов, имитирующих эмбриональное развитие головастиков в условиях воздействия различных сочетаний реагентов. Все имитации, кроме одной, оказались неудачными. Однако в этом стоге сена была обнаружена иголка — с помощью алгоритмов искусственного интеллекта, на основе которых была создана модель, предсказавшая опухолеподобный фенотип, когда не все клетки развиваются одинаково. Модель впоследствии была верифицирована. Даниэль Лобо из Мэрилендского университета в округе Балтимор, автор исследования, заметил по этому поводу: «Даже при создании полной модели, описывающей точный механизм управления системой, человек не сумеет самостоятельно найти точную комбинацию лекарств, которые приведут к желаемому результату. Эта работа послужила доказательством того, как система ИИ может помочь нам точно определить меры, необходимые для получения конкретного результата».
Подробнее читайте:
Тополь, Э. Искусственный интеллект в̀медицине: Как умные технологии меняют подход к лечению \ ЭрикТополь ; Пер. с англ. [Александра Анваера] — М.: Альпина Паблишер, 2022. — 398 с., ил.