Это указывает на недостаточность реальных клинических датасетов
Загрузка галереи
Американские и бангладешские исследователи протестировали наиболее популярные в медицине алгоритмы машинного обучения и пришли к выводу, что они крайне плохо справляются с предсказаниями критических и прогрессивно ухудшающихся состояний, таких как внутрибольничная смертность и пятилетнее прогрессирование рака. Отчет опубликован в журнале Communications Medicine.
FDA впервые одобрило автономную диагностическую систему на основе машинного обучения (для выявления диабетической ретинопатии) в 2018 году, с тех пор появились и другие клинически доступные модели. Вскоре после этого стали накапливаться данные о недостаточной эффективности подобных инструментов в различных клинических сценариях, к примеру при предсказании смерти, сепсиса и рака кожи. Во многом это связано с недостаточным покрытием датасетами клинических состояний и несбалансированностью этих данных, особенно в отношении более редких (в том числе критических) исходов и прогрессирования заболевания со временем.
Даньфэн Дафна Яо (Danfeng Daphne Yao) из Политехнического института и университета штата Виргиния с коллегами решила протестировать способность различных алгоритмов машинного обучения предсказывать внутрибольничную смертность за 48 часов и пятилетнюю выживаемость при раке груди и легкого. Для этого они с привлечением медицинских экспертов систематически генерировали тестовые случаи, не входящие в оригинальные использованные датасеты — бенчмарки на основе MIMIC III и eICU, содержащие 48-часовые серии наблюдений в отделениях реанимации, а также SEER с пятилетними данными по указанным онкозаболеваниям. Как и многие медицинские датасеты, они не были сбалансированы: MIMIC-III содержал 21139 образцов и 13,2 процента смертей, eICU — 30681 образец и 11,5 процента смертей, SEER по раку груди — почти 250 тысяч случаев с 56 признаками и 12,7 процента смертей, SEER по раку легкого — более 200 тысяч случаев с 47 признаками и 84 процентами смертей.
Для обучения и тестирования выбрали наиболее часто используемые для поставленных задач модели: долгую краткосрочную память (LSTM) для предсказания внутрибольничной смертности и многослойный перцептрон для прогнозирования выживаемости при раке. Вдобавок к этому в работу включили модели общего назначения, часто упоминаемые в медицинской литературе, такие как XGBoost, AdaBoost, случайный лес, гауссовский наивный байесовский классификатор и метод К-ближайших соседей (KNN). Для предсказания смертности также включили поканальную долгую краткосрочную память (CW-LSTM) и линейную логистическую регрессию из оригинального бенчмарка и модель на основе трансформера.
Для предсказания 48-часовой смертности в больнице исследователи сгенерировали более 177,5 тысячи, а пятилетней выживаемости при раке — почти 205,5 тысячи тестовых случаев путем изменения одного, двух или нескольких физиологических показателей в соответствии с разными клинически достоверными состояниями пациента. Результаты оказались неудовлетворительными: алгоритмы смогли заметить критические и резко ухудшающиеся состояния не более чем в трети тестовых случаев, причем зачастую завышали оценку вероятности смерти при умеренных повреждениях и сильно занижали ее при крайне тяжелых. При прогнозе выживаемости при раке груди и легкого результаты были схожими. Особенно низкая достоверность предсказаний наблюдалась при изменении (хоть и критическом) единственного клинического показателя (например, частоты дыхания или температуры тела).
Полученные результаты свидетельствуют, что алгоритмы, обученные только на данных пациентов, имеют серьезные изъяны, приводящие к частому появлению слепых пятен при диагностике жизненно важных состояний. Вопрос о том, как интегрировать медицинскую информацию в клинические модели машинного обучения, имеет критическое значение и должен стать предметом серьезного изучения, заключают авторы работы.
О том, как в настоящее время обстоят дела с медицинскими диагностическими алгоритмами машинного обучения, как оценивают их эффективность и можно ли ее повысить, подробно рассказано в материале «Диагноз из машины».
Но летальность снизилась
Общее число выявленных случаев неидентифицированной инфекции в Демократической Республике Конго в ходе усиленного мониторинга к настоящему времени возросло до 1096, а летальных — до 60, говорится в пресс-релизе Всемирной организации здравоохранения. Ранее сообщалось о 431 случаях заболевания и 53 смертях от него в двух очагах в Экваториальной провинции на северо-западе страны, почти половина умерших скончалась в течение двух суток от появления первых симптомов. Анализы на лихорадки Эбола и Марбург оказались отрицательными.