Компьютер обошел человека в неорганическом синтезе

Блок-схема, суммирующая предсказания системы машинного обучения. Каждый прямоугольник - предсказания одной реакции.

Химики из Хаверфордского Колледжа и Университета Пердью в США разработали систему машинного обучения, которая позволяет предсказать результат химической реакции на основе базы данных, собранной из лабораторных журналов исследователей. Точность предсказания системы (по крайней мере по одному типу реакций), достигла и даже превысила предсказательные способности профессиональных химиков. Описание системы опубликовано в журнале Nature.

В качесте тестового задания исследователи использовали реакцию кристаллизации селенидов ванадия в присутсвии разнообразных органических аминов. В некоторых случаях эти вещества образуют крупные кристаллы, в некоторых — мелкие, иногда кристаллизация вовсе не происходит. Результат реакции зависит от множества условий: от температуры и концентрации веществ, от pH и присутсвия некоторый ионов, и, конечно, от структуры аминов, которые при этом используются.

Огромное число комбинаций этих условий сложно проверить экспериментально, однако профессиональные химики могут предугадать результат кристаллизации основываясь на своем обширном опыте. Идея работы заключалась в том, чтобы воспроизвести этот неформальный профессиональный опыт в предсказательной системе, созданной по принципам машинного обучения.

В своей статье химики используют обучение с учителем, то есть тренируют систему предсказывать результат реакции (наличие или отсутсвие кристаллов) на основе множества примеров с разными условиями. Для того, чтобы получить базу для обучения, авторы обратились к так называемым «темным реакциям» — фактически, безуспешным попыткам химиков получить то или иное соединение. Такие «провальные» эксперименты обычно не публикуются, но остаются на страницах лабораторных журналов.

Авторы статьи создали формальный язык описания условий проведения реакций и вручную собрали базу, в которую вошло почти четыре тысячи отдельных экспериментов. Помимо собственно условий реакции, в описание каждого из опытов, что получала система машинного обучения, входили параметры, которые легко вычислить автоматически: например, количество донорно-акцепторых групп в используемом амине, его молекулярный вес, константа диссоциации и так далее. База данных была разделена на обучающую и тестовую выборку, а для классификации использовался метод опорных векторов.

Оказалось, что полученная таким образом система правильно предсказывает результат реакции в 89 процентах случаев. При этом сами химики, руководствуясь профессиональной интуицией, правильно угадыват исход эксперимента только в 78 процентах случаев. По статистическому анализу, который приводят авторы, достоверность (неслучайность) этого преимущества машины над человеком составляет более 95 процентов (P <0,05).

Компьютерные системы предсказания результата реакций создавались и ранее, но до сих пор их точность не превосходила точность экспертной оценки профессионального химика. Подобные системы (основанные на опубликованных данных органического синтеза) успользовались прежде всего для ускорения работы химиков-синтетиков и избавления от рутинных задач, но не для предсказания. В то же время новая система, хотя и показала результат, превосходящий экспертную оценку, создана под очень специфическую задачу. Поэтому пока не ясно, будет ли подход с машинным обучением успешен в других условиях. Например, для синтеза новых биологически активных веществ, который интересует фарминдустрию прежде всего.

Александр Ершов


Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.