Машинное обучение помогло роботу предсказать успешность органического синтеза

J. M. Granda et al./ Nature, 2018

Британские химики создали робота, который может автоматически проводить одностадийный органический синтез и с помощью методов машинного обучения предсказывать вероятность протекания этих реакций. Так, после проведения менее 100 реакций, робот успешно предсказал исход около 900 других химических реакций. В результате исследования удалось обнаружить четыре реакции, неизвестные ранее, пишут ученые в Nature.

Разрабатывать методы машинного обучения, которые способны предсказывать результатов химических реакций, начали еще около десяти лет назад. Для обучения этих алгоритмов обычно используются накопленные знания об удачных и неудачных экспериментах. Если при традиционных подходах эти знания преобразовывались в опыт и интуицию ученых, то сейчас все записи о результатах проведенных реакциях можно проанализировать с помощью методов машинного обучения и оценить вероятность протекания той или иной реакции, ее возможные продукты и выход. Например, таким образом удалось предсказать исход реакции синтеза гибридных органо-неорганических соединений, в частности металл-органических каркасов. Кроме известных данных о реакционной способности веществ, для обучения также могут использоваться результаты квантово-химических расчетов и данные спектрометрического анализа полученных смесей.

Несмотря, на то, что развиваются такие методы довольно активно, заменить человека они пока еще не могут. В частности, это связано с тем, что для обучения алгоритмов необходимо большое количество новых данных, получение которых — долгий и трудоемкий процесс. Для решения этой проблемы группа британских химиков из Университета Глазго под руководством Лероя Кронина (Leroy Cronin) предложила получать эти данные в автоматическом режиме и сразу же использовать их для машинного обучения. С этой целью ученые создали робота, который может проводить одностадийный органический синтез, смешивая между собой два вещества с известной химической структурой. При этом такой робот не только смешивает вещества, но и проводит химический анализ смеси прямо по ходу реакции с помощью методов спектроскопии ядерно-магнитного резонанса, инфракрасной спектроскопии и масс-спектрометрии.

Для анализа были использованы органические вещества, каждому из которых был присвоен свой двоичный код, отображающий наличие или отсутствие в них одной из 18 функциональных групп. Один элементарный цикл исследования представлял собой смешивание друг с другом двух веществ из этого набора и анализ спектров реагентов и продуктов, на основании которого делался вывод, реагируют эти вещества между собой или нет. Для этого робот в первый раз использовал машинное обучение: с помощью метода опорных векторов на основе спектроскопических данных смесь определяется как прореагировавшая или непрореагировавшая. Обучение этого алгоритма проводилось на 72 реакциях, которые химиками были классифицированы вручную.

После каждой реакции по результатам анализа дополнялось общее пространство всех возможных химических реакций для каждой пары из 18 реагентов. Для построения этого пространства машинное обучение использовалось второй раз: на этот раз с помощью метода линейного дискриминантного анализа проводилась кластеризация, и на основе двоичного кода для каждого вещества проводился поиск похожих соединений и алгоритм предсказывал, будут вещества реагировать между собой или нет. Для такой оценки не обязательно проводить все 969 возможных реакций, а можно проанализировать лишь небольшую часть выборки. Проверка этого метода показала, что после анализа только 10 процентов от всех реакций, предсказать возможность протекания оставшихся можно с точностью примерно в 80 процентов. В результате ученым удалось обнаружить четыре реакции, неизвестные ранее.

Алгоритм ученые проверили на опубликованных данных о нескольких тысячах различных реакций. Точность предсказания в этом случае составила около 86 процентов. Авторы отмечают, что в будущем точность метода можно увеличить за счет более точного анализа спектров, особенно если изменения на спектрах до и после реакций — незначительные. По словам авторов исследования, предложенный метод машинного обучения в реальном времени может уже сейчас использоваться при поиске новых реакций для органического синтеза.

Методы машинного обучения могут быть полезными не только для органического синтеза но и для поиска методов синтеза неорганических материалов. Так, недавно американские химики разработали программу, которая на основе опубликованных данных о получении оксидных материалов может предсказывать результат похожих реакций с теми материалами, которых нет в базе данных.

Александр Дубов

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.