Американские ученые разработали программу, которая систематизирует информацию о методах получения материалов, описанных в научных публикациях, а также на основе этого предсказывать исходы аналогичных реакций с похожими материалами, которых еще нет в базе данных. Статья опубликована в журнале Chemistry of Materials.
Благодаря накопленным научным знаниям ученые и инженеры могут подбирать материалы под конкретные задачи и условия. Но процесс получения таким материалов не всегда известен и очевиден. Для этого исследователи могут изучать существующие публикации на предмет методик синтеза того или иного материала или, если такого описания в литературе нет, самостоятельно придумать метод на основе методов получения аналогичных материалов.
Американские исследователи создали алгоритм, который частично автоматизирует этот процесс. Поскольку для такой задачи нет больших общедоступных наборов размеченных данных, которые обычно используются для машинного обучения, исследователи сами создали такой набор, вручную разметив около ста статей, выделив в них части, в которых описывается процесс синтеза материалов, а также использовали разработанный в Goolge инструмент Word2vec, который позволяет вычислять векторные представления слов и группировать их на основе контекста, в котором они встречаются. За счет этого они смогли значительно расширить набор данных — до более, чем полумиллиона статей, без необходимости вручную подготавливать их для тренировки алгоритма. Алгоритм исследователей основывается на использовании деревьев принятия решений и линейных классификаторах, реализованных с помощью открытых фреймворков машинного обучения TensorFlow и scikit-learn.
Ученые продемонстрировали несколько примеров использования программы. На основе набора из 12913 статей они создали базу данных из методов и параметров получения различных оксидов металлов, к примеру, температура или длительность процесса. Визуализировав эти данные, исследователи обнаружили некоторые закономерности, например, зависимость числа компонентов в оксиде в зависимости от температуры его получения. Также ученые показали, что разработанный алгоритм может не только анализировать известные методы синтеза, но и на их основе делать предсказания относительно исхода похожих реакций с участием других веществ, например, образования фазы с определенным кристаллографическим строением.
Исследователи отмечают, что на разработку их алгоритма повлияла работа других авторов, которые разработали похожую систему, способную предсказать результат химической реакции на основе базы данных, собранной из лабораторных журналов исследователей.
Григорий Копиев