Нейронную сеть научили определять пестициды на глаз

Поле лилий в Орегоне, штат США.

Gifford Photographic Collection

Ученые из МФТИ и МГУ с помощью искусственной нейронной сети разработали компьютерную модель, которая позволяет предсказать, является ли определенное вещество пестицидом или регулятором роста растения. Результаты исследования были опубликованы в журнале Phytochemistry.

Для поиска потенциальных пестицидов или регуляторов роста обычно проводится скрининг химических библиотек. Однако выбор таких веществ из огромного числа соединений и их последующее тестирование является долгим и дорогостоящим процессом. В таких условиях наиболее подходящим методом поиска регуляторов роста становится изучение так называемого «химического пространства» — всей совокупности уже исследованных веществ с их молекулярными дескрипторами, то есть физико-химическими характеристиками молекулы.

Химическое пространство можно представить в виде многомерного пространства, где молекулярные дескрипторы представляют собой вектора. Однако для более удобного представления таких наборов химических данных применяют визуализацию в виде 2D-карт. 

Одним из способов картографирования химической информации является самоорганизующаяся карта Кохонена (СКХ) — нейронная сеть, которая способна обучаться самостоятельно и занимается визуализацией и кластеризацией. Она лучше всего подходит для выявления скрытых закономерностей внутри многомерных данных.

СКХ переводит многомерные данные — например, набор физико-химических свойств молекул, — в двумерную решетку, которая в каждом узле содержит искусственные нейроны. Любой нейрон обладает двумя векторами: один представляет его координаты, а другой является вектором веса. Каждая компонента входящего вектора (молекулярные дескрипторы) непосредственно связана со всеми нейронами через набор весовых коэффициентов. Эти веса первоначально распределены в случайном порядке и постепенно подводятся друг к другу через вручную заданное количество обучающих циклов. Нейроны меняют значения своих векторов веса в процессе обучения и, в конечном итоге, улавливает закономерности данных в изначальном пространстве. 

В качестве источника информации ученые использовали базы данных статей и патентов, обнаружив 12 тысяч соединений, которые применялись в агрохимии. Для поиска химических веществ и создания первичной базы данных исследователи использовали различное программное обеспечение. База данных была подвергнута обработке с целью устранения дубликатов, а также отбору самых характерных соединений, которые были включены в итоговую выборку из 1808 соединений.

Для выявления ключевых молекулярных дескрипторов ученые воспользовались еще одним методом машинного обучения — методом опорных векторов. Суть метода обычно заключалась в поиске способа разделения всего массива данных на две категории так, чтобы группы данных оказались на максимальном расстоянии друг от друга. Отличительной особенностью подхода исследователей явилось то, что вместо двух категорий они использовали четыре класса: фитогормоны, гербициды, инсектициды и фунгициды.

Исследователи нашли четыре молекулярных дескриптора, которые в наибольшей степени определяли разбиение соединений на четыре класса: количество атомов водорода, количество участвующих в образовании водородных связей атомов, число свободно вращающихся связей, а также количество двойных или тройных связей на общее число связей. Эти четыре показателя использовались для построения карт Кохонена.

Полученные учеными карты показали, что четыре класса соединений образовали относительно независимые кластеры, хотя регуляторы роста и гербициды несколько перекрывались. Это объясняется тем, что некоторые соединения в зависимости от концентрации могут как активировать рост растений, так и подавлять его. Кроме того, среди регуляторов роста выделялось несколько групп, которые указывали на различные механизмы активности соединений. Ученые проверили предсказательную силу полученной модели на 27 соединениях, которые либо стимулировали прорастание семян и развитие корней, либо ингибировали их. Карта Кохонена правильно разместила 67 процентов соединений, что доказало эффективность компьютерной модели.

Александр Еникеев


Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.