Нейросеть Google предсказала запах молекул по их структуре

Исследовательская лаборатория Google Research представила карту основных запахов (Principal Odor Map), с помощью которой по химической структуре молекуле можно определить ее запах. По словам авторов исследования, предсказания этой карты точнее, чем у аналогичных моделей. С помощью предложенного подхода ученые могут в том числе предсказывать запахи неизвестных молекул. О результатах исследования Google сообщает в своем блоге, препринт с результатами исследования опубликован на biorxiv.

Обновлено: в августе 2023 года статья была опубликована в Science.

Из скольких базовых компонент человеческий мозг складывает запах — до сих пор непонятно. Чтобы разобраться с числом основных запахов, ученые — математики, нейробиологи, химики и лингвисты — тем или иным способом пытаются связать химическую структуру молекулу с обонятельным перцептом (образом, который воспринимает мозг) и его словесным описанием. Сейчас считают, что этих запахов должно быть порядка десяти, но точное число неизвестно: уверенно ученые могут говорить, что размерность обонятельного пространства где-то между 6 и 30. Подробнее о методах определения обонятельного пространства читайте в нашем материале «Феноменология духа».

Чаще всего для выделения первичных запахов ученые используют методы сокращения размерности, выделяя из сложного многомерного пространства слов и химических формул только необходимые измерения, которых хватит для кодирования химического сигнала. Для этого используют методы многомерного шкалирования, определения главных компонент и нейросети. Задачу усложняет и то, что связь химической формулы и обонятельного перцепта не всегда взаимооднозначная. Один и рецептор может реагировать на множество молекул, а одна молекула — захватываться несколькими вариантами рецепторов. Из-за этого одно и то же вещество может пахнуть по-разному для разных людей, и даже у одного человека — вызывать сразу несколько обонятельных образов. Например, для описания запаха ванилина участники опросов используют не только слово ванильный, но также сладкий, сливочный, шоколадный и другие близкие характеристики.

Чтобы построить соответствие между химической структурой молекулы и ее запахом, необязательно точно знать минимальную размерность пространства, в котором они существуют. И для фундаментальных исследований, и для прикладных задач достаточно иметь надежный инструмент, который будет с высокой точностью предсказывать запах молекулы. Такую модель сделали с помощью нейросети ученые под руководством Александра Вилчко (Alexander B. Wiltschko) из исследовательской лаборатории Google — авторы построили модель, которую назвали картой основных запахов (Principal Odor Map). Эта карта, во-первых, задает непрерывное многомерное пространство, в котором словесные описания запахов представлены в виде пересекающихся областей, а во-вторых присваивает каждой молекуле вектор в этом пространстве, чтобы по химической структуре можно было определить в какие области попадет то или иное вещество и чем оно будет пахнуть.

Первую версию этой модели ученые представили еще в 2019 году. В ней графовая нейросеть ставила в соответствие химическую структуру отдельных небольших молекул с их запахами и размещала их в многомерном пространстве, в котором расстояние между молекулами соответствует сходству их запахов. Каждая пахучая молекула в этой модели представляется в форме графа, в котором атомы — это узлы с заданными атомным номером, валентностью, зарядом, числом связанных с ней атомов водорода и гибридизацией, а ребра — химические связи, с заданными кратностью и ароматичностью. Предпоследний слой нейросети задавал карту с расположенными на ней в форме многомерных векторов молекулами-графами, а последний — предсказывал запах этих молекул.

В новом исследовании ученые модернизировали модель, превратив многомерное пространство с кластерами дискретных точек в непрерывную карту. По словам авторов, новая карта учитывает все отношения между перцептами — расстояния и возможную иерархию, она устойчива к прерывистой структуре пространств химических структур и словесных описаний. Поэтому с помощью нее можно предсказывать запахи молекул, неизвестных нейросети, то есть которых не было в изначальной базе данных, по которой она строилась. Чтобы проверить работоспособность модели, ученые проверили ее на 400 молекулах, структура которых сильно отличалась от предложенных нейросети для обучения и не включенных в известные базы данных запахов.

Предсказания модели сравнивали с результатом опроса 15 людей, которых просили охарактеризовать те же молекулы набором из 50 предложенных дескрипторов. Авторы исследования выяснили, что предсказания модели ближе к усредненному предсказанию всех опрошенных чем предсказания среднего участника из того же исследования (для сравнения, в классических базах данных, дескрипторы для пахнущих молекул ученые присваивают по результатам опросов более чем сотни участников). Также результат предсказаний сравнили с кластеризацией по «отпечаткам пальцев» молекул по классической системе 1965 года для химической информационной системы (CAS), не предназначенной специально для оценки запаха веществ.

Кроме того, по словам авторов работы, эту карту можно использовать и для решения других задач — вопросов фундаментальной биологии (например связанных с обонянием у животных и активностью мозга) и здравоохранения. В частности, ученые провели дополнительное испытание модели, в котором показали, что с помощью нее можно предсказывать не только тот запах, который почувствует человек, а также активность рецепторов и обонятельных нейронов у животных (в частности у мышей и насекомых) в ответ на обонятельные стимулы.

Большинство пахучих веществ играют важную роль в коммуникации и поведении животных и выстраивании межвидовых связей. Например, бактерии-стрептомицеты выделяют летучее соединение с запахом сырой земли, с помощью которого привлекают членистоногих, распространяющих их споры. А красные огненные муравьи ориентируются на запах веществ, которые выделяют актинобактерии, когда ищут подходящие места для строительства новых колоний.

Александр Дубов

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Размер имеет значение

Как масштабный подход помогает фундаментальной науке

Мнение редакции может не совпадать с мнением автора