Американские ученые использовали знания о структуре обонятельной системы фруктовой дрозофилы (лат. Drosophila melanogaster) для разработки нового алгоритма хеширования информации, основанного на поиске сходств. Статья опубликована в журнале Science.
Обонятельная система фруктовой дрозофилы устроена следующим образом. Запах поступает к нейронам обонятельных рецепторов в носу насекомого (всего их около 50) и посылает сигналы к 50 отвечающим за обработку запахов клубочкам (glomeruli) проекционных нейронов в головном мозге. После этого ГАМК-ергический нейрон ингибирует большинство сигналов, в результате чего, в зависимости от запаха, активируется определенное количество (около 5 процентов) клеток Кеньона — главных обонятельных нейронов мозга дрозофилы, отвечающих за определение и запоминание запахов (всего их примерно 2000). Такая обонятельная система помогает насекомым классифицировать запахи на привлекающие (например, запах еды) и потенциально опасные (запах яда). Авторы новой работы интегрировали структуру обонятельной системы дрозофилы в машинное обучение для создания нового алгоритма поиска сходств.
Алгоритмы поиска сходств используются довольно часто: например, в интернет-магазинах для того, чтобы предлагать покупателям товары, похожие на те, которые они уже купили, или на стриминговых сервисах (типа Netflix или Apple Music) — для того, чтобы предлагать интересный отдельному пользователю контент. Обычно они основаны на поиске в крупном массиве данных паттернов, которые характеризуют входные данные, при помощи приближенного поиска n-мерных векторов.
Исследователи представили обоняние дрозофилы в качестве процесса хеширования — преобразования массива входных данных (запахи) в строку выходных данных определенной длины (популяцию активных нейронов и степень их активности — или «теги»). Каждый запах, таким образом, представлен в виде 50-мерного вектора определяющих его нейронов обонятельных рецепторов, каждый из которых имеет свою степень активности. То есть, каждый объект из массива входных будет представлен в виде такого вектора признаков определенной длины (длины хеша), который далее будет использоваться для сравнения с входными данными. Таким образом, на выходе будет получаться объект с максимально совпадающим количеством признаков.
Алгоритм проверили на трех базах данных: SIFT и MNIST, которые содержат векторы признаков изображений для поиска сходств, а также GLOVE — база данных слов, которая используется для поиска семантических сходств. Новый алгоритм справился с хешированием лучше, чем другой алгоритм поиска сходств, основанный на хешировании, — в основном, на маленькой длине хеша. Например, точность нового алгоритма поиска сходств на 28,8 процентов выше при работе с данными MNIST и длине хеша, равной четырем.
Авторы работы отмечают, что их новый алгоритм может улучшить не только хеширование, но и кластеризацию и классификацию информации, а также быть полезным для эффективного глубокого обучения.
По сравнению с мозгом человека, который содержит более 85 миллиардов нейронов, мозг дрозофилы достаточно прост — в нем нейронов около 130 тысяч. Именно поэтому ученые часто используют дрозофил в качестве модельного организма для изучения структуры и функций нервной системы. Так, например, вы можете прочитать о двух атласах головного мозга этих насекомых: полном коннектоме и функциональном атласе паттернов активности социального поведения. О том, как нобелевские лауреаты в области медицины и физиологии этого года изучали на примере дрозофил циркадные ритмы, читайте в нашем материале.
Елизавета Ивтушок