Глубокое обучение помогло создать «переводчик с грызуньего»

Американские разработчики представили DeepSqeak — программу для автоматической обработки вокализации грызунов. Она работает на основе сверточных нейросетей и позволяет выделять из аудиофайлов отдельные звуки по их сонограмме, после чего классифицирует их, создавая «словарь». Статья опубликована в журнале Neuropsychopharmacology, сам алгоритм доступен в репозитории разработчиков на GitHub.

Для коммуникации друг с другом грызуны используют ультразвуковую вокализацию — издают звуки с частотой от 20 килогерц. «Словарь» таких звуков у них достаточно большой: исследователи подразделяют их на слоги в зависимости от длины и частоты, а каждый из них связывают с определенной реакцией животного. К примеру, звуки с частотой 50 килогерц ассоциируются с положительной эмоциональной реакцией лабораторных крыс, а более низкие звуки — с частотой около 20 — с отрицательной. При этом у мышей коммуникационный паттерн отличается.

Исследователи из Вашингтонского университета под руководством Кевина Коффи (Kevin Coffey) решили создать алгоритм, который поможет распознавать звуки, издаваемые грызунами, разделять их на слоги и классифицировать. Анализ с помощью DeepSqeak состоит из нескольких этапов: сначала из звукового файла создается сонограмма, из которой выделяются звуковые фрагменты. Так как на сонограмму может попасть и шум, далее в алгоритме используется сверточная нейросеть, которая разделяет звуковые колебания на звуки, которые издают сами грызуны, и сторонний шум. 

После этого в интерфейсе программы появляются все звуки, изданные грызуном, в отдельных кластерах: пользователю доступен весь «словарь» звуков, а также предварительная классификация. Пока что в программе доступна классификация вокализации мышей, в которой есть пять различных видов звуков: именно на ней исследователи обучали классификатор. Также пользователь может самостоятельно предоставить файл с вручную размеченными образцами звуков на сонограмме, после чего программа классифицирует их самостоятельно.


Авторы также отмечают, что DeepSqeak может распознавать отдельные звуки, издаваемые мышами, при высоком уровне шума (который он в дальнейшем отбрасывает) и низкой слышимости самой вокализации. При этом, если алгоритм не может распознать какой-то сторонний шум на сонограмме, пользователь может выделить его самостоятельно, после чего программа будет учитывать и его.

Ученые изучают системы вокальной коммуникации и других животных. Например, здесь вы можете прочитать о том, как физики разработали алгоритм, который помог классифицировать звуки, издаваемые черными дельфинами.

Елизавета Ивтушок

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Перекрестная иммунореактивность помогла при лечении меланомы

И еще четырех видов опухолей