Нейронную сеть научили распознавать вид животного по «голосу»

Тарас Молотилин

Ученые из Университета Филиппин в Лос-Баньос создали программу, которая способна опознать вид животного по записи его «голоса». Авторам удалось с точностью от 70 до 90 процентов распознать 13 видов птиц, 11 видов лягушек и 8 видов собак. Препринт работы выложен на arxiv.org.

Исследователи выделяли спектральные характеристики звуков, которые издавали животные, и использовали их в качестве набора признаков для обучения искусственных нейронных сетей. Всего в работе использовались три сети — по одной на птиц, собак и лягушек. На каждый вид животного приходилось по десять аудиозаписей.

В эксперименте после обучения точность определения видов птиц составила 71,43 процента, лягушек — 90,91 процента, а собак — 94,44 процента. При этом для распознавания птиц и лягушек в вектор признаков включали 28 различных спектральных характеристик, а в случае собак оказалось достаточно лишь четырех наборов величин.

По мнению авторов, использование краудсорсинговых данных позволит расширить применимость нового метода на многие другие виды животных. Это может найти применение в таких областях, как разведение породистых животных, сохранение вымирающих видов, оценка биоразнообразия и ряда других. В настоящий момент для определения вида животных в подавляющем большинстве случаев используется анализ изображений, что не всегда возможно, особенно в полевых условиях.

Искусственные нейронные сети широко применяются для анализа аудиозаписей, например — человеческой речи. Недавние успехи в глубоком машинном обучении позволили продвинуться в этой области и дальше, например, научить программу выделять звуки голоса из общей звуковой дорожки (например, песни). Эта задача является одним из примеров действий, с которым легко справляется человек, но с большим трудом — компьютерный алгоритм.