Трехмерная сверточная нейросеть распознала движения животных с большой точностью

Яна Савченко

Группа ученых из США представила нейросетевой алгоритм, позволяющий по видео с животными восстанавливать их трехмерную позу с высокой точностью. В отличие от большинства современных подходов, этот метод не требует прикрепления маркеров к животным, а значит он будет удобен для наблюдений за животными не только в лабораториях, но и в естественной среде. Результаты исследования были опубликованы в Nature.

Изучение движения животных занимает центральное место в этологии, нейробиологии, психологии и экологии. Однако до сих пор не существует универсального метода, воспроизводимого в лабораториях и устойчивого в естественной среде обитания, который бы не использовал прикрепление маркеров к животным.

Изучение движений животных ранее уже автоматизировали с помощью двумерных методов — например, нейросети помогали отслеживать двумерные координаты частей тела. Хотя эти 2D-прогнозы и могут быть триангулированы в 3D с использованием нескольких независимых изображений, такой подход неэффективен для изучения свободно движущихся зверей. Происходит это потому, что сама нейросеть не знает ничего о трехмерной позе и не может объединять информацию с разных изображений. Если с одного из ракурсов часть тела будет перекрыта посторонним предметом, положение анатомических ориентиров определится неточно. У использования двумерных методов есть еще один недостаток: ничего не гарантирует хороший результат для любых поз животных и углов обзора камеры.

Для борьбы с таким и проблемами придумали оптимизационные схемы, которые используются для уточнения или отбрасывания неточно определенных координат. Но они пока не способны надежно отслеживать свободно движущихся животных, за исключением случаев обучения с большим количеством кадров.

Для изучения движения животных группа под руководством Тимоти Данна (Timothy Dunn) из Дьюкского университета и Джесси Маршалла (Jesse Marshall) из Гарвардского университета разработала сверточную нейросеть DANNCE. Ключевым нововведением DANNCE по сравнению с предыдущими алгоритмами является то, что сеть полностью трехмерна, так что она может узнавать об особенностях 3D-изображения и о том, как камеры и ориентиры связаны друг с другом в пространстве. Чтобы обучить нейросеть, ученые собрали датасет из семи миллионов кадров синхронизированного видео и меток с анатомическими ориентирами грызунов с нескольких ракурсов. Обученная нейросеть предсказывала положение ориентиров животных, используя только видео.

Работу DANNCE можно описать следующим образом. В каждый момент видеозаписи при помощи триангуляции изображений определяется положение крысы в пространстве. Этому пространственному положению ставится в соответствие пустая 3D-сетка. Далее на каждое из изображений проецируется один воксель. Пиксели из областей изображения, на которых есть грызун, трансформируются в воксель. Затем нейросеть обрабатывает данные со всех вокселей и выдает предполагаемые положения анатомических ориентиров животного на исходной 3D-сетке.

Исследователи сравнили работу DANNCE с DeepLabCut (DLC) - современным алгоритмом на основе двумерных сверточных нейросетей. Для этого оба метода обучили на одном и том же наборе видеокадров и поз (180 456 уникальных кадров, 3609 120 маркеров) и протестировали их на новых изображениях объекта, который не участвовал в обучении. Тестовая выборка состояла из 2400 кадров, которые были разделены на 12 групп в зависимости от поведения грызуна. Выяснилось, что DANNCE превосходит DLC даже в тех случаях, когда первый алгоритм получает изображения с трех камер, а второй - с шести: в этом случае неопределенность координат, предсказанных DANNCE, была более чем в 10 раз меньше. К тому же, если уменьшать число камер, DLC становилось труднее следить за большим числом ориентиров, в то время как DANNCE все так же хорошо справлялась с задачей. Кроме того, DANNCE научилась отслеживать положения мышей, мартышек и синиц, когда в обучающую выборку добавили небольшое количество вручную размеченных данных.

Успешное применение нейросетей в работе с изображениями и видео не ограничивается этой работой. Ранее мы рассказывали, как нейросеть превратила растовое изображение в непрерывное.

Яна Савченко