Исследователи из Meta разработали мультимодальный метод обучения нейросетей

Meta AI

Исследователи из Meta AI (ранее Facebook AI) разработали единый метод обучения нейросетей, подходящий для работы с изображениями, звуком и текстом. В нем используется две идентичные нейросети — учитель и ученик. Учитель получает полные входные данные, а ученик получает частичные и учится предсказывать внутреннее представление полной версии этих данных в модели-учителе. Модели, обученные таким методом, оказались лучше или сравнимы с моделями, обученные методами, специфичными для одного типа данных. Статья и краткое описание метода опубликованы на сайте Meta AI.

В последние годы исследователи в области машинного обучения все чаще используют обучение без учителя или самообучение. Особенно полезно оно когда необходимо использовать огромные объемы данных или обучать модель на задаче, для которой нет достаточных датасетов, например, для обучения языковой модели на редком языке. Один из самых ярких примеров такого типа обучения — GPT-3, которая обучалась на 570 гигабайтах текстов. Однако разработки в области самообучения, как правило, сосредоточены на одной модальности (одном типе данных), и методы обучения зачастую нельзя напрямую применить к другим модальностям.

Группа исследователей из Meta AI под руководством Майкла Аули (Michael Auli) разработала метод обучения, подходящий для разных типов данных. Разработчики использовали в качестве обучаемой модели для всех трех модальностей стандартный трансформер и добавляли к нему на вход специфичный энкодер для того или иного типа данных. Во время обучения используется две нейросетевых модели (учитель и ученик), но по сути они идентичны друг другу и отличаются тем, что веса нейросети-учителя — это немного отстающие и сглаженные веса нейросети-ученика (они задаюся как экспоненциальная скользящая средняя от весов ученика).

Обучение происходит следующим образом. Сначала данные (изображение, текст или звук) в полном виде поступают на энкодер, специфичный для этого типа данных, а затем из энкодера в нейросеть-учитель. Она создает внутреннее представление этих данных. Затем на модель-ученика поступают те же данные, но частично скрытые. Например, на изображениях авторы вырезали 60 процентов. Задача ученика заключается в том, чтобы по этим частичным данным предсказать внутреннее представление, которое создала модель-учитель из полных данных. Поскольку нейросеть учится предсказывать именно внутренне представление, этот метод обучения не привязан к типу данных (при этом необходим специфичный для типа данных энкодер).

Важно понимать, что речь идет не об обучении единой модели, работающей с разными модальностями, а о едином методе обучения модели для той или иной модальности. Таким образом, после обучения получается модель, работающая с изображениями или с текстом или со звуком, а не со всеми тремя типами данных одновременно. В прошлом году исследователи из DeepMind представили нейросеть Perceiver IO, которая может работать сразу с несколькими типами данных и не использует для них специфичные энкодеры, но при этом учится по принципу обучения с учителем. Авторы новой работы отмечают важность этой модели и считают перспективным объединение подходов из обеих работ для создания самообучаемой мультимодальной архитектуры.

Разработчики протестировали обученную новым методом модель-трансформер на трех задачах. Для проверки работы с изображениями они обучали два варианта сети (ViT-B и ViT-L) на датасете ImageNet-1K, и проверяли их на задаче классификации изображений из валидириующей выборки (top-1). Модель для работы с речью обучали на 960 часах речи из датасета Librispeech и проверяли по пословной вероятности ошибки (WER). А модель для работы с текстом обучали на датасете Books Corpus и данных англоязычной Википедии, а проверяли на стандартном для NLP бенчмарке GLUE.

Тестирование показало, что новый метод позволяет получить более высокие результаты, чем предыдущие аналоги в задаче классификации изображений и распознавания речи, а также проявляет себя немного хуже, но сравнимо с аналогами в задачах по работе с текстом.

Пока исследователи из Meta развивают методы и алгоритмы машинного обучения, принадлежащая компании соцсеть Facebook отказывается от их применения. В конце 2021 года Meta объявила, что перестанет распознавать лица людей на фотографиях в Facebook и удалит собранные биометрические профили пользователей.

Григорий Копиев

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.