Загрузка галереи
Разработчики из исследовательского подразделения Facebook и нескольких других организаций представили новую версию виртуальной среды для тестирования роботов — Habitat 2.0. В ней симулируются помещения, с которыми роботы могут взаимодействовать, например, открывать ящики, брать оттуда предметы и переносить на новое место. Разработчики отмечают, что новая среда позволяет симулировать поведение робота гораздо быстрее, чем другие публично доступные симуляторы — в 55 раз быстрее реального времени при работе на одной видеокарте. Краткое описание среды доступно на сайте Facebook AI, также авторы опубликовали препринт статьи.
Машинное обучение в последние годы позволило совершить большой скачок в качестве работы роботов, беспилотных автомобилей и других машин, самостоятельно выполняющих те или иные задачи. Как и в случае с обучением людей, в машинном обучении успех зависит от количества данных и объема практики. Но для многих задач получение опыта требует больших ресурсов. К примеру, одна из основных и пока еще не до конца решенных задач в робототехнике — захват предметов в быту или на производстве. И там, и там они различаются по форме, размеру, жесткости, отражательной способности и другим параметрам, поэтому для того, чтобы выучить универсальный навык, применимый ко всем предметам, роботам требуется огромное количество практики, на которую уходит большое количество времени. Эту задачу можно решить с помощью масштабирования, и еще несколько лет назад ее решали напрямую, используя несколько одинаковых роботов, выполняющих одинаковые задачи.
Но в последние годы прогресс в алгоритмах позволил довольно точно симулировать поведение роботов в виртуальной среде и, что гораздо важнее, переносить выученный в ней навык на реальное устройство. Это позволяет ускорить обучение на несколько порядков при наличии вычислительных мощностей. Этот метод уже используют на разных типах машин, в том числе в беспилотных автомобилях и роборуках. В 2019 году разработчики из Facebook создали свою виртуальную среду Habitat для симуляции поведения домашних роботов в реалистичных интерьерах. Они создали датасет Replica, состоящий из высокоточных трехмерных сканов реальных комнат домов, сохраняющих информацию о форме, цвете и отражательной способности поверхностей. Но у среды был недостаток: она была статичной и позволяла отрабатывать лишь некоторые типы задач, такие как навигация и распознавание объектов.
В новой версии разработчики изменили подход: они взяли одну комнату из датасета Replica и воссоздали ее с высокой точностью в виде набора интерактивных 3D-объектов, с которыми можно взаимодействовать. Всего в комнате находится 92 объекта, таких как мебель, посуда и книги, у каждого из которых есть физические параметры: масса, форма, фрикционные свойства поверхности. Также у всех объектов прописаны семантические данные (какого типа этот объект) и упрощенная форма для расчета столкновений. У нескольких объектов есть модель движения составных частей, например, открывания дверцы холодильника. За счет перестановки мебели и других предметов интерьера комната представлена в 111 разных вариантах, на которых может обучаться робот.
Изменениям подверглась и сама среда. Она умеет симулировать жесткие взаимодействия и различные типы движений, в том числе вращательные. Благодаря этому робот может взаимодействовать со всеми элементами комнаты и отрабатывать типичные для роботов-помощников задачи, например, брать из холодильника коробку с едой и приносить ее на стол.
Загрузка галереи
Разработчики отмечают, что сознательно отказались от важных аспектов симуляции ради ее скорости. Среди прочего, среда не умеет рассчитывать неупругие взаимодействия и поведение жидкости, а также не учитывает особенности контакта колес с полом. Авторы заявляют, что благодаря этому новая виртуальная среда стала самой быстрой среди программ такого типа. Для примера разработчики указали скорость симуляции на компьютере с процессором Intel Xeon Gold 6226R и видеокартой NVIDIA GeForce 2080 Ti. При симуляции робота Fetch и его взаимодействия с объектами среды компьютер рассчитывал 1660 «шагов в секунду» (SPS). Поскольку среда рассчитывает физические взаимодействия с частотой 30 раз (шагов) в секунду, 1660 SPS означает, что симуляция происходит в 55,3 раза быстрее реального времени. Как и в прошлый раз, разработчики опубликовали документацию и код под свободной лицензией на GitHub.
В 2018 году другая группа разработчиков создала виртуальную среду для обучения нейросетевых персонажей бытовым задачам, а также научила алгоритм создавать подробную последовательность действий по видео или текстовому описанию.
*Facebook принадлежит компании Meta, деятельность которой в России запрещена.
Григорий Копиев
Она обучалась на библейских текстах
Компания Meta* выпустила языковую модель, которая понимает устную речь. Она распознает более 4000 языков и может разговаривать на 1107 из них. Meta считает, что модель поможет сохранить языковое разнообразие в мире. Статья опубликована на сайте компании, код модели доступен на гитхабе. Обычно модели распознавания речи обучаются на больших объемах данных: им требуются тысячи часов аудиозаписей. При этом каждой записи должен соответствовать текст, чтобы модель научилась сопоставлять звучащую и письменную речь. Такие большие датасеты можно собрать только для популярных языков, на которых говорит много людей. Всего в мире существует около 7000 языков, но современные системы распознавания речи поддерживают не более 200 из них. Команда инженеров из компании Meta под руководством Майкла Аули (Michael Auli) обучила большую модель для распознавания речи Massively Multilingual Speech (MMS), которая может общаться на 1107 языках и распознавать 4017. Нейросеть обучалась на религиозных записях. Исследователи собрали два датасета: один с аудиозаписями и соответствующими текстами и второй только с аудиозаписями. Первый датасет состоит из 55 тысяч аудиозаписей, на которых люди зачитывают вслух тексты из Нового Завета. Всего в Новом Завете 27 книг и 260 глав. Данные собирали из трех источников: Faith Comes By Hearing, GoTo.Bible и YouVersion. Во второй датасет попали 7,7 тысяч часов аудиозаписей с сайта Global Recordings Network: это религиозные песни, записи отрывков из Библии и других религиозных текстов. Для обучения использовали нейросеть архитектуры wav2vec 2.0. Сначала ее предобучили, чтобы она могла превращать аудиозаписи в векторные представления. Дело в том, что нейросети работают не с сырыми записями, а с векторами — наборами чисел. Поэтому нужен механизм для превращения аудиозаписей в вектора из чисел, причем похожие аудиозаписи должны быть представлены геометрически близкими векторами. Для получения векторных представлений можно использовать любые аудиозаписи, главное чтобы их было много. Поэтому ученые объединили второй религиозный датасет с другими большими аудиодатасетами, в том числе Multilingual Librispech, CommonVoice, VoxLingua-107, BABEL и VoxPopuli. Всего в выборку попала 491 тысяча часов аудиозаписей без текстов. После предобучения получилась готовая модель MMS. Затем авторы натренировали MMS превращать речь в текст, дообучив ее на первом религиозном датасете с аудиозаписями и текстами. В разных частях света распространены разные типы языков, поэтому авторы определили точность модели для языков с разных континентов. Она научилась распознавать речь на 1107 языках со средней точностью по континенту 97 процентов. Авторы также проверили качество распознавания речи на нерелигиозных аудиозаписях. MMS сравнили с лучшими моделями для распознавания речи Whisper от OpenAI и USM от Google на датасете FLEURS. MMS ошибалась в два раза меньше, чем Whisper и на 6 процентов меньше, чем USM. В задаче определения языка MMS оценивали на датасетах FLEURS, VoxLingua-107, BABEL и VoxPopuli, в которые входит до 107 языков. К предобученной модели приделали простой линейный слой-классификатор, который натренировали определять язык на аудиозаписи. Модель показала такое же качество, как и конкурентные модели. При увеличении числа распознаваемых языков до 4000 с помощью дообучения на религиозных датасетах, качество модели падает совсем немного, с 94 до 93 и с 84 до 80 процентов на разных датасетах. Также авторы оценили, насколько хорошо MMS генерирует речь на 1107 языках, которые она умеет превращать в текст. Для этого модель обучили на архитектуре VITS — на момент создания MMS эта нейросеть показывала лучшие результаты по генерации звучащей речи на трех языках: английском, португальском и французском. Авторы масштабировали ее до 1107 языков, но в отличие от других задач, обучали нейросеть для каждого языка по отдельности. Качество модели оценили на языках по континентам. Средняя точность генерации речи по континенту составила 98 процентов. Лучше всего модель говорит на европейских и южноамериканских языках, хуже всего — на африканских. Наконец, ученые проверили, не повлиял ли характер религиозных датасетов на качество модели. Для этого нейросеть обучили отдельно на религиозных текстах и на повседневной речи из датасета FLEURS. Затем каждая модель должна была преобразовать звучащую повседневную речь из датасета FLEURS в текст. Хотя в обучающей выборке MMS было много религиозных терминов, в текстах она использовала их ненамного (менее чем на процент) чаще, чем модель, обучения на нерелигиозном датасете. На графике показана частота религиозных терминов в обучающей выборке и при превращении речи в текст. Разница между двумя моделями почти не заметна, хотя и немного отличается для некоторых языков. Качество модели оценивали в трех экспериментах, но задач по пониманию и генерации звучащей речи существует гораздо больше. В работе не указано, насколько хорошо большая мультиязычная модель проявила бы себя в более сложных задачах, таких как перевод, определение темы высказывания или поиск ключевых слов. Хотя MMS работает с большим числом языков, чем конкурентные модели, она пока не понимает все 7000 языков мира. Ученые планируют добавить в модель более редкие языки с малым количеством носителей. Они считают, что это может помочь спасти исчезающие языки от вымирания. Кроме того, в данных недостаточно представлены диалекты разных языков. В даркнете тоже говорят на своем языке, вернее на сленге. Обычные языковые модели плохо его понимают. Южнокорейские ученые обучили нейросеть DarkBERT читать тексты из даркнета и выполнять по ним задачи, связанные с кибербезопасностью. *Деятельность компании Meta запрещена в России.