Команда разработчиков из DeepMind и Blizzard вслед за релизом API для обучения машин игре в StarCraft 2 рассказала о первых результатах на этом поприще. Исследователи создали несколько базовых архитектур на основе нейросетей, обучили их, и опробовали в серии мини-игр, а также в матчах 1 на 1 против самого слабого из встроенных в StarCraft 2 скриптовых ботов. Полные результаты опубликованы в виде препринта, доступного в блоге DeepMind.
Несмотря на то, что существует множество ботов для различных компьютерных игр, в случае стратегий вроде StarCraft 2 искусственному интеллекту так и не удалось победить человека. Но большинство подобных ботов являются скриптовыми, то есть изначально в них заложена определенная стратегия, которой они следуют всю игру. На максимальных уровнях сложности ботам также обычно даются «бонусы» в виде дополнительных стартовых зданий, юнитов и прочих внутриигровых ресурсов, чтобы сделать сражение интересней для опытного игрока-человека. Однако в последние несколько лет благодаря методам машинного обучения удалось создать обучаемых ботов. Они хорошо проявили себя в играх с открытой информацией, например, настольной игре го, однако в играх с частичной информацией (например, компьютерных стратегиях) человек все еще оказывается сильнее.
Коллектив DeepMind благодаря новому API для StarCraft 2 обучил опробовал в этой игре нескольких ботов на основе нейросетей. Авторы изучали как системы, обучающиеся с подкреплением, так и ботов, обучавшихся с учителем — размеченными данными в этом случае выступали записи игр людей. Результаты сравнивались с работой самого слабого из скриптовых ботов, встроенных в StarCraft, а так же с работой абсолютно случайного бота, с игрой человека-любителя и игрока, достигшего максимального ранка «грандмастер» в турнирной лестнице StarCraft.
Простейшим испытанием для нейросетей была серия мини-игр с примитивными задачами: передвинуть юнита в нужную точку, добывать минералы, добывать минералы и газ, построить пехотинцев и так далее. В этих испытаниях игрок-грандмастер достиг практически максимально достижимых показателей, игрок-любитель тоже был близок к ним, а вот нейросети не всегда справлялись с задачей. Так, в миссии на добычу кристаллов и газа только одна архитектура сообразила, что можно построить дополнительных рабочих, тогда добыча кристаллов ускорится. Отметим, что эти нейросети обучались с подкреплением, то есть изначально им не сообщалось никаких «подсказок». Все, что они могли — это узнавать свой текущий «счет» (например, добытые ресурсы) и выполнять одно из нескольких десятков или сотен доступных действий (передвинуть камеру, выделить юнит, передвинуть юнит, построить юнит и так далее). Самой сложной игрой (но и самой близкой к реальному сражению), как и ожидалось, была постройка пехотинцев, в ней боты не слишком далеко ушли от полностью случайной системы. И только в одной мини-игре нейросетям удалось приблизиться к результату грандмастеров: в задаче «передвинь юнита в указанную точку».
Другим испытанием была полноценная игра нейросети против встроенного легкого бота. В подавляющем числе случаев нейросети проигрывали, а редкие случаи ничьих достигались только благодаря заранее установленной отсечке в 30 минут. Если в качестве «счета» на который опирались нейросети, использовалось «-1» — проиграл, «0» — ничья, «1» — выиграл, то есть боты получали отклик только по окончанию игры, большая часть архитектур не смогла хоть как-то приспособиться к игре. Тем не менее, одной нейросети удалось создать и применить интересную стратегию: она воспользовалась способностью зданий Терранов (одной из игровых рас) взлетать и убегать от армии противника, дотягивая таким образом до ничьей. Если же в качестве счета использовался Blizzard score (совокупная оценка всех добытых ресурсов, построенных зданий и юнитов и так далее), то максимум, на что хватало нейросетей — это не отвлекать рабочих от добычи ресурсов. В этом случае счет стабильно рос, пока не приходила армия соперника.
Наконец, разработчики также обучали ботов на записях реальных игр, предоставленных Blizzard. В этом случае нейросети в основном учились предсказывать исход партии, опираясь на «кадр» из игры. По результатам оказалось, что в первые несколько минут программа не могла предугадать, кто выиграет (что не удивительно для столь ранних этапов игры), то ближе к концу нейросеть предсказывала результат партии с точностью до 64 процентов. При этом программам удавалось до какой-то степени предугадывать следующее действие игрока. Подобные операции являются базовыми для игроков-ботов, и в дальнейшем именно на таких оценках нейросети будут строить свои действия.
Авторы отмечают, что к нынешним результатам стоит относиться лишь как к предварительным, и даже простые стратегии, до которых нейросетям удалось дойти самим, можно считать первыми успехами в покорении StarCraft 2. Ученые сделали вывод, что в будущем стоит тестировать любую перспективную архитектуру на мини-играх, так как в них боты должны показывать показатели, близкие к человеческим, в противном случае вряд ли стоит ожидать, что нейросети освоют более сложные аспекты игры. Так, используя мини-игры, другой команде исследователей удалось обучить нейросеть простейшим тактическим приемам вроде Hit&Run — тактике, при которой юниты с дистанционной атакой короткими перебежками уходят от ближнего боя в перерывах между выстрелами.
Ранее на этой неделе сначала команда из FaceBook выложила базу предобработанных записей игр STARDATA для машинного обучения, а вскоре и Blizzard в сотрудничестве с DeepMind объявил о выходе API для StarCraft и библиотеке для Python, обеспечивающей связку API с популярными системами машинного обучения.
Тарас Молотилин
Она обучалась на библейских текстах
Компания Meta* выпустила языковую модель, которая понимает устную речь. Она распознает более 4000 языков и может разговаривать на 1107 из них. Meta считает, что модель поможет сохранить языковое разнообразие в мире. Статья опубликована на сайте компании, код модели доступен на гитхабе. Обычно модели распознавания речи обучаются на больших объемах данных: им требуются тысячи часов аудиозаписей. При этом каждой записи должен соответствовать текст, чтобы модель научилась сопоставлять звучащую и письменную речь. Такие большие датасеты можно собрать только для популярных языков, на которых говорит много людей. Всего в мире существует около 7000 языков, но современные системы распознавания речи поддерживают не более 200 из них. Команда инженеров из компании Meta под руководством Майкла Аули (Michael Auli) обучила большую модель для распознавания речи Massively Multilingual Speech (MMS), которая может общаться на 1107 языках и распознавать 4017. Нейросеть обучалась на религиозных записях. Исследователи собрали два датасета: один с аудиозаписями и соответствующими текстами и второй только с аудиозаписями. Первый датасет состоит из 55 тысяч аудиозаписей, на которых люди зачитывают вслух тексты из Нового Завета. Всего в Новом Завете 27 книг и 260 глав. Данные собирали из трех источников: Faith Comes By Hearing, GoTo.Bible и YouVersion. Во второй датасет попали 7,7 тысяч часов аудиозаписей с сайта Global Recordings Network: это религиозные песни, записи отрывков из Библии и других религиозных текстов. Для обучения использовали нейросеть архитектуры wav2vec 2.0. Сначала ее предобучили, чтобы она могла превращать аудиозаписи в векторные представления. Дело в том, что нейросети работают не с сырыми записями, а с векторами — наборами чисел. Поэтому нужен механизм для превращения аудиозаписей в вектора из чисел, причем похожие аудиозаписи должны быть представлены геометрически близкими векторами. Для получения векторных представлений можно использовать любые аудиозаписи, главное чтобы их было много. Поэтому ученые объединили второй религиозный датасет с другими большими аудиодатасетами, в том числе Multilingual Librispech, CommonVoice, VoxLingua-107, BABEL и VoxPopuli. Всего в выборку попала 491 тысяча часов аудиозаписей без текстов. После предобучения получилась готовая модель MMS. Затем авторы натренировали MMS превращать речь в текст, дообучив ее на первом религиозном датасете с аудиозаписями и текстами. В разных частях света распространены разные типы языков, поэтому авторы определили точность модели для языков с разных континентов. Она научилась распознавать речь на 1107 языках со средней точностью по континенту 97 процентов. Авторы также проверили качество распознавания речи на нерелигиозных аудиозаписях. MMS сравнили с лучшими моделями для распознавания речи Whisper от OpenAI и USM от Google на датасете FLEURS. MMS ошибалась в два раза меньше, чем Whisper и на 6 процентов меньше, чем USM. В задаче определения языка MMS оценивали на датасетах FLEURS, VoxLingua-107, BABEL и VoxPopuli, в которые входит до 107 языков. К предобученной модели приделали простой линейный слой-классификатор, который натренировали определять язык на аудиозаписи. Модель показала такое же качество, как и конкурентные модели. При увеличении числа распознаваемых языков до 4000 с помощью дообучения на религиозных датасетах, качество модели падает совсем немного, с 94 до 93 и с 84 до 80 процентов на разных датасетах. Также авторы оценили, насколько хорошо MMS генерирует речь на 1107 языках, которые она умеет превращать в текст. Для этого модель обучили на архитектуре VITS — на момент создания MMS эта нейросеть показывала лучшие результаты по генерации звучащей речи на трех языках: английском, португальском и французском. Авторы масштабировали ее до 1107 языков, но в отличие от других задач, обучали нейросеть для каждого языка по отдельности. Качество модели оценили на языках по континентам. Средняя точность генерации речи по континенту составила 98 процентов. Лучше всего модель говорит на европейских и южноамериканских языках, хуже всего — на африканских. Наконец, ученые проверили, не повлиял ли характер религиозных датасетов на качество модели. Для этого нейросеть обучили отдельно на религиозных текстах и на повседневной речи из датасета FLEURS. Затем каждая модель должна была преобразовать звучащую повседневную речь из датасета FLEURS в текст. Хотя в обучающей выборке MMS было много религиозных терминов, в текстах она использовала их ненамного (менее чем на процент) чаще, чем модель, обучения на нерелигиозном датасете. На графике показана частота религиозных терминов в обучающей выборке и при превращении речи в текст. Разница между двумя моделями почти не заметна, хотя и немного отличается для некоторых языков. Качество модели оценивали в трех экспериментах, но задач по пониманию и генерации звучащей речи существует гораздо больше. В работе не указано, насколько хорошо большая мультиязычная модель проявила бы себя в более сложных задачах, таких как перевод, определение темы высказывания или поиск ключевых слов. Хотя MMS работает с большим числом языков, чем конкурентные модели, она пока не понимает все 7000 языков мира. Ученые планируют добавить в модель более редкие языки с малым количеством носителей. Они считают, что это может помочь спасти исчезающие языки от вымирания. Кроме того, в данных недостаточно представлены диалекты разных языков. В даркнете тоже говорят на своем языке, вернее на сленге. Обычные языковые модели плохо его понимают. Южнокорейские ученые обучили нейросеть DarkBERT читать тексты из даркнета и выполнять по ним задачи, связанные с кибербезопасностью. *Деятельность компании Meta запрещена в России.