Представители компании DeepMind совместно с Blizzard объявили о создании платформы для разработки ИИ-систем для игры в StarCraft II — одной из самых развитых на сегодняшний день площадок на киберспортивной арене. Исследователи планируют привлечь всех желающих к работе над этой задачей за счет открытого API (интерфейса для программистов), который даст разработчикам доступ к полной информации об игре в удобном для современных систем машинного обучения виде. Проект был анонсирован на конференции Blizzcon 2016, прошедшей 4-5 ноября в Калифорнии. Подробнее о деталях предстоящей работы можно прочесть в блоге DeepMind.
Недавние успехи алгоритмов машинного обучения (в основном, на базе искусственных нейросетей) привлекли внимание разработчиков из разных сфер: компьютерное зрение, распознавание и синтез речи, анализ и написание текстов, — и многих других. В том числе благодаря нейросетям удалось решить и классическую дилемму «может ли компьютер обыграть человека в го?» (древнюю китайскую настольную игру, не поддающуюся решению перебором): с 9 по 15 марта 2016 года ИИ под названием AlphaGo обыграл одного из сильнейших профессионалов на сегодняшний день, Ли Седоля, в четырех матчах из пяти. Таким образом, нейросети показали, что способны справляться с играми с открытой информацией, — где все происходящее известно обоим игрокам — как минимум не хуже человека (хотя AlphaGo представляет собой гибридную систему, где используются не только нейросети, но и перебор). Однако в играх с закрытой информацией, например, в StarCraft II, где информация ограничена радиусом «видимости» юнитов, ИИ еще значительно уступает оппоненту-человеку.
Для того чтобы создать программу, играющую на равных с профессиональными киберспортсменами, специалисты из DeepMind и Blizzard готовят открытую платформу, которая предоставит желающим удобный интерфейс для работы систем машинного обучения с игрой StarCraft II. Одной из ключевых задач станет поиск простого и информативного представления того, что происходит на экране, в том виде, который может воспринять машина. Пока разработчики объявили о создании серии «фильтров», которые будут выводить основную информацию (положение, тип и состояние юнитов, рельеф местности, ресурсы и т.п.) в виде пиксельных карт, из которых ИИ будет извлекать информацию. Кроме того, будут реализованы стандартные для игровых ботов приемы, уравнивающие возможности человека и компьютера, например, ограничение на количество действий в минуту (APM) или необходимость прокрутки карты на нужный участок для постройки зданий.
По словам представителей DeepMind, основываться будущий ИИ для StarCraft будет на алгоритмах машинного обучения с подкреплением, так же, как и AlphaGo. Этот набор методов предполагает улучшение работы программы за счет анализа собственных действий или действий предшественников (записей партий, например). В отличие от более известного «обучения с учителем», при обучении с подкреплением, как правило, нет «правильных» и «неправильных» ответов, что в целом усложняет задачу обучения нейросети. В отличие от AlphaGo, новой программе также придется проявить значительные способности в работе с памятью, так как информацию о действиях противника можно получить только за счет разведки (за оппонентом нельзя все время открыто наблюдать) с последующим запоминанием и прогнозированием. Еще одним принципиальным отличием станет скорость игры: если в случае го на каждый ход у игроков есть значительный запас времени, то StarCraft II относится к жанру стратегий в реальном времени, где скорость реакции и принятия решений определяет если не все, то многое.
О точных сроках запуска проекта пока мало известно, кроме того что разработчики планируют открыть его в следующем году. Вдобавок к развитому API авторы планируют добавить систему «учебных курсов», в рамках которых можно будет по шагам освоить все необходимое для создания собственных ботов, способных на равных сразиться с профессиональными игроками. Пока что победители традиционного чемпионата Starcraft AI Competition (правда, по классическому Starcraft: Brood War, а не Starcraft II) с большим отрывом уступают человеку.
Серия стратегий в реальном времени StarCraft была запущена компанией Blizzard в 1998 году и быстро завоевала любовь игроков (как любителей, так и профессионалов) по всему миру. Задачей игры является, как правило, полное уничтожение сил противника путем развития собственной экономики (добыче минералов и газа), создания армии и победы в серии стычек на игровой карте. Основой успеха серии многие называют наличие трех принципиально отличающихся рас, сильные и слабые стороны которых удивительно хорошо сбалансированы несмотря на принципиальные отличия в дизайне юнитов, базовых тактике и стратегии игры. StarCraft II пришел на смену первой части серии в 2010 году и в настоящий момент остается одной из наиболее развитых киберспортивных дисциплин с общим объемом призовых более 20 миллионов долларов.
Тарас Молотилин
Она обучалась на библейских текстах
Компания Meta* выпустила языковую модель, которая понимает устную речь. Она распознает более 4000 языков и может разговаривать на 1107 из них. Meta считает, что модель поможет сохранить языковое разнообразие в мире. Статья опубликована на сайте компании, код модели доступен на гитхабе. Обычно модели распознавания речи обучаются на больших объемах данных: им требуются тысячи часов аудиозаписей. При этом каждой записи должен соответствовать текст, чтобы модель научилась сопоставлять звучащую и письменную речь. Такие большие датасеты можно собрать только для популярных языков, на которых говорит много людей. Всего в мире существует около 7000 языков, но современные системы распознавания речи поддерживают не более 200 из них. Команда инженеров из компании Meta под руководством Майкла Аули (Michael Auli) обучила большую модель для распознавания речи Massively Multilingual Speech (MMS), которая может общаться на 1107 языках и распознавать 4017. Нейросеть обучалась на религиозных записях. Исследователи собрали два датасета: один с аудиозаписями и соответствующими текстами и второй только с аудиозаписями. Первый датасет состоит из 55 тысяч аудиозаписей, на которых люди зачитывают вслух тексты из Нового Завета. Всего в Новом Завете 27 книг и 260 глав. Данные собирали из трех источников: Faith Comes By Hearing, GoTo.Bible и YouVersion. Во второй датасет попали 7,7 тысяч часов аудиозаписей с сайта Global Recordings Network: это религиозные песни, записи отрывков из Библии и других религиозных текстов. Для обучения использовали нейросеть архитектуры wav2vec 2.0. Сначала ее предобучили, чтобы она могла превращать аудиозаписи в векторные представления. Дело в том, что нейросети работают не с сырыми записями, а с векторами — наборами чисел. Поэтому нужен механизм для превращения аудиозаписей в вектора из чисел, причем похожие аудиозаписи должны быть представлены геометрически близкими векторами. Для получения векторных представлений можно использовать любые аудиозаписи, главное чтобы их было много. Поэтому ученые объединили второй религиозный датасет с другими большими аудиодатасетами, в том числе Multilingual Librispech, CommonVoice, VoxLingua-107, BABEL и VoxPopuli. Всего в выборку попала 491 тысяча часов аудиозаписей без текстов. После предобучения получилась готовая модель MMS. Затем авторы натренировали MMS превращать речь в текст, дообучив ее на первом религиозном датасете с аудиозаписями и текстами. В разных частях света распространены разные типы языков, поэтому авторы определили точность модели для языков с разных континентов. Она научилась распознавать речь на 1107 языках со средней точностью по континенту 97 процентов. Авторы также проверили качество распознавания речи на нерелигиозных аудиозаписях. MMS сравнили с лучшими моделями для распознавания речи Whisper от OpenAI и USM от Google на датасете FLEURS. MMS ошибалась в два раза меньше, чем Whisper и на 6 процентов меньше, чем USM. В задаче определения языка MMS оценивали на датасетах FLEURS, VoxLingua-107, BABEL и VoxPopuli, в которые входит до 107 языков. К предобученной модели приделали простой линейный слой-классификатор, который натренировали определять язык на аудиозаписи. Модель показала такое же качество, как и конкурентные модели. При увеличении числа распознаваемых языков до 4000 с помощью дообучения на религиозных датасетах, качество модели падает совсем немного, с 94 до 93 и с 84 до 80 процентов на разных датасетах. Также авторы оценили, насколько хорошо MMS генерирует речь на 1107 языках, которые она умеет превращать в текст. Для этого модель обучили на архитектуре VITS — на момент создания MMS эта нейросеть показывала лучшие результаты по генерации звучащей речи на трех языках: английском, португальском и французском. Авторы масштабировали ее до 1107 языков, но в отличие от других задач, обучали нейросеть для каждого языка по отдельности. Качество модели оценили на языках по континентам. Средняя точность генерации речи по континенту составила 98 процентов. Лучше всего модель говорит на европейских и южноамериканских языках, хуже всего — на африканских. Наконец, ученые проверили, не повлиял ли характер религиозных датасетов на качество модели. Для этого нейросеть обучили отдельно на религиозных текстах и на повседневной речи из датасета FLEURS. Затем каждая модель должна была преобразовать звучащую повседневную речь из датасета FLEURS в текст. Хотя в обучающей выборке MMS было много религиозных терминов, в текстах она использовала их ненамного (менее чем на процент) чаще, чем модель, обучения на нерелигиозном датасете. На графике показана частота религиозных терминов в обучающей выборке и при превращении речи в текст. Разница между двумя моделями почти не заметна, хотя и немного отличается для некоторых языков. Качество модели оценивали в трех экспериментах, но задач по пониманию и генерации звучащей речи существует гораздо больше. В работе не указано, насколько хорошо большая мультиязычная модель проявила бы себя в более сложных задачах, таких как перевод, определение темы высказывания или поиск ключевых слов. Хотя MMS работает с большим числом языков, чем конкурентные модели, она пока не понимает все 7000 языков мира. Ученые планируют добавить в модель более редкие языки с малым количеством носителей. Они считают, что это может помочь спасти исчезающие языки от вымирания. Кроме того, в данных недостаточно представлены диалекты разных языков. В даркнете тоже говорят на своем языке, вернее на сленге. Обычные языковые модели плохо его понимают. Южнокорейские ученые обучили нейросеть DarkBERT читать тексты из даркнета и выполнять по ним задачи, связанные с кибербезопасностью. *Деятельность компании Meta запрещена в России.