AlphaGo Zero, самообучающаяся программа для игры в го, разработанная программистами из DeepMind, экспериментального подразделения Google, научилась играть и в другие настольные игры. Алгоритму, обновление которого описано в препринте на сайте arXiv, теперь доступны японские шахматы сёги, а также обычные шахматы.
Обновлено: в декабре 2018 года статья опубликована в Science.
Первая версия программы AlphaGo была представлена в 2015 году. Тогда она работала с использованием двух нейросетей: одна вычисляла вероятность ходов, а вторая — оценивала позицию камня на доске. Оригинальная AlphaGo практически полностью полагалась на обучение с учителем и использовала в качестве обучающей выборки данные об успешных ходах игроков-людей, а также поиск по дереву методом Монте Карло, который часто применяется в создании компьютерных игроков. Задача такого поиска — выбрать наиболее выигрышный вариант, анализируя сыгранные и удачные ходы в игре. Алгоритм показал свою эффективность практически сразу же, обыграв профессионального игрока Фаня Хуэя.
Разработчики DeepMind вскоре улучшили алгоритм, расширив использование в системе обучения с подкреплением (англ. reinforcement learning) — вида машинного обучения, при котором алгоритм обучается, не имея при этом обучающую выборку в виде пары «входные данные — ответ». Тогда AlphaGo смогла обыграть другого игрока в го — Ли Седоля, которого уже относят к сильнейшим игрокам в мире. После этого разработчики модернизировали алгоритм еще раз: последняя версия AlphaGo обыграла третьего сильнейшего игрока в го, Кэ Цзэ, и ушла из спорта.
Недавно авторы программы представили AlphaGo Zero — модернизированную версию, которая была разработана с помощью исключительно обучения с подкреплением, и смогла обыграть все предыдущие версии программы со счетом 100:0. Теперь разработчики DeepMind обучили алгоритм другим настольным играм: классическим шахматам и японским шахматам сёги.
В отличие от го, правила игры как в шахматы, так и в сёги, включают в себя определение позиций фигур на доске: так, например, ферзь может ходить на любое количество клеток в любом направлении, а слон ходит только по диагонали. Поэтому к оригинальному алгоритму AlphaGo Zero добавили правила о ходе фигур в каждой из двух игр — в остальном программа также училась самостоятельно, начиная со случайной игры.
После обучения AlphaGo Zero победила Stockfish (шахматную программу, которая несколько лет считалась лучшим компьютерным игроком) со счетом 64:36 (28 побед, 0 поражений, 72 ничьих), а Elmo, программу для игры в сёги, — со счетом 90:8 (2 ничьих). При этом в первом случае алгоритм DeepMind обучался четыре часа, а во втором — всего два.
Один из авторов работы, программист Мэттью Лай (Matthew Lai), ранее уже занимался разработкой алгоритма, который учится шахматам, играя сам с собой: программа, представленная им два года назад, обучалась 72 часа и по окончании тренировки была сравнима по эффективности с лучшими игроками Международной шахматной федерации. Тогда, однако, программа уступила алгоритму Stockfish.
Первая значимая победа компьютера над профессиональными игроками в шахматы произошла еще в 1997 году: тогда программа DeepBlue победила чемпиона по шахматам Гарри Каспарова. Проверить свои знания в вопросах противостояния игроков и машин вы можете с помощью нашего теста.
Как правильно заметили наши читатели, AlphaGo Zero не одержала 100 побед из 100 при игре в шахматы против Stockfish, а не проиграла ни одного раза (в действительности побед 28; в ничью игра закончилась в 72 случаях). При игре в сёги побед было 90 (две других игры, помимо 8 поражений, закончились ничьей). Редакция приносит свои извинения за неточности в заметке.
Елизавета Ивтушок
Теперь она может определять киберугрозы
Исследователи из Южной Кореи обучили языковую модель DarkBERT на текстах из даркнета. Люди общаются в даркнете иначе, чем в обычном интернете, в том числе используют свой сленг. Модель изучила этот язык, и теперь ее можно применять в задачах кибербезопасности. Препринт доступен на arXiv.org. Языковые модели сегодня применяют для изучения разных текстов. Это нейросети, которые обучились на большом количестве данных и хорошо выполняют задачи, связанные с пониманием речи. Популярные языковые модели основаны на архитектуре Transformer, которую придумали инженеры из Google — такие модели умеют фокусировать внимание на важных частях предложения. Языковые модели лучше всего понимают то, что похоже на примеры из обучающей выборки. Обычно они учатся на больших объемах текстов из интернета, поэтому понимают много чего: литературный язык, сообщения из социальных сетей, научно-популярные статьи. Но есть тексты, которые не попадают в обучающую выборку, в том числе тексты из даркнета. У них есть свои лингвистические особенности: словарный запас, распределение частей речи и даже синтаксис. Обычные языковые модели это не учитывают, потому что во время обучения не видели таких текстов. Выход есть — обучить языковую модель на материалах из даркнета. Даркнет — это часть интернета, которую не найти в обычных поисковиках вроде Яндекса или Гугла. Туда нельзя попасть через обычный браузер. Есть разные сервисы для входа в даркнет, авторы исследования использовали Tor. Люди в даркнете общаются анонимно, и их сложно отследить. Поэтому даркнет стал платформой для всякого незаконного, от утечек данных до торговли запрещенными веществами. Специалисты по кибербезопасности постоянно ищут способы мониторить и изучать тексты в даркнете. Группа ученых из Южной Кореи под руководством Сун Вон Шина (Seungwon Shin) из Корейского института передовых технологий собрала корпус текстов из даркнета и обучила на нем языковую модель DarkBERT. Сначала авторы составили списки сайтов с помощью инструмента поиска по даркнету. Затем они скачали 6 миллионов веб-страниц и превратили их в тексты. Для обучения использовали модель RoBERTa, основанную на архитектуре Transformer. После обучения на текстах даркнета получилась готовая модель DarkBERT. Ее качество сравнивали со стандартными моделями RoBERTa и BERT, которые обучались на обычных текстах. Тестировали модели на разных сценариях киберугроз. Например, иногда злоумышленники похищают конфиденциальные данные с сайтов и вымогают у их владельцев деньги. Если деньги не поступают, злоумышленники публикуют украденные данные. Нейросети получали текст сайта и решали задачу бинарной классификации: определить, размещают ли на нем утекшие данные. DarkBERT справился с этой задачей намного лучше (точность 84 процента у DarkBERT против 70 процентов у BERT и 44 процента у RoBERTa). Еще один пласт нелегальной активности в даркнете — это продажа запрещенных веществ. Авторы проверили, насколько хорошо разные модели понимают сообщения с форумов даркнета: нейросети выделяли ключевые слова в сообщениях о запрещенных веществах. Такие ключевые слова могут пригодиться сотрудникам правоохранительных органов, чтобы быстро искать сообщения о продаже веществ и определять продавцов. Эту задачу тестировали на DarkBERT и на похожей модели BERT, дообученной на тематическом сабреддите. Здесь DarkBERT снова обошел конкурента (точность определения топ-10 ключевых слов 60 процентов у DarkBERT против 40 процентов у BERT). В целом результаты показывают, что предобученная на текстах из даркнета нейросеть DarkBERT справляется с задачами кибербезопасности лучше, чем другие модели. Ее можно использовать, чтобы мониторить нелегальную активность в даркнете, вычислять преступников и предотвращать утечки данных. Но у DarkBERT есть свои ограничения. Во-первых, она умеет работать только с англоязычными текстами. Во-вторых, обучающую выборку из даркнета собирать сложно, потому что сайты непросто найти и превратить в тексты. А чем больше подходящих текстов, тем выше эффективность модели. Другие языковые модели тоже продолжают развиваться. Например, инженеры из Яндекса натренировали нейросеть на русскоязычных текстах и встроили ее в Алису.