Исследователи из DeepMind вместе с коллегами из Швейцарии создали алгоритм машинного обучения для удержания плазмы в токамаке. Они обучили его на высокоточном симуляторе, а затем показали работоспособность подхода на реальном токамаке в Швейцарии. Статья опубликована в Nature.
DeepMind — британская компания, специализирующаяся на развитии методов машинного обучения, купленная Google в 2014 году. Наибольшую известность она получила благодаря своим игровым алгоритмам, которые обыграли людей в го, шахматы и StarCraft II. Но исследователи из DeepMind также занимаются сложными прикладными задачами, пытаясь решить их с помощью методов машинного обучения. Так, в 2016 году они разработали алгоритм синтеза речи WaveNet, существенно повлиявший на развитие этого направления, а за последний год с небольшим разработали модель AlphaFold для предсказания структуры белка и систему AlphaCode для написания программного кода. В прошлом году компания рассказывала, что работает над применением машинного обучения для решения проблем термоядерных реакторов, но на тот момент не раскрывала подробностей и результатов.
Термоядерный реактор предполагает создание плазмы, в которой происходит управляемый термоядерный синтез — слияние ядер с выделением огромного количества энергии. Для термоядерных реакторов предлагались разные конструкции, но на данный момент лидирует токамак — эту конструкцию разработали советские физики Тамм и Сахаров. Она же используется в международном реакторе ITER, который должен начать работу и получить первую плазму в 2025 году. Токамак состоит из тороидальной камеры, вокруг которой расположены магнитные катушки. Они позволяют удерживать плазму с помощью магнитного поля, не давая ей столкнуться со стенками токамака и разрушить их.
Еще в середине XX века стало ясно, что удержание плазмы магнитным полем — крайне сложная задача, потому что в ней неминуемо возникают неустойчивости. В итоге даже лучшие токамаки удерживают ее в течение очень небольшого времени: в прошлом году китайский EAST установил рекорд, удержав горячую плазму (120 миллионов градусов) в течение 101 секунды, а создатели ITER рассчитывают на 400-600 секунд.
Исследователи из DeepMind во главе с Йонасом Бюхли (Jonas Buchli) и Бренданом Трейси (Brendan Tracey) вместе с коллегами из Швейцарского центра плазмы Федеральной политехнической школы Лозанны под руководством Федерико Феличи (Federico Felici) показали, что алгоритм машинного обучения можно обучить управлять параметрами магнитных катушек токамака и удерживать в нем плазму. Традиционно для этой задачи используется набор алгоритмов-контроллеров, каждый из которых отвечает за отдельный целевой параметр: вертикальное и горизонтальное положение плазмы, ее форма (профиль), ток.
Авторы новой работы предложили использовать единый и обучаемый нейросетевой контроллер. Ему необходимо задать желаемые параметры плазмы, которых может быть множество, а также их критические величины, позволяющие сформировать функцию потерь. Исследователи использовали метод максимальной апостериорной оптимизации, способный находить оптимальный режим работы (policy) в условиях недостаточного объема данных. Он устроен по принципу «исполнитель-критик», где исполнитель принимает решение, а критик сообщает ему, насколько хороший результат оно дало. В данном случае авторы реализовали асимметричный вариант метода: при обучении в симуляции используется большая нейросеть-критик, а обучаемая ей нейросеть-исполнитель для реального токамака имеет гораздо меньший размер. Это обусловлено ограничениями по вычислительной мощности: контроллер должен работать с частотой 10 килогерц и тратить на вычисление новых параметров для катушек не дольше 50 микросекунд.
Нейросеть-исполнитель построена по типу многослойного перцептрона с двумя скрытыми слоями по 256 элементов, а в критике перед перцептроном стоит рекуррентная LSTM-нейросеть. Алгоритмы обучались на высокоточном симуляторе токамака, разработанном специалистами Швейцарского центра плазмы. После обучения авторы проверили работу нейросети-исполнителя на реальном токамаке в этом центре и подтвердили, что он способен удерживать плазму и поддерживать разные ее конфигурации, в том числе двойную, при котором в токамаке формируется два отдельных плазменных шнура.
Это не первый раз, когда нейросети используют для управления крайне сложными машинами и физическими процессами. Например, в 2019 году мы рассказывали, как алгоритм научился корректировать параметры синхротрона, чтобы снижать колебания пучка излучения.
Григорий Копиев
Она доступна через API для некоммерческого использования
Компания Google DeepMind, принадлежащая Alphabet, представила AlphaGenome — модель на основе машинного обучения для предсказания эффектов одиночных мутаций или вариантов генов на процессы регуляции генома по 11 различным модальностям. AlphaGenom способна обрабатывать длинные последовательности ДНК — до миллиона пар азотистых оснований — с разрешением до одной пары и охватывает как кодирующие, так и некодирующие участки генома. Ее описание опубликовано в журнале Nature.