Исследователи из DeepMind вместе с коллегами из Швейцарии создали алгоритм машинного обучения для удержания плазмы в токамаке. Они обучили его на высокоточном симуляторе, а затем показали работоспособность подхода на реальном токамаке в Швейцарии. Статья опубликована в Nature.
DeepMind — британская компания, специализирующаяся на развитии методов машинного обучения, купленная Google в 2014 году. Наибольшую известность она получила благодаря своим игровым алгоритмам, которые обыграли людей в го, шахматы и StarCraft II. Но исследователи из DeepMind также занимаются сложными прикладными задачами, пытаясь решить их с помощью методов машинного обучения. Так, в 2016 году они разработали алгоритм синтеза речи WaveNet, существенно повлиявший на развитие этого направления, а за последний год с небольшим разработали модель AlphaFold для предсказания структуры белка и систему AlphaCode для написания программного кода. В прошлом году компания рассказывала, что работает над применением машинного обучения для решения проблем термоядерных реакторов, но на тот момент не раскрывала подробностей и результатов.
Термоядерный реактор предполагает создание плазмы, в которой происходит управляемый термоядерный синтез — слияние ядер с выделением огромного количества энергии. Для термоядерных реакторов предлагались разные конструкции, но на данный момент лидирует токамак — эту конструкцию разработали советские физики Тамм и Сахаров. Она же используется в международном реакторе ITER, который должен начать работу и получить первую плазму в 2025 году. Токамак состоит из тороидальной камеры, вокруг которой расположены магнитные катушки. Они позволяют удерживать плазму с помощью магнитного поля, не давая ей столкнуться со стенками токамака и разрушить их.
Еще в середине XX века стало ясно, что удержание плазмы магнитным полем — крайне сложная задача, потому что в ней неминуемо возникают неустойчивости. В итоге даже лучшие токамаки удерживают ее в течение очень небольшого времени: в прошлом году китайский EAST установил рекорд, удержав горячую плазму (120 миллионов градусов) в течение 101 секунды, а создатели ITER рассчитывают на 400-600 секунд.
Исследователи из DeepMind во главе с Йонасом Бюхли (Jonas Buchli) и Бренданом Трейси (Brendan Tracey) вместе с коллегами из Швейцарского центра плазмы Федеральной политехнической школы Лозанны под руководством Федерико Феличи (Federico Felici) показали, что алгоритм машинного обучения можно обучить управлять параметрами магнитных катушек токамака и удерживать в нем плазму. Традиционно для этой задачи используется набор алгоритмов-контроллеров, каждый из которых отвечает за отдельный целевой параметр: вертикальное и горизонтальное положение плазмы, ее форма (профиль), ток.
Авторы новой работы предложили использовать единый и обучаемый нейросетевой контроллер. Ему необходимо задать желаемые параметры плазмы, которых может быть множество, а также их критические величины, позволяющие сформировать функцию потерь. Исследователи использовали метод максимальной апостериорной оптимизации, способный находить оптимальный режим работы (policy) в условиях недостаточного объема данных. Он устроен по принципу «исполнитель-критик», где исполнитель принимает решение, а критик сообщает ему, насколько хороший результат оно дало. В данном случае авторы реализовали асимметричный вариант метода: при обучении в симуляции используется большая нейросеть-критик, а обучаемая ей нейросеть-исполнитель для реального токамака имеет гораздо меньший размер. Это обусловлено ограничениями по вычислительной мощности: контроллер должен работать с частотой 10 килогерц и тратить на вычисление новых параметров для катушек не дольше 50 микросекунд.
Нейросеть-исполнитель построена по типу многослойного перцептрона с двумя скрытыми слоями по 256 элементов, а в критике перед перцептроном стоит рекуррентная LSTM-нейросеть. Алгоритмы обучались на высокоточном симуляторе токамака, разработанном специалистами Швейцарского центра плазмы. После обучения авторы проверили работу нейросети-исполнителя на реальном токамаке в этом центре и подтвердили, что он способен удерживать плазму и поддерживать разные ее конфигурации, в том числе двойную, при котором в токамаке формируется два отдельных плазменных шнура.
Это не первый раз, когда нейросети используют для управления крайне сложными машинами и физическими процессами. Например, в 2019 году мы рассказывали, как алгоритм научился корректировать параметры синхротрона, чтобы снижать колебания пучка излучения.
Григорий Копиев
Она работает на сервере с квотой и не разрешает изучать потенциальные лекарства
Компании Google DeepMind и Isomorphic Labs, принадлежащие Alphabet, представили AlphaFold 3 — новую версию модели на основе машинного обучения и диффузионной модели для предсказания точной структуры белков и их взаимодействий друг с другом и другими веществами. По заявлению разработчиков, она стала первой, превзошедшей по точности методы предсказания, основанные на физических свойствах молекул. Статья о модели принята для ускоренной публикации в Nature. Кроме того, о разработке рассказывают редакционные подкаст и статья, а также пресс-релизе Google.