Что представляет собой новый российский суперкомпьютер «Говорун»
На прошлой неделе в Объединенном институте ядерных исследований (ОИЯИ) официально ввели в эксплуатацию новый суперкомпьютер имени Н.Н. Говоруна, или, как указано в англоязычных брошюрах, просто Govorun. Новая вычислительная система состоит как из обычных процессоров Intel Xeon (разумеется, одних из лучших на сегодняшний день), так и из графических карт Nvidia Volta. Суммарная теоретическая пиковая мощность компьютера оценивается в один петафлопс, или один квадриллион операций с плавающей запятой в секунду. Мы побывали в Лаборатории информационных технологий (ЛИТ), где установлен «Говорун» и подготовили небольшую фотогалерею прямиком из машинного зала.
«Говорун» — гибридный, гетерогенный суперкомпьютер. Это значит, что он состоит из трех принципиально различных подсистем. Каждая из них, соответственно, состоит из нескольких мощных вычислительных узлов. Первая подсистема состоит из 21 узла с 72-ядерными процессорами Intel Xeon Phi 7290, которые прекрасно подходят для параллельных вычислений. Вторая подсистема построена на 18-ядерных процессорах Intel Xeon Gold 6154 — они хорошо справляются с ресурсоемкими вычислениями. На каждом из 40 узлов суперкомпьютера установлено по два таких процессора. Третья подсистема построена на графических ядрах (GPU). Она состоит из пяти узлов NVIDIA DGX-1 Volta, в каждом из них установлено по восемь видеокарт Tesla V100.
Интересно, что именно графическая часть вносит наибольший вклад в общую вычислительную мощность системы — более 600 терафлопс. Правда, стоит отметить, что разные виды чипов справляются лучше с разными видами задач. Объединение их в единое устройство — продолжение работ ЛИТ ОИЯИ над платформой HybriLIT для гетерогенных компьютеров.
Суперкомпьютеры, состоящие из огромного количества ядер, хорошо справляются с конкретными типами задач — теми, которые можно легко и эффективно распараллелить на большое количество вычислительных узлов. Это и понятно: если какая-то задача сводится к строго последовательному выполнению миллиардов простых действий, каждое из которых требует знания результата предыдущего, запускать ее больше чем на одном ядре бессмысленно. Другое дело, когда нам надо, например, взять и умножить матрицу на вектор или, проще, посчитать прогноз погоды из массива данных о скорости ветра, влажности и температуре на заданной карте. Тогда у нас возникает масса однотипных независимых действий, которые можно распределить на десятки ядер.
Какие задачи будет решать новый суперкомпьютер?
Нелюбовь кварков к одиночеству
Каким образом одиночные кварки превращаются в адроны? При какой температуре происходит переход в кварк-глюонную плазму? Как охлаждалась Вселенная в первые секунды своей жизни?
Одна из нерешенных проблем современной физики элементарных частиц — проблема конфайнмента. Посмотрим на строение простейшего бариона — протона. Он состоит из трех кварков, удерживаемых вместе сильным взаимодействием. Попробуем оторвать один из кварков. Обычные взаимодействия быстро слабеют с расстоянием, но сильное взаимодействие, напротив, — растет, его даже сравнивают с натягиванием струны. После какого-то критического «усилия» кварк все же можно оторвать от протона, но энергии, которая выделится при разрыве «струны», хватит на то, чтобы образовать два новых кварка на ее концах. А значит, в результате мы вырвем из протона вместо одного кварка сразу пару (она называется мезон), да и сам протон останется при своих трех кварках.
Такое поведение подтверждается экспериментами на ускорителях элементарных частиц — при столкновениях протонов и тяжелых ядер разлетающиеся осколки представляют собой адроны, но никак не одиночные кварки. Одновременно с этим существует противоположное явление — деконфайнмент. При высоких температурах (гораздо выше триллионов градусов) энергия частиц оказывается настолько высокой, что они не удерживаются сильным взаимодействием и формируют плазму, в которой уже можно говорить об отдельных кварках. Современные модели утверждают, что спустя доли секунд после Большого Взрыва наша Вселенная существовала именно в виде кварк-глюонной плазмы. От того, при каких температурах и как именно происходит переход от конфайнмента к деконфайнменту, зависит наше понимание развития Вселенной.
Явления адронизации (рождения новых кварков после разрыва «струны») и конфайнмент чрезвычайно сложно описать теоретически — слишком громоздкими оказываются соответствующие уравнения квантовой хромодинамики. Однако есть хороший метод, который позволяет их решать численно, приближенно, — он называется решеточная квантовая хромодинамика (LQCD). Чтобы сделать численный расчет, непрерывное пространство-время превращают в четырехмерную сетку. Затем каждому узлу сетки ставят в соответствие состояние реальной системы в заданной точке пространства в заданный момент времени. В каждом узле сетки необходимо вычислить несколько интегралов, и они будут соответствовать путям, которыми может пойти исследуемый процесс. Для этого и необходим суперкомпьютер.
Кстати, исторически именно решение задач LQCD подтолкнуло развитие вычислительных систем — так, известная серия суперкомпьютеров Blue Gene «выросла» из систем QCDOC — «квантовой хромодинамики на чипах». Каждое ядро в таких чипах соответствовало узлу пространства-времени. Понятно, что чем больше узлов сетки мы можем взять (и чем больше ядер мы используем), тем точнее мы можем дать предсказания.
Будущий коллайдер «НИКА»
Как восстановить траектории осколков от столкновений ядер? Как успеть обработать все данные с коллайдера?
Расчеты физиков-теоретиков должны стать в некоторым смысле подспорьем для экспериментаторов. В 2020 году в Дубне завершится строительство нового коллайдера протонов и тяжелых ядер — NICA (Nuclotron-based Ion Collider fAcility). Уже к 2023 году ускоритель выйдет на проектную мощность и начнет поставлять огромные массивы данных — сопоставимые с крупными экспериментами Большого адронного коллайдера (около 25 петабайт в год, по оценкам сотрудников ОИЯИ).
Для NICA вычислительная система имени Н.Н. Говоруна поможет решить три основные задачи. Первые две возникли еще до запуска самого коллайдера: реалистичное моделирование поведения детекторов NICA и создание программ для распознавания треков элементарных частиц. При столкновении двух тяжелых ядер (свинца или золота) рождаются тысячи осколков — барионов, мезонов, лептонов. Их траектории в пространстве несут в себе информацию об их энергиях, свойствах — а значит, и об условиях, в которых родились эти частицы. Но детекторы позволяют увидеть лишь отдельные фрагменты траекторий, которые необходимо совместить воедино. Для этого ученые планируют использовать методы машинного обучения.
Третья задача станет актуальной на этапе набора данных: за год коллайдер будет набирать огромную статистику столкновений, которую необходимо обрабатывать. Если оценить, что на обработку одного столкновения уходит минута процессорного времени, то на современных мощностях ОИЯИ обработка данных NICA за год займет около двух лет. Помощь «Говоруна» поможет значительно сократить это время.
Твердые и мягкие тела
Как ведут себя электроны в сверхпроводниках и как сворачиваются белки?
Помимо ядерной физики, которой так знаменит ОИЯИ, в институте есть и ряд других лабораторий, занимающихся структурной биологией и созданием новых материалов. Новый суперкомпьютер поможет в решении задач физики твердого тела — исследовать поведение электронов в 2D-кристаллах, полупроводниках, полуметаллах и так далее. Другие важные для задачи, требующие мощных вычислительных систем, включают в себя исследование динамики биомолекул — белков и ДНК.
Обработка данных БАК
Найдутся ли новые частицы и следы новой физики в петабайтах данных, собранных БАК?
Помимо собственных задач, ОИЯИ выступает в роли одного из 13 главных серверов огромной сети GRID, распределяющей и обрабатывающей данные Большого адронного коллайдера. В институте установлены сервера Tier-1 иTier-2, непрерывно получающие данные о столкновениях (даже когда ускорительный год в БАК завершен, собранная за это время информация распределяется еще пару лет). Так, ОИЯИ обрабатывает одну седьмую данных с детектора CMS. Мощности «Говоруна» присоединятся к поискам новой физики в этих данных.
А что дальше?
Уже сейчас мощности суперкомпьютера имени Н.Н. Говоруна достаточно, чтобы войти в список TOP500 самых производительных вычислительных систем. Однако его архитектура устроена так, что компьютер легко расширять, добавляя новые вычислительные узлы. В будущем вычислительная система будет постепенно совершенствоваться, чтобы быстрее справляться со все большим кругом задач, давая все более точные и быстрые результаты.
Стоит отметить, что это не последнее усовершенствование, связанное с подготовкой к запуску NICA. В будущем ОИЯИ будет расширять свои вычислительные мощности и установит новые сервера чтобы «выдержать» поток данных с коллайдера. К примеру, сейчас уже готовится прототип, на котором будут обсчитываться эмулированные данные NICA. На основе этих тестов, оценки надежности и стабильности системы будет происходить дальнейшее развитие серверов ОИЯИ. Возможно, данные с NICA будут распределяться по модели GRID’a Большого адронного коллайдера — тогда в институте появится свой собственный высокопроизводительный Tier-0.
Владимир Королёв