Коллаборация CMS поделилась 491 терабайтом данных

В архив уместились все протон-протонные столкновения, произошедшие в первом сезоне

Физики из коллаборации CMS опубликовали внушительный объем данных, собранный их детектором в ходе первого сезона работы Большого адронного коллайдера. Он состоит из 491 терабайта, разбитого на 42 датасета, и содержит результаты протон-протонных столкновений, а также руководство и исходный код алгоритмов. Ознакомиться со всем содержимым можно на сайте ЦЕРН.

Большой адронный коллайдер, расположенный в Европейском Центре ядерных исследований (ЦЕРН), известен тем, что в результате его работы образуется колоссальный объем данных. Их собирают несколько детекторов БАКа, самые крупные из которых — это четверка ALICE, ATLAS, CMS и LHCb (о них мы регулярно пишем с тегом «Коллайдер»).

Важное условие, которое было заложено при создании ЦЕРН — это открытость собираемых данных и научных результатов, полученных на их основе. Это выражается в требовании к научным статьям всех коллабораций БАКа иметь статус «open access», а также регулярной публикации архива с собранными данными, которую ЦЕРН проводит с 2014 года.

Недавно мы рассказывали о том, что физики работающие с детектором LHCb, поделились со всеми желающими архивом данных объемом 200 терабайт. Опубликованные датасеты содержат пятую часть информации о протон-протонных столкновениях, произошедших в детекторе в течение первого сезона работы БАКа. Теперь аналогичным массивом данных поделилась коллаборация CMS.

Суммарный объем информации, содержащийся в 42 новых датасетах, равен 491 терабайту. Он включается в себя все, что было собрано детектором CMS в 2012 году за первый сезон работы коллайдера. Часть этих данных были использованы для обнаружения бозона Хиггса, что принесло Нобелевскую премию Франсуа Энглеру и Питеру Хиггсу в 2013 году.

Как и их коллеги из LHCb, физики из CMS опубликовали также подробные руководства по интерпретации данных, а также исходный код программ, который помогает это делать. Сейчас ученые готовят к публикации следующие наборы данных, которые включат в себя результаты экспериментов с тяжелыми ионами в ходе первого сезона, а также результаты протон-протонных столкновений, произошедших во втором сезоне.

Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Физики опубликовали в открытом доступе 200 терабайт данных с детектора LHCb

Это всего 20 процентов информации, собранной коллаборацией

Физики, работающие с детектором LHCb, поделились со всеми желающими архивом собранных данных объемом 200 терабайт. Опубликованный массив данных предназначен в первую очередь для ученых, занимающихся физиков элементарных частиц, однако специалистам по Data Science и машинному обучению он также может быть полезен. Успешность работы большого адронного коллайдера — заслуга слаженной работы Европейского Центра ядерных исследований (ЦЕРН). С момента своего создания в 1954 году руководство центра придерживалось принципов доступности и прозрачности. Например, это выражается в политике открытого доступа для статей, написанных на основе данных, которые производит БАК. Количество этих публикаций уже перевалило за шесть сотен. Тем не менее, несмотря на открытый доступ, научные статьи, как правило, содержат в себе результат интерпретации собранных данных, выраженный в новых открытиях, проверке гипотез или уточнении значений мировых констант. Вместе с тем принцип открытости подразумевает полный доступ любых желающих к огромному массиву данных, и ЦЕРН стремится его обеспечить. Важным шагом на этом пути стало выкладывание в открытый доступ данных, собранных детектором LHCb в ходе первого сезона работы Коллайдера. Опубликованные датасеты содержат 200 терабайт информации о протон-протонных столкновениях, произошедших в 2011 и 2012 годах, хотя это всего лишь 20 процентов всех событий, которые увидел детектор. Впрочем, это не совсем сырой массив данных. Коллаборация LHCb предварительно обработала информацию, которую предоставляет сложная система детекторов, реконструировав траектории заряженных частиц и некоторые другие специфичные сигнатуры. Данные отфильтровали и классифицированы по примерно 300 различным процессам, происходящим при столкновении протонов, и в конечном итоге приведены к тому виду, которым пользуются ученые. Для облегчения работы с датасетами физики с LHCb сопроводили их обширной документацией, метаданными и глоссарием. Для всех желающих также доступно исследовательское программное обеспечение с открытым исходным кодом. Ученые предупреждают, что опубликованный массив предназначен в первую очередь для ученых, занимающихся физикой элементарных частиц, поскольку для интерпретации информации требуются специфические знания. Тем не менее они надеются, что архив будет полезен и энтузиастам, а также специалистам по Data Science и машинному обучению. Недавно мы сообщали, что БАК ушел на каникулы на две недели раньше запланированного срока. Это случилось из-за необходимости экономить электроэнергию.