Физики опубликовали в открытом доступе 200 терабайт данных с детектора LHCb

Это всего 20 процентов информации, собранной коллаборацией

Физики, работающие с детектором LHCb, поделились со всеми желающими архивом собранных данных объемом 200 терабайт. Опубликованный массив данных предназначен в первую очередь для ученых, занимающихся физиков элементарных частиц, однако специалистам по Data Science и машинному обучению он также может быть полезен.

Успешность работы большого адронного коллайдера — заслуга слаженной работы Европейского Центра ядерных исследований (ЦЕРН). С момента своего создания в 1954 году руководство центра придерживалось принципов доступности и прозрачности. Например, это выражается в политике открытого доступа для статей, написанных на основе данных, которые производит БАК.

Количество этих публикаций уже перевалило за шесть сотен. Тем не менее, несмотря на открытый доступ, научные статьи, как правило, содержат в себе результат интерпретации собранных данных, выраженный в новых открытиях, проверке гипотез или уточнении значений мировых констант. Вместе с тем принцип открытости подразумевает полный доступ любых желающих к огромному массиву данных, и ЦЕРН стремится его обеспечить.

Важным шагом на этом пути стало выкладывание в открытый доступ данных, собранных детектором LHCb в ходе первого сезона работы Коллайдера. Опубликованные датасеты содержат 200 терабайт информации о протон-протонных столкновениях, произошедших в 2011 и 2012 годах, хотя это всего лишь 20 процентов всех событий, которые увидел детектор.

Впрочем, это не совсем сырой массив данных. Коллаборация LHCb предварительно обработала информацию, которую предоставляет сложная система детекторов, реконструировав траектории заряженных частиц и некоторые другие специфичные сигнатуры. Данные отфильтровали и классифицированы по примерно 300 различным процессам, происходящим при столкновении протонов, и в конечном итоге приведены к тому виду, которым пользуются ученые.

Для облегчения работы с датасетами физики с LHCb сопроводили их обширной документацией, метаданными и глоссарием. Для всех желающих также доступно исследовательское программное обеспечение с открытым исходным кодом.

Ученые предупреждают, что опубликованный массив предназначен в первую очередь для ученых, занимающихся физикой элементарных частиц, поскольку для интерпретации информации требуются специфические знания. Тем не менее они надеются, что архив будет полезен и энтузиастам, а также специалистам по Data Science и машинному обучению.

Недавно мы сообщали, что БАК ушел на каникулы на две недели раньше запланированного срока. Это случилось из-за необходимости экономить электроэнергию.