2012 CMS Open Data

Name: 2012 CMS Open Data
Creator: CERN CMS Collaboration
Published: 2025-06-18 03:32:04
License: 暂无描述

arXiv2025-06-18 更新2025-06-22 收录

下载链接：

https://opendata.cern.ch/docs/cms-getting-started-2011

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集来源于CERN CMS合作组织，由2012年CMS Open Data构成，包含933,206个3通道图像，每个图像大小为125×125，其中一半代表夸克喷射，另一半代表胶子喷射。这些图像记录了单个喷射在CMS实验中三个不同子探测器中的能量沉积：内跟踪系统（Tracks）、电磁量热计（ECAL）和强子量热计（HCAL）。数据集旨在通过深度学习模型对夸克和胶子喷射进行分类，为高能物理研究提供支持。

提供机构：

CERN CMS Collaboration

创建时间：

2025-06-18

搜集汇总

数据集介绍

构建方式

2012 CMS Open Data数据集构建于高能物理实验领域，通过模拟8 TeV质子-质子对撞事件生成。采用Geant4工具包实现探测器响应的精确模拟，基于Pythia 6蒙特卡洛事件生成器产生QCD双喷注过程。数据选择涵盖横向动量90-170 GeV范围的硬散射过程，通过严格的几何匹配（ΔR<0.4）和运动学切割（pT>70 GeV, |η|<1.8）确保样本纯度。最终形成933,206张125×125像素的三通道图像，通道分别对应电磁量能器（ECAL）、强子量能器（HCAL）和径迹探测器的能量沉积分布。

特点

该数据集的核心特征体现在多模态探测器信息的空间编码：ECAL通道捕获电磁簇射的精细结构，HCAL通道记录强子簇射的广域分布，径迹通道提供带电粒子运动学信息。图像采用η-ϕ平面投影，保持喷注子结构的完整空间关联性。数据模拟包含平均18-21个对撞事件的堆积效应，真实再现LHC运行环境。特别设计的对数-线性混合归一化方案有效处理各探测器通道的动态范围差异，使模型能够同时解析高能核心区和低能边缘区的特征模式。

使用方法

数据集适用于端到端的喷注分类任务，建议采用多阶段预处理流程：首先进行阈值过滤（10^-3能量截断），继而对各探测器通道实施Z-score标准化和500σ离群值截断。数据增强推荐包含随机水平翻转（p=0.5）、[-20°,20°]旋转以及Mixup混合（α=0.2）。模型输入建议调整为224×224分辨率，CNN架构推荐使用ImageNet标准化参数，而Transformer架构可直接使用原始归一化值。评估指标应综合考量F1分数和ROC-AUC，以平衡类别不平衡带来的影响。

背景与挑战

背景概述

2012 CMS Open Data数据集由欧洲核子研究中心（CERN）的CMS合作组于2012年发布，是基于大型强子对撞机（LHC）8 TeV质子-质子对撞实验的高保真模拟数据。该数据集采用Geant4工具包进行详细探测器模拟，精确再现了CMS探测器的电磁量能器（ECAL）、强子量能器（HCAL）和径迹系统的响应特性。其核心研究目标是解决高能物理中的夸克-胶子喷注分类难题，这一基础性问题对标准模型精确测量和新物理寻找具有关键意义。该数据集通过提供多通道喷注图像表示，推动了基于深度学习的端到端粒子重建方法发展，成为Transformer架构在粒子物理图像分析领域的首个系统性测试平台。

当前挑战

在科学问题层面，该数据集需应对夸克-胶子喷注固有的物理特性重叠挑战，两者在辐射模式、色荷分布和粒子多重数等方面仅存在细微差异，且受探测器噪声和堆积效应干扰。构建过程中面临三大技术挑战：一是多探测器数据融合需精确协调ECAL、HCAL和径迹系统在η-ϕ平面的空间对齐；二是动态范围处理难题，能量沉积值跨越多个数量级，需设计零抑制、Z-score归一化和极值裁剪的多级预处理流程；三是真实实验条件模拟，包括18-21个相互作用的事例堆积效应建模以及探测器边缘效应的环形填充处理，这些因素显著增加了图像构建的复杂度。

常用场景

经典使用场景

在粒子物理学领域，2012 CMS Open Data数据集被广泛应用于夸克-胶子喷注的分类研究。该数据集通过模拟LHC（大型强子对撞机）中的质子-质子碰撞事件，提供了高保真的探测器级能量沉积图像，包括电磁量能器（ECAL）、强子量能器（HCAL）和重建的径迹信息。研究人员利用这些多通道图像数据，结合深度学习模型，特别是视觉Transformer（ViT）架构，实现了对夸克和胶子喷注的高效区分。这一经典应用场景为高能物理实验中的喷注分类任务提供了新的研究范式。

衍生相关工作

围绕2012 CMS Open Data数据集，已衍生出多项重要的研究工作。Andrews等人首次将该数据集用于端到端喷注分类，建立了CNN基线模型。后续研究如ParticleNet和Energy Flow Network进一步发展了基于粒子云的喷注标记方法。近期，Jahin等人的工作系统评估了ViT架构在该数据集上的表现，提出了ViT+MaxViT等混合模型，显著提升了分类性能。这些衍生工作不仅推动了粒子物理与机器学习的交叉研究，也为Transformer架构在科学数据分析中的应用开辟了新途径。

数据集最近研究