five

2012 CMS Open Data

收藏
arXiv2025-06-18 更新2025-06-22 收录
下载链接:
https://opendata.cern.ch/docs/cms-getting-started-2011
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集来源于CERN CMS合作组织,由2012年CMS Open Data构成,包含933,206个3通道图像,每个图像大小为125×125,其中一半代表夸克喷射,另一半代表胶子喷射。这些图像记录了单个喷射在CMS实验中三个不同子探测器中的能量沉积:内跟踪系统(Tracks)、电磁量热计(ECAL)和强子量热计(HCAL)。数据集旨在通过深度学习模型对夸克和胶子喷射进行分类,为高能物理研究提供支持。

This dataset is sourced from the CERN CMS Collaboration and is constructed from 2012 CMS Open Data. It contains 933,206 three-channel images, each with a resolution of 125×125. Half of these images correspond to quark jets, while the other half correspond to gluon jets. These images record the energy depositions of individual jets in three distinct sub-detectors of the CMS experiment: the Inner Tracking System (Tracks), the Electromagnetic Calorimeter (ECAL), and the Hadronic Calorimeter (HCAL). This dataset is intended for the classification of quark and gluon jets via deep learning models, to support high-energy physics research.
提供机构:
CERN CMS Collaboration
创建时间:
2025-06-18
搜集汇总
数据集介绍
main_image_url
构建方式
2012 CMS Open Data数据集构建于高能物理实验领域,通过模拟8 TeV质子-质子对撞事件生成。采用Geant4工具包实现探测器响应的精确模拟,基于Pythia 6蒙特卡洛事件生成器产生QCD双喷注过程。数据选择涵盖横向动量90-170 GeV范围的硬散射过程,通过严格的几何匹配(ΔR<0.4)和运动学切割(pT>70 GeV, |η|<1.8)确保样本纯度。最终形成933,206张125×125像素的三通道图像,通道分别对应电磁量能器(ECAL)、强子量能器(HCAL)和径迹探测器的能量沉积分布。
特点
该数据集的核心特征体现在多模态探测器信息的空间编码:ECAL通道捕获电磁簇射的精细结构,HCAL通道记录强子簇射的广域分布,径迹通道提供带电粒子运动学信息。图像采用η-ϕ平面投影,保持喷注子结构的完整空间关联性。数据模拟包含平均18-21个对撞事件的堆积效应,真实再现LHC运行环境。特别设计的对数-线性混合归一化方案有效处理各探测器通道的动态范围差异,使模型能够同时解析高能核心区和低能边缘区的特征模式。
使用方法
数据集适用于端到端的喷注分类任务,建议采用多阶段预处理流程:首先进行阈值过滤(10^-3能量截断),继而对各探测器通道实施Z-score标准化和500σ离群值截断。数据增强推荐包含随机水平翻转(p=0.5)、[-20°,20°]旋转以及Mixup混合(α=0.2)。模型输入建议调整为224×224分辨率,CNN架构推荐使用ImageNet标准化参数,而Transformer架构可直接使用原始归一化值。评估指标应综合考量F1分数和ROC-AUC,以平衡类别不平衡带来的影响。
背景与挑战
背景概述
2012 CMS Open Data数据集由欧洲核子研究中心(CERN)的CMS合作组于2012年发布,是基于大型强子对撞机(LHC)8 TeV质子-质子对撞实验的高保真模拟数据。该数据集采用Geant4工具包进行详细探测器模拟,精确再现了CMS探测器的电磁量能器(ECAL)、强子量能器(HCAL)和径迹系统的响应特性。其核心研究目标是解决高能物理中的夸克-胶子喷注分类难题,这一基础性问题对标准模型精确测量和新物理寻找具有关键意义。该数据集通过提供多通道喷注图像表示,推动了基于深度学习的端到端粒子重建方法发展,成为Transformer架构在粒子物理图像分析领域的首个系统性测试平台。
当前挑战
在科学问题层面,该数据集需应对夸克-胶子喷注固有的物理特性重叠挑战,两者在辐射模式、色荷分布和粒子多重数等方面仅存在细微差异,且受探测器噪声和堆积效应干扰。构建过程中面临三大技术挑战:一是多探测器数据融合需精确协调ECAL、HCAL和径迹系统在η-ϕ平面的空间对齐;二是动态范围处理难题,能量沉积值跨越多个数量级,需设计零抑制、Z-score归一化和极值裁剪的多级预处理流程;三是真实实验条件模拟,包括18-21个相互作用的事例堆积效应建模以及探测器边缘效应的环形填充处理,这些因素显著增加了图像构建的复杂度。
常用场景
经典使用场景
在粒子物理学领域,2012 CMS Open Data数据集被广泛应用于夸克-胶子喷注的分类研究。该数据集通过模拟LHC(大型强子对撞机)中的质子-质子碰撞事件,提供了高保真的探测器级能量沉积图像,包括电磁量能器(ECAL)、强子量能器(HCAL)和重建的径迹信息。研究人员利用这些多通道图像数据,结合深度学习模型,特别是视觉Transformer(ViT)架构,实现了对夸克和胶子喷注的高效区分。这一经典应用场景为高能物理实验中的喷注分类任务提供了新的研究范式。
衍生相关工作
围绕2012 CMS Open Data数据集,已衍生出多项重要的研究工作。Andrews等人首次将该数据集用于端到端喷注分类,建立了CNN基线模型。后续研究如ParticleNet和Energy Flow Network进一步发展了基于粒子云的喷注标记方法。近期,Jahin等人的工作系统评估了ViT架构在该数据集上的表现,提出了ViT+MaxViT等混合模型,显著提升了分类性能。这些衍生工作不仅推动了粒子物理与机器学习的交叉研究,也为Transformer架构在科学数据分析中的应用开辟了新途径。
数据集最近研究
最新研究方向
在粒子物理领域,2012 CMS Open Data数据集的最新研究聚焦于利用视觉Transformer(ViT)架构进行端到端的夸克-胶子喷注分类。这一研究方向突破了传统卷积神经网络(CNN)在局部特征提取上的局限,通过全局注意力机制捕捉喷注子结构中的长程空间关联。研究采用多通道量能器图像(ECAL、HCAL和径迹系统)作为输入,构建了ViT与CNN混合模型(如ViT+MaxViT和ViT+ConvNeXt),在F1分数和ROC-AUC等关键指标上显著超越基准CNN模型。该工作首次系统性地将Transformer架构应用于公开对撞机数据的量能器图像分析,为高能物理实验中的实时喷注分类提供了新范式,同时推动了深度学习在复杂探测器数据解析中的边界。
相关研究论文
  • 1
    Vision Transformers for End-to-End Quark-Gluon Jet Classification from Calorimeter ImagesCERN CMS Collaboration · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作