five

ColliderML-Release-1

收藏
Hugging Face2025-12-03 更新2025-12-04 收录
下载链接:
https://huggingface.co/datasets/CERN/ColliderML-Release-1
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含使用Open Data Detector (ODD)几何结构在Key4hep和ACTS框架下生成的高能物理碰撞事件的模拟数据,代表类似于HL-LHC的通用对撞机探测器。数据集包含多个配置,每个配置代表不同的物理过程(如ttbar、ggf、dihiggs)、堆积条件(pu0表示无堆积,pu200表示HL-LHC堆积)和对象类型(粒子、追踪器命中、量能器命中、轨迹)。数据集设计用于高能物理中的机器学习任务,包括粒子追踪、轨迹匹配、喷流标记、能量重建、物理分析和表示学习。数据以Apache Parquet格式存储,包含可变长度数据的列表列。
创建时间:
2025-12-02
搜集汇总
数据集介绍
main_image_url
构建方式
在高能物理实验领域,精确模拟粒子对撞事件是理解探测器响应与物理过程的基础。ColliderML-Release-1数据集通过完整的模拟链构建:首先利用MadGraph5与Pythia8生成质子-质子在14 TeV对撞能量下的硬散射与部分子簇射事件;随后基于Open Data Detector几何结构,借助DD4hep与Geant4框架进行探测器模拟与数字化响应;最后通过ACTS软件完成径迹重建,并将EDM4HEP格式数据转换为Apache Parquet列存储格式,确保了数据的高效访问与处理。
特点
该数据集以其多层次、多配置的结构脱颖而出,涵盖了从粒子层级到重建径迹的完整信息流。其核心特点在于提供了四种对象类型——原始粒子、追踪器击中、量能器击中与重建径迹,并针对不同物理过程(如ttbar、ggf、dihiggs)与堆积条件(无堆积与HL-LHC高堆积)进行了系统配置。数据以Parquet格式存储,利用列表列处理变长序列,既保留了事件结构的完整性,又为机器学习任务提供了可直接操作的张量形式。
使用方法
研究人员可通过Hugging Face的datasets库便捷加载特定配置的数据子集。例如,使用load_dataset函数并指定配置名称如'ttbar_pu0_particles',即可获取无堆积条件下顶夸克对产生事件的真理粒子信息。数据加载后,每一行对应一个完整对撞事件,变长物理量以列表形式呈现,便于直接转换为NumPy数组进行动量计算、粒子鉴别或径迹重建等分析。该数据集支持粒子追踪、喷注标记、能量重建等多种机器学习任务,为算法开发与物理分析提供了标准化基准。
背景与挑战
背景概述
ColliderML-Release-1数据集由ColliderML合作组于2025年发布,旨在为高能物理领域的机器学习研究提供标准化模拟数据。该数据集基于Open Data Detector几何结构,利用Key4hep与ACTS软件框架生成,模拟了14 TeV质子-质子对撞事件,涵盖顶夸克对产生、希格斯玻色子对产生等关键物理过程。其核心研究问题聚焦于通过机器学习方法提升粒子轨迹重建、喷注鉴别及能量重建等任务的精度与效率,为未来高亮度大型强子对撞机的数据分析奠定了重要基础,推动了计算物理与人工智能的交叉融合。
当前挑战
该数据集致力于解决高能物理中粒子探测与事件重建的复杂挑战,包括在高堆积条件下从海量探测器信号中精准分离粒子轨迹,以及区分不同起源的喷注以实现新物理信号的提取。在构建过程中,挑战主要源于多层级数据结构的整合,需将粒子、径迹、量能器沉积等异构信息映射为统一的机器学习友好格式,同时确保模拟数据的物理真实性与统计完备性,以支撑模型在接近真实实验环境中的泛化能力。
常用场景
经典使用场景
在高能物理领域,粒子对撞实验产生海量复杂数据,传统分析方法面临巨大挑战。ColliderML数据集通过提供模拟的高能物理碰撞事件,为机器学习模型在粒子轨迹重建、喷注标记等核心任务上提供了标准化的训练与测试平台。其经典使用场景聚焦于利用深度学习技术,从探测器命中点数据中重构带电粒子的运动轨迹,或依据能量沉积模式对喷注的物理起源进行分类。这些任务对于从背景噪声中提取微弱信号、理解基本粒子相互作用至关重要。
衍生相关工作
围绕ColliderML数据集,已衍生出多项具有影响力的经典研究工作。这些工作主要集中在利用图神经网络处理探测器命中点间的空间关系以提升粒子追踪精度,以及开发基于注意力机制的Transformer模型用于端到端的喷注特性识别。此外,该数据集也促进了对比学习、生成模型在物理数据合成与异常检测中的应用探索,推动了物理信息先验与深度学习架构的深度融合,为高能物理数据分析开辟了新的技术路径。
数据集最近研究
最新研究方向
在粒子物理与机器学习交叉领域,ColliderML-Release-1数据集正推动前沿研究聚焦于高能对撞机数据的智能解析。该数据集通过模拟HL-LHC环境下的多物理过程与探测器响应,为基于深度学习的粒子轨迹重建、喷注标记及事件分类提供了标准化基准。当前研究热点集中于利用图神经网络处理探测器命中点间的复杂空间关联,以提升在高堆积条件下粒子追踪的精度与效率;同时,生成式模型被探索用于加速蒙特卡洛模拟,应对未来实验海量数据处理的挑战。这些进展不仅深化了对标准模型及其扩展的检验能力,也为下一代对撞机实验的实时数据处理架构奠定了算法基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作