ColliderML-Release-1
收藏Hugging Face2025-11-30 更新2025-12-01 收录
下载链接:
https://huggingface.co/datasets/OpenDataDetector/ColliderML-Release-1
下载链接
链接失效反馈官方服务:
资源简介:
ColliderML数据集第1版是一个包含使用Open Data Detector (ODD)几何结构在Key4hep和ACTS框架内生成的高能物理碰撞事件模拟数据的数据集。它支持多种配置,包括不同的物理过程、堆叠条件和对象类型。该数据集适用于高能物理领域的机器学习任务,如粒子跟踪、轨迹匹配、喷注标记等。
ColliderML Dataset Version 1 is a dataset comprising simulated high-energy physics collision event data generated within the Key4hep and ACTS frameworks using the geometry of the Open Data Detector (ODD). It supports diverse configurations, including distinct physical processes, stacking conditions, and object types. This dataset is applicable to machine learning tasks in the field of high-energy physics, such as particle tracking, track matching, jet tagging, etc.
创建时间:
2025-11-28
原始信息汇总
ColliderML数据集发布1概述
数据集基本信息
- 数据集名称:ColliderML Dataset Release 1
- 许可证:CC-BY-4.0
- 数据规模:100K<n<1M
- 格式:Apache Parquet,包含可变长度数据的列表列
物理特性
- 碰撞能量:14 TeV(质子-质子碰撞)
- 探测器:开放数据探测器(ODD)
- 模拟框架:DD4hep + Geant4 + ACTS
配置结构
数据集按以下组合组织成多个配置:
- 物理过程:ttbar、ggf、dihiggs等
- 堆积条件:pu0(无堆积)、pu200(HL-LHC堆积)
- 对象类型:particles、tracker_hits、calo_hits、tracks
支持的任务
- 粒子轨迹重建
- 轨迹-粒子匹配
- 喷注标记
- 能量重建
- 物理分析
- 表示学习
数据结构
粒子数据(真实级别)
包含探测器模拟前生成的粒子真实信息
- 事件标识符:event_id
- 粒子属性:particle_id、pdg_id、mass、energy、charge
- 动量分量:px、py、pz
- 顶点位置:vx、vy、vz
- 时间信息:time
- 径迹参数:perigee_d0、perigee_z0
- 击中计数:num_tracker_hits、num_calo_hits
- 粒子关系:primary、vertex_primary、parent_id
追踪器击中数据(探测器级别)
来自追踪探测器的数字化空间测量
- 位置测量:x、y、z
- 真实位置:true_x、true_y、true_z
- 时间信息:time
- 粒子关联:particle_id
- 探测器标识:volume_id、layer_id、surface_id、detector
量能器击中数据(量能器级别)
量能器系统中的能量沉积
- 探测器标识:detector
- 能量信息:total_energy
- 位置信息:x、y、z
- 贡献粒子:contrib_particle_ids、contrib_energies、contrib_times
径迹数据(重建级别)
ACTS模式识别和径迹拟合重建的粒子径迹
- 径迹标识:track_id
- 粒子关联:majority_particle_id
- 径迹参数:d0、z0、phi、theta、qop
- 击中关联:hit_ids
数据创建流程
- 事件生成:MadGraph5 + Pythia8
- 探测器模拟:通过DD4hep使用Geant4
- 数字化:真实探测器响应模拟
- 重建:ACTS径迹寻找和拟合算法
- 格式转换:EDM4HEP → Parquet
引用信息
bibtex @dataset{colliderml_release1_2025, title={{ColliderML Dataset Release 1}}, author={{ColliderML Collaboration}}, year={2025}, publisher={Hugging Face}, howpublished={url{https://huggingface.co/datasets/OpenDataDetector/ColliderML-Release-1}}, note={Simulation performed using ACTS and the Open Data Detector} }
技术支持
- 邮箱:daniel.thomas.murnane@cern.ch
- GitHub:https://github.com/OpenDataDetector/ColliderML
致谢
支持机构:
- NERSC计算资源
- 美国能源部科学办公室
- 丹麦数据科学学院(DDSA)
发布版本:1.0
最后更新:2025年11月
搜集汇总
数据集介绍

构建方式
在高能物理实验领域,精确模拟粒子对撞过程是理解基本粒子相互作用的关键。ColliderML-Release-1数据集通过完整的模拟链构建而成:首先利用MadGraph5与Pythia8生成质子-质子对撞的硬散射事件与部分子簇射;随后基于Open Data Detector几何结构,通过DD4hep框架集成Geant4进行探测器响应模拟;再经过数字化处理与ACTS软件完成轨迹重建;最终通过ColliderML管道将EDM4HEP格式转换为Apache Parquet列式存储,有效支持变长数据的列表列表示。
使用方法
针对机器学习任务的高效部署,该数据集可通过HuggingFace Datasets库直接加载。用户通过指定配置名称即可访问特定子集,例如'ttbar_pu0_particles'对应无堆积顶夸克对撞的真值粒子。数据读取支持列筛选与分片加载,结合NumPy等工具可快速计算派生物理量如横向动量与赝快度。该接口设计使得研究者能专注于物理特征提取与模型构建,无需处理底层数据格式转换。
背景与挑战
背景概述
高能物理实验作为探索物质基本构成的前沿领域,长期依赖大型强子对撞机等装置产生海量碰撞数据。ColliderML数据集于2025年由国际科研团队基于开放式数据探测器架构开发,整合Key4hep软件栈与通用追踪系统框架,通过14TeV质子对撞模拟构建标准化基准数据。该数据集聚焦于粒子轨迹重建与喷注鉴别等核心问题,为机器学习在高能物理中的应用提供多层次探测器响应数据,显著推进了实验物理与计算科学的交叉融合。
当前挑战
高能物理数据分析面临探测器信号混叠与粒子轨迹交叉的固有难题,尤其在强子对撞环境下存在数亿次叠加事件,传统重建算法难以应对复杂拓扑结构。数据集构建过程中需攻克多尺度物理过程模拟的技术壁垒,包括Geant4探测器响应精确建模、变长度粒子序列的标准化存储,以及EDM4HEP至Parquet格式的高保真转换,这些挑战共同推动了计算物理与数据工程的协同创新。
常用场景
经典使用场景
在高能物理实验研究中,ColliderML数据集为机器学习算法提供了标准化的基准测试平台。该数据集通过模拟大型强子对撞机环境下的粒子碰撞事件,支持粒子轨迹重建、喷注标记等核心任务。研究人员能够利用其多层级数据结构,从探测器命中点出发逐步还原粒子运动轨迹,为复杂物理过程的可视化与量化分析奠定基础。
解决学术问题
该数据集有效解决了高能物理领域传统重建算法计算效率低下的瓶颈问题。通过提供精确的粒子-探测器交互模拟数据,使得基于深度学习的端到端重建模型得以实现。其标准化数据格式打破了实验组间的技术壁垒,为比较不同重建算法的性能提供了统一基准,显著推进了粒子物理与机器学习交叉领域的方法论创新。
实际应用
在实验物理领域,该数据集被广泛应用于新型探测器设计的性能验证。工程团队通过模拟不同几何结构的探测器响应,优化硅像素探测器的布局方案。同时,欧洲核子研究中心等机构将其作为训练数据,开发实时触发系统中基于神经网络的粒子鉴别算法,有效提升了对稀有物理事例的捕捉能力。
数据集最近研究
最新研究方向
在粒子物理实验领域,随着大型强子对撞机(LHC)进入高亮度运行阶段,ColliderML数据集正推动机器学习技术在探测器模拟与重建中的深度应用。前沿研究聚焦于利用图神经网络优化粒子轨迹重建,通过端到端学习处理高堆积环境下的复杂信号,显著提升喷注标记和能量重建的精度。该数据集与ACTS框架的紧密结合,为开发可解释性强的生成模型提供了标准化基准,助力新物理现象的探索,同时加速了高能物理与人工智能的跨学科融合。
以上内容由遇见数据集搜集并总结生成



