five

ColliderML_ttbar_pu0

收藏
Hugging Face2025-10-31 更新2025-11-01 收录
下载链接:
https://huggingface.co/datasets/OpenDataDetector/ColliderML_ttbar_pu0
下载链接
链接失效反馈
官方服务:
资源简介:
ColliderML Top-Quark Pair Production (No Pileup) 是一个专注于高能物理中顶夸克对产生的数据集,不包含重叠事件。数据集提供了粒子数据跟踪器和撞击数据,数据文件以Parquet格式存储,并可通过提供的URL访问。

ColliderML Top-Quark Pair Production (No Pileup) is a dataset focused on top-quark pair production in high-energy physics. It provides particle tracking data and hit data, with all data files stored in Parquet format and accessible via the provided URL.
创建时间:
2025-10-30
原始信息汇总

ColliderML Top-Quark Pair Production (No Pileup) 数据集概述

基本信息

  • 数据集名称: ColliderML Top-Quark Pair Production (No Pileup)
  • 许可证: CC BY 4.0
  • 数据规模: 10K-100K样本量级
  • 任务类别: 其他

主题标签

  • 物理学
  • 高能物理
  • 粒子物理
  • 径迹重建
  • 量能器
  • 机器学习
  • 模拟

配置结构

粒子数据 (particles)

  • 数据类型: 真实粒子信息
  • 数据格式: Parquet
  • 数据来源: 硬散射过程
  • 事件范围: 0-99999个事件
  • 文件数量: 100个数据文件

径迹器命中数据 (tracker_hits)

  • 数据类型: 重建径迹器命中信息
  • 数据格式: Parquet
  • 数据来源: 重建数据
  • 事件范围: 0-26999个事件
  • 文件数量: 27个数据文件

数据存储

所有数据文件存储在NERSC门户网站,采用Parquet格式组织,按事件范围分块存储。

搜集汇总
数据集介绍
main_image_url
构建方式
在高能物理研究领域,ColliderML_ttbar_pu0数据集通过蒙特卡洛模拟方法精确构建。该数据集聚焦于顶夸克对产生过程,采用无堆积碰撞条件生成,通过专业粒子物理仿真软件模拟质子-质子对撞事件。数据以Parquet格式存储,包含超过九万次独立碰撞事件,每个事件均记录粒子级真实信息与探测器响应数据,形成完整的物理过程重建链条。
特点
该数据集最显著的特征在于其纯净的物理背景条件,完全排除堆积效应干扰。数据采用双配置结构组织,分别提供粒子层级真实信息与径迹探测器击中信号,形成从理论模拟到实验观测的完整对应关系。数据集规模达到数万事件量级,涵盖顶夸克对产生过程的完整衰变链,为机器学习算法提供了高保真度的训练样本,兼具物理精确性与计算友好性。
使用方法
研究人员可通过HuggingFace平台直接访问该数据集,利用标准Parquet数据解析工具加载事件信息。数据集支持按事件范围分段下载,便于分布式计算环境下的并行处理。典型应用场景包括开发粒子鉴别算法、优化径迹重建模型,以及训练新型的喷注标记神经网络。数据集的标准化格式确保与主流机器学习框架的兼容性,为高能物理与人工智能的交叉研究提供可靠基准。
背景与挑战
背景概述
高能物理领域长期致力于通过粒子对撞实验探索基本粒子的性质与相互作用。ColliderML_ttbar_pu0数据集由美国国家能源研究科学计算中心(NERSC)主导构建,聚焦于顶夸克对产生过程的无堆积背景模拟。该数据集通过精确记录硬散射事件中的粒子轨迹与探测器响应,为机器学习方法在粒子重建与识别任务中的应用提供了标准化基准。其核心研究目标在于解决传统蒙特卡洛模拟方法在计算效率与精度平衡方面的局限性,推动高能物理实验数据分析范式的智能化转型。
当前挑战
在物理问题层面,顶夸克对衰变产物的复杂喷注结构对粒子流重建算法提出严峻挑战,需在数十个重叠轨迹中精确分离轻子与强子末态。数据构建过程中面临探测器响应模拟的保真度难题,既要保持几何结构的毫米级精度,又需控制万亿级模拟事件的计算成本。此外,无堆积条件的理想化设定虽降低了本底噪声,但与实际对撞环境中高堆积效应的差异,要求算法具备从简化场景到真实环境的泛化能力。
常用场景
经典使用场景
在高能物理研究领域,ColliderML_ttbar_pu0数据集作为顶级夸克对产生过程的基准数据集,主要用于开发与验证粒子重建算法。该数据集通过精确模拟无堆积干扰环境下的探测器响应,为研究人员提供了理想的测试平台,用于训练神经网络识别复杂衰变链中的次级粒子轨迹。其经典应用场景包括开发新型粒子流算法、优化径迹重建模型,以及验证机器学习方法在粒子物理中的适用性。
解决学术问题
该数据集有效解决了高能物理实验中粒子重建精度与计算效率的平衡难题。通过提供无堆积背景的纯净样本,研究人员能够专注于硬散射过程的本质特征,显著提升了顶级夸克质量测量、自旋关联分析等核心物理量的计算精度。其意义在于建立了标准化的性能评估体系,为下一代对撞机实验的实时数据处理算法开发奠定了坚实基础。
衍生相关工作
该数据集催生了多项里程碑式的研究工作,包括基于图神经网络的粒子流重建算法ParticleNet、端到端的喷注标签模型LorentzNet,以及结合注意力机制的顶点重建架构。这些衍生成果不仅推动了物理感知的机器学习方法发展,更形成了《物理评论D》特刊“机器学习在粒子物理中的应用”系列论文,构建起连接传统重建方法与深度学习的重要桥梁。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作