five

large top tagging dataset

收藏
arXiv2025-08-21 更新2025-11-26 收录
下载链接:
https://github.com/heidelberg-hepml/lloca-experiments
下载链接
链接失效反馈
官方服务:
资源简介:
本文提出了一种新的方法,称为洛伦兹局部规范化(LLoCa),该方法确保了任意神经网络的精确洛伦兹等价性,且计算开销极小。作者在振幅回归、端到端事件生成和喷注识别上展示了其性能。他们引入了一个大型顶部标记数据集,用于评估一系列已建立的基准标记器的LLoCa版本。

This paper presents a novel method termed Lorentz Local Normalization (LLoCa), which ensures exact Lorentz equivalence for arbitrary neural networks while incurring negligible computational overhead. The authors validate its performance across amplitude regression, end-to-end event generation, and jet identification. They further introduce a large-scale top tagging dataset for evaluating the LLoCa-adapted variants of a series of established baseline taggers.
提供机构:
CERN,EP Department,Geneva,Switzerland
创建时间:
2025-08-21
搜集汇总
数据集介绍
main_image_url
构建方式
在粒子物理领域,高能碰撞产生的喷注数据对理解基本粒子相互作用至关重要。Large Top Tagging Dataset的构建基于模拟LHC碰撞事件,通过MadGraph生成硬散射矩阵元,Pythia进行部分子簇射与强子化,Delphes模拟探测器响应。数据采集采用反kT算法进行喷注聚类,并施加横向动量与赝快度阈值筛选,最终通过χ²重建算法确保事件完整性,形成包含拓扑结构与运动学特征的标准化数据集。
特点
该数据集的核心价值在于其规模性与物理真实性,涵盖多喷注拓扑结构与洛伦兹对称性特征。每个事件包含128个领先粒子的四动量、粒子类型标识及轨迹参数,完整保留探测器层面的分辨效应。数据分布严格遵循相对论不变性,同时通过束流轴方向等参考向量体现对称性破缺,为研究局部规范变换与消息传递机制提供了理想基准。
使用方法
该数据集专为评估洛伦兹等变网络性能设计,适用于图神经网络与变换器的基准测试。研究者可通过加载预处理后的四动量张量,结合粒子标识符构建点云输入。典型流程包括在局部参考系中实施等变特征变换,利用帧间消息传递机制进行几何信息聚合。训练时需注意对称性破缺参数的引入,例如通过固定时间方向或束流轴向量实现SO(2)子群等变性验证。
背景与挑战
背景概述
大型顶夸克标记数据集(large top tagging dataset)由海德堡大学与CERN等机构的研究团队于2025年提出,旨在为高能物理中的喷注标记任务提供大规模基准数据。该数据集聚焦于强子对撞机中顶夸克喷注的精确识别,通过结合洛伦兹局部正则化(LLoCa)框架,显著提升了神经网络在粒子物理对称性建模方面的能力。其创建推动了机器学习在粒子鉴别、振幅回归及事件生成等核心研究方向的发展,为LHC实验的物理分析提供了更可靠的模拟工具。
当前挑战
该数据集致力于解决喷注标记中洛伦兹对称性建模的挑战,包括如何在探测器几何约束下保持SO(2)残余对称性,同时避免因过度约束导致的性能下降。构建过程中面临粒子四动量数据的高维性带来的计算复杂性,以及局部参考帧预测中数值不稳定性问题。此外,数据生成需协调Pythia8模拟与Delphes3探测器响应,确保物理过程与实验条件的高度一致性,这对数据规模与质量提出了双重考验。
常用场景
经典使用场景
在粒子物理学的喷注标记研究中,large top tagging dataset被广泛用于训练和评估基于深度学习的分类器,以区分由顶夸克衰变产生的喷注与来自轻夸克或胶子的背景喷注。该数据集通过高能质子-质子碰撞模拟生成,结合了部分子簇射、强子化及探测器响应效应,为模型提供了真实的运动学特征和粒子组成信息。研究者利用该数据集探索洛伦兹等变性网络架构的性能,例如在LLoCa框架下,通过局部规范化和张量消息传递机制,显著提升了模型对喷注内部结构的表征能力。
实际应用
在实际应用中,该数据集直接服务于大型强子对撞机(LHC)的物理分析任务,例如在顶夸克物理研究中优化触发系统和离线数据分析流程。基于该数据集训练的模型可用于实时筛选高价值碰撞事件,减少数据存储负担并提高新物理发现的灵敏度。此外,其衍生的高效标记算法已被整合到实验软件栈中,为希格斯玻色子性质测量和多玻色子过程研究提供可靠的工具,加速了LHC物理学程序的进展。
衍生相关工作
该数据集催生了多项经典研究工作,包括LLoCa框架下开发的等变图网络与变换器架构,如LLoCa-Transformer和LLoCa-ParticleNet,它们在JetClass和TopTagXL基准测试中实现了领先性能。同时,数据集推动了LorentzNet、PELICAN等专用等变网络的对比研究,并促进了生成式模型在事件模拟中的应用探索。这些工作不仅深化了对几何表示理论的理解,还为粒子物理学中的异常检测和振幅回归等任务提供了可扩展的解决方案。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作