OmniLearned
收藏arXiv2025-10-28 更新2025-11-04 收录
下载链接:
https://github.com/ViniciusMikuni/OmniLearned
下载链接
链接失效反馈官方服务:
资源简介:
OmniLearned数据集是美国劳伦斯伯克利国家实验室国家能源研究科学计算中心、日本名古屋大学 Kobayashi-Maskawa 研究所、美国斯坦福大学粒子物理与天体物理学系、美国SLAC国家加速器实验室基础物理指导处共同创建的,用于粒子物理中涉及喷流物理的所有任务的基础模型框架。数据集包含超过10亿个喷流,是之前模型的10倍。OmniLearned数据集的创建过程是通过在大型数据集上预训练一个具有表达能力的机器学习模型,然后对模型进行微调,以适应下游任务。OmniLearned数据集的应用领域包括但不限于:顶夸克喷流标记、b标记、异常检测等。
OmniLearned is a foundational model framework jointly developed by the National Energy Research Scientific Computing Center (NERSC) at Lawrence Berkeley National Laboratory (USA), the Kobayashi-Maskawa Institute at Nagoya University (Japan), the Department of Particle Physics and Astrophysics at Stanford University (USA), and the Division of Fundamental Physics at SLAC National Accelerator Laboratory (USA), dedicated to all tasks involving jet physics in particle physics. The dataset contains over 1 billion jets, which is 10 times the scale of datasets used by prior models. The development pipeline of the OmniLearned dataset involves first pre-training a highly expressive machine learning model on a large-scale dataset, then fine-tuning the model to adapt to downstream tasks. Application areas of the OmniLearned dataset include but are not limited to: top quark jet tagging, b-tagging, anomaly detection, and other relevant tasks.
提供机构:
美国劳伦斯伯克利国家实验室国家能源研究科学计算中心(NERSC, Lawrence Berkeley National Laboratory), 日本名古屋大学 Kobayashi-Maskawa 研究所(Nagoya University, Kobayashi-Maskawa Institute), 美国斯坦福大学粒子物理与天体物理学系(Department of Particle Physics and Astrophysics, Stanford University), 美国SLAC国家加速器实验室基础物理指导处(Fundamental Physics Directorate, SLAC National Accelerator Laboratory)
创建时间:
2025-10-28
搜集汇总
数据集介绍

构建方式
在粒子物理研究领域,OmniLearned数据集的构建采用了多源数据融合策略,整合了来自JetClass、ATLAS顶夸克标记、H1深度非弹性散射及CMS开放数据等七个核心数据源,形成了超过十亿喷注的庞大规模。该数据集通过统一数据格式与标准化预处理流程,将不同实验环境下生成的喷注数据转化为包含210个类别的结构化样本,每个喷注最多保留150个粒子信息,并采用改进的点边变换器架构进行特征编码,实现了跨探测器配置与碰撞系统的数据兼容性。
特点
该数据集最显著的特征在于其前所未有的规模与多样性,不仅涵盖传统QCD喷注与标准模型粒子,还包含超对称粒子、希格斯玻色子等新物理过程的精细模拟。数据样本覆盖了从500GeV到1TeV的横向动量范围,融合了Delphes快速模拟与Geant4全模拟的探测器响应,同时保留了粒子识别信息与顶点数据等底层特征。通过引入局部注意力机制与物理启发的相互作用项,数据集能够有效捕捉喷注内部粒子的关联模式,为强相互作用过程的研究提供了多维度解析基础。
使用方法
研究人员可通过配套软件包直接访问该数据集的训练与测试样本,支持端到端的模型开发流程。基础模型预训练阶段采用联合分类与生成任务的目标函数,下游任务可通过微调机制快速适配,包括喷注分类、风味标记及异常检测等典型应用场景。对于特定任务如ATLAS b标记,可复用生成头进行轨迹分类的辅助训练;在CMS开放数据的异常检测中,可直接利用预训练模型的分类输出构建异常评分,无需额外微调即可实现新物理信号的识别。
背景与挑战
背景概述
OmniLearned作为高能物理领域的基础模型框架,于2025年由劳伦斯伯克利国家实验室、名古屋大学及斯坦福大学等机构联合提出,旨在解决喷注物理中多任务学习的核心挑战。该模型基于Transformer架构与图神经网络融合的PET v2设计,通过预训练超过十亿个喷注样本构建通用表征,显著提升了在粒子对撞实验中的新物理发现潜力。其创新性体现在联合分类与生成任务的多目标优化,以及对探测器模拟数据与实验数据的统一处理能力,为LHC等大型实验提供了可迁移的深度学习解决方案。
当前挑战
该数据集面临的领域挑战集中于喷注物理中复杂信号与背景的区分难题,例如顶夸克标记、b喷注辨识及异常检测等任务需应对量子色动力学背景的高维特征提取。构建过程中的技术挑战包括:整合跨实验平台的异构数据时需统一Delphes与Geant4等模拟框架的格式差异;处理十亿级喷注样本时面临计算资源与存储效率的平衡;以及模型架构中局部注意力机制与全局Transformer模块的协同优化,确保在保持物理对称性的同时提升表征泛化能力。
常用场景
经典使用场景
在粒子物理实验中,强子喷注的精确识别始终是数据分析的核心挑战。OmniLearned框架通过集成超过十亿个喷注样本,在顶夸克标记、底夸克标记和异常检测三大经典任务中展现出卓越性能。该模型采用升级版点边变换器架构,能够自适应处理不同探测器配置的喷注数据,在Delphes模拟基准数据集和ATLAS全仿真环境中均达到当前最优水平。
实际应用
在实际应用层面,OmniLearned已成功部署于CMS实验数据的异常检测任务,成为首个应用于真实对撞机数据的基座模型。在ATLAS合作组的味标记任务中,该框架将轻子喷注拒绝率提升超过50%,同时将τ喷注拒绝率提高至两倍。其生成式组件还能重构喷注内部结构,为新型物理现象的探索提供全相空间扫描能力。
衍生相关工作
该数据集催生了系列创新性研究,包括基于Cathode方法的共振异常检测框架和三维喷注分类器的直接应用。相关衍生工作通过复用预训练权重实现了无微调的异常检测,开发了条件生成模型用于背景估计,并拓展了生成式头网络在轨迹分类任务中的跨领域应用。这些工作共同推动了粒子物理与机器学习的深度融合。
以上内容由遇见数据集搜集并总结生成



