five

PILArNet-M

收藏
Hugging Face2025-12-01 更新2025-12-02 收录
下载链接:
https://huggingface.co/datasets/DeepLearnPhysics/PILArNet-M
下载链接
链接失效反馈
官方服务:
资源简介:
粒子物理液氩时间投影室成像数据集,包含约120万个事件的3D粒子电离轨迹,适用于语义分割、粒子级别分割和识别、粒子交互级别分组等任务。
创建时间:
2025-11-30
原始信息汇总

PILArNet-M 数据集概述

数据集基本信息

  • 数据集名称: Public Dataset for Particle Imaging Liquid Argon Detectors in High Energy Physics - Medium (PILArNet-Medium)
  • 许可协议: Apache 2.0
  • 任务类别: 图像分割、目标检测
  • 标签: 粒子、物理、3D、模拟、lartpc、点云
  • 数据规模: 1M < n < 10M
  • 数据量: 约 168 GB,包含约 120 万个事件

数据来源与背景

  • 该数据集是 PILArNet 数据集的延续,数据来自液态氩时间投影室(LArTPCs)的模拟。
  • 每个事件包含粒子穿过探测器时产生的 3D 电离轨迹。

数据结构与组织

  • 存储格式: HDF5
  • 目录结构:
    • /train/:训练集,包含 1,082,400 个事件
    • /val/:验证集,包含 66,800 个事件
    • /test/:测试集,包含 50,000 个事件
  • 文件名中的数字表示该文件包含的事件数量。

数据格式详解

每个 HDF5 文件包含三个主要数据集:pointclustercluster_extra。数据以可变长度的一维数组存储,需按事件进行重塑。

point 数据集

  • 每个条目对应一个事件,以扁平化数组编码该事件的所有空间点。
  • 重塑后形状:(N, 8)
  • 列定义(每点):
    1. x 坐标(整数体素索引,0 至 768)
    2. y 坐标(整数体素索引,0 至 768)
    3. z 坐标(整数体素索引,0 至 768)
    4. 体素值(探测器记录值)
    5. 能量沉积 dE
    6. 绝对时间(纳秒)
    7. 电子数量
    8. dx(毫米)

cluster 数据集

  • 每个条目对应一个事件的簇集合。
  • 重塑后形状:(M, 6)
  • 列定义(每簇):
    1. 簇中的点数
    2. 片段 ID
    3. 组 ID
    4. 相互作用 ID
    5. 语义类型(类别 ID)
    6. 粒子 ID

cluster_extra 数据集

  • 每个条目提供一个事件的额外每簇信息。
  • 重塑后形状:(M, 5)
  • 列定义(每簇):
    1. 粒子质量(来自 PDG)
    2. 粒子动量(大小)
    3. 粒子顶点 x 坐标
    4. 粒子顶点 y 坐标
    5. 粒子顶点 z 坐标

簇与点的排序

point 数组中的点按其所属的簇排序。对于给定事件:

  • clusters[i, 0] 为簇 i 中的点数。
  • 0 的点占据 points 中的前 clusters[0, 0] 行。
  • 1 的点占据接下来的 clusters[1, 0] 行,依此类推。

移除低能量沉积(LED)

每个事件中的第一个簇(cluster[0])对应非晶态低能量沉积或闪烁,被视为不可计数的“填充物”,标记为 LED。 可通过移除 points 数组的前 clusters[0, 0] 个点来去除 LED 点。

标签模式

语义分割类别

语义标签由 cluster[:, 4] 字段给出。映射如下:

语义 ID 类别名称
0 簇射
1 径迹
2 米歇尔电子
3 德尔塔射线
4 LED

粒子识别(PID)标签

粒子识别使用 cluster[:, 5] 中的粒子 ID 字段。映射如下:

ID 粒子类型
0 光子
1 电子
2 μ子
3 π介子
4 质子
5 K介子(本数据集中不存在)
6 无(LED)

实例与相互作用 ID

cluster 数据集包含多个整数 ID 以支持不同的分组粒度:

  • 片段 ID (cluster[:, 1]):标识粒子的连续片段。多个片段可能属于同一粒子。
  • 组 ID (cluster[:, 2]):标识粒子级实例。所有具有相同组 ID 的簇对应同一物理粒子。用于粒子实例分割或粒子级识别任务。
  • 相互作用 ID (cluster[:, 3]):标识相互作用级组。所有具有相同相互作用 ID 的粒子属于同一相互作用(例如中微子相互作用及其次级粒子)。用于相互作用级分割或分类。

对于 LED 簇,片段 ID、组 ID 和相互作用 ID 均设置为 -1

典型下游任务

  • 语义分割:使用“语义类型”字段预测体素级语义标签(簇射、径迹、米歇尔电子、德尔塔射线、LED)。
  • 粒子级分割与 PID:使用“组 ID”定义粒子实例,使用“PID”分配粒子类型。
  • 相互作用级重建:使用“相互作用 ID”对属于同一物理相互作用的粒子进行分组,使用 cluster_extra 获取每粒子的动量和顶点信息。

快速开始

提供了一个 Colab 笔记本 用于加载和检查数据集的实践介绍。

引用

bibtex @misc{young2025particletrajectoryrepresentationlearning, title={Particle Trajectory Representation Learning with Masked Point Modeling}, author={Sam Young and Yeon-jae Jwa and Kazuhiro Terao}, year={2025}, eprint={2502.02558}, archivePrefix={arXiv}, primaryClass={hep-ex}, doi={10.48550/arXiv.2502.02558}, url={https://arxiv.org/abs/2502.02558}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在高能物理实验领域,液态氩时间投影室(LArTPC)技术能够精确记录粒子在探测器中电离产生的三维轨迹。PILArNet-M数据集延续了PILArNet系列的数据生成范式,通过模拟约120万个粒子事件构建而成,数据以HDF5格式存储,总规模达168 GB。每个事件包含粒子穿越探测器时产生的电离点云,通过点(point)、簇(cluster)和簇额外信息(cluster_extra)三个主要数据集进行组织,分别编码空间点坐标与物理属性、簇级语义与实例标签以及粒子的动量与顶点信息。数据按照训练集、验证集和测试集划分,事件数量分别为1,082,400、66,800和50,000,为粒子物理分析提供了结构化的基准。
特点
该数据集的核心特点在于其多层次标注体系与丰富的物理属性信息。每个事件不仅提供三维体素化的空间点,还通过簇级标签实现了从语义分类到实例识别的无缝衔接。语义标签将点云划分为簇射、径迹、米歇尔电子、德尔塔射线及低能沉积等类别;粒子标识符则区分光子、电子、μ子、π介子和质子等粒子类型。此外,片段ID、组ID和交互ID支持从粒子片段到完整相互作用的多粒度分组,而簇额外数据则提供了粒子质量、动量及顶点坐标等关键物理量。这种精细的标注结构使得数据集能够同时支持语义分割、粒子级实例分割及交互级重建等多种下游任务。
使用方法
使用该数据集时,需通过HDF5接口加载对应文件,并利用点与簇数组的对应关系进行数据重构。每个事件中的点数组可按簇数量展开为(N, 8)形状,包含坐标、能量沉积、时间等属性;簇数组则重构为(M, 6)形状,涵盖语义类型、粒子ID及分组标识。数据点按簇顺序排列,便于将簇级标签映射至点级。对于低能沉积(LED)的处理,可通过识别簇数组首行的点数量进行过滤。典型应用包括基于语义类型的体素级分类、利用组ID的粒子实例分割,以及结合交互ID与簇额外数据的相互作用重建。数据集附有Colab笔记本,可供快速入门与可视化探索。
背景与挑战
背景概述
在粒子物理实验领域,液氩时间投影室(LArTPC)作为高精度探测器,能够记录粒子与介质相互作用产生的三维电离轨迹,为深入理解基本粒子性质与相互作用机制提供了关键数据支撑。PILArNet-M数据集作为PILArNet系列的延续,由Sam Young、Yeon-jae Jwa和Kazuhiro Terao等研究人员于2025年构建并公开发布,旨在为粒子成像探测器提供大规模、高质量的模拟事件数据。该数据集包含约120万个事件,核心研究问题聚焦于粒子轨迹的语义分割、实例级识别以及相互作用级重建,旨在推动基于深度学习的粒子重建算法发展,对高能物理实验中的自动事件重建与物理分析具有重要影响力。
当前挑战
该数据集致力于解决高能物理实验中粒子轨迹重建的复杂挑战,具体包括对三维点云数据进行精确的语义分割以区分不同粒子类型(如簇射、径迹、米歇尔电子等),以及实现粒子级实例分割以识别单个物理粒子。在构建过程中,面临的主要挑战源于数据规模与复杂性:模拟数百万个粒子事件需消耗巨大的计算资源,确保物理过程的真实性是一大难点;同时,将原始模拟输出转化为结构化、标注一致的点云数据,涉及复杂的轨迹聚类与标签映射,需克服数据格式统一与噪声(如低能量沉积)有效剔除等技术障碍。
常用场景
经典使用场景
在粒子物理实验领域,PILArNet-M数据集为液态氩时间投影室(LArTPC)的粒子轨迹三维重建提供了关键基准。该数据集最经典的使用场景在于训练和评估深度学习模型,以完成对探测器记录的点云数据进行语义分割、粒子级实例分割及相互作用级分组等复杂任务。研究人员利用其包含的约120万个事件,能够模拟真实实验环境中的粒子电离轨迹,从而优化模型在嘈杂背景下的识别精度与鲁棒性。
实际应用
PILArNet-M数据集的实际应用紧密围绕大型中微子实验,如深部地下中微子实验(DUNE)。它被用于开发和验证能够实时处理LArTPC海量数据的重建算法,以精确识别中微子相互作用产生的次级粒子(如电子、μ子、π介子)。这些算法对于从背景中提取微弱信号、测量粒子能量与动量、进而推断中微子振荡参数等物理量至关重要,直接服务于前沿物理发现。
衍生相关工作
基于PILArNet-M数据集,已衍生出一系列经典的机器学习研究工作。例如,相关研究探索了掩码点建模(Masked Point Modeling)等自监督学习范式,用于学习粒子轨迹的通用表示。此外,众多工作聚焦于开发基于图神经网络或三维卷积的架构,以提升对点云数据的语义与实例分割性能。这些模型不仅在该数据集上取得了先进成果,其方法学也常被迁移至其他粒子物理乃至更广泛的点云处理任务中。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作