PILArNet-M

Hugging Face2025-12-01 更新2025-12-02 收录

下载链接：

https://huggingface.co/datasets/DeepLearnPhysics/PILArNet-M

下载链接

链接失效反馈

官方服务：

资源简介：

粒子物理液氩时间投影室成像数据集，包含约120万个事件的3D粒子电离轨迹，适用于语义分割、粒子级别分割和识别、粒子交互级别分组等任务。

创建时间：

2025-11-30

原始信息汇总

PILArNet-M 数据集概述

数据集基本信息

数据集名称: Public Dataset for Particle Imaging Liquid Argon Detectors in High Energy Physics - Medium (PILArNet-Medium)
许可协议: Apache 2.0
任务类别: 图像分割、目标检测
标签: 粒子、物理、3D、模拟、lartpc、点云
数据规模: 1M < n < 10M
数据量: 约 168 GB，包含约 120 万个事件

数据来源与背景

该数据集是 PILArNet 数据集的延续，数据来自液态氩时间投影室（LArTPCs）的模拟。
每个事件包含粒子穿过探测器时产生的 3D 电离轨迹。

数据结构与组织

存储格式: HDF5
目录结构:
- /train/：训练集，包含 1,082,400 个事件
- /val/：验证集，包含 66,800 个事件
- /test/：测试集，包含 50,000 个事件
文件名中的数字表示该文件包含的事件数量。

数据格式详解

每个 HDF5 文件包含三个主要数据集：point、cluster 和 cluster_extra。数据以可变长度的一维数组存储，需按事件进行重塑。

`point` 数据集

每个条目对应一个事件，以扁平化数组编码该事件的所有空间点。
重塑后形状：(N, 8)
列定义（每点）：
1. x 坐标（整数体素索引，0 至 768）
2. y 坐标（整数体素索引，0 至 768）
3. z 坐标（整数体素索引，0 至 768）
4. 体素值（探测器记录值）
5. 能量沉积 dE
6. 绝对时间（纳秒）
7. 电子数量
8. dx（毫米）

`cluster` 数据集

每个条目对应一个事件的簇集合。
重塑后形状：(M, 6)
列定义（每簇）：
1. 簇中的点数
2. 片段 ID
3. 组 ID
4. 相互作用 ID
5. 语义类型（类别 ID）
6. 粒子 ID

`cluster_extra` 数据集

每个条目提供一个事件的额外每簇信息。
重塑后形状：(M, 5)
列定义（每簇）：
1. 粒子质量（来自 PDG）
2. 粒子动量（大小）
3. 粒子顶点 x 坐标
4. 粒子顶点 y 坐标
5. 粒子顶点 z 坐标

簇与点的排序

point 数组中的点按其所属的簇排序。对于给定事件：

设 clusters[i, 0] 为簇 i 中的点数。
簇 0 的点占据 points 中的前 clusters[0, 0] 行。
簇 1 的点占据接下来的 clusters[1, 0] 行，依此类推。

移除低能量沉积（LED）

每个事件中的第一个簇（cluster[0]）对应非晶态低能量沉积或闪烁，被视为不可计数的“填充物”，标记为 LED。可通过移除 points 数组的前 clusters[0, 0] 个点来去除 LED 点。

标签模式

语义分割类别

语义标签由 cluster[:, 4] 字段给出。映射如下：

语义 ID	类别名称
0	簇射
1	径迹
2	米歇尔电子
3	德尔塔射线
4	LED

粒子识别（PID）标签

粒子识别使用 cluster[:, 5] 中的粒子 ID 字段。映射如下：

ID	粒子类型
0	光子
1	电子
2	μ子
3	π介子
4	质子
5	K介子（本数据集中不存在）
6	无（LED）

实例与相互作用 ID

cluster 数据集包含多个整数 ID 以支持不同的分组粒度：

片段 ID (cluster[:, 1])：标识粒子的连续片段。多个片段可能属于同一粒子。
组 ID (cluster[:, 2])：标识粒子级实例。所有具有相同组 ID 的簇对应同一物理粒子。用于粒子实例分割或粒子级识别任务。
相互作用 ID (cluster[:, 3])：标识相互作用级组。所有具有相同相互作用 ID 的粒子属于同一相互作用（例如中微子相互作用及其次级粒子）。用于相互作用级分割或分类。

对于 LED 簇，片段 ID、组 ID 和相互作用 ID 均设置为 -1。

典型下游任务

语义分割：使用“语义类型”字段预测体素级语义标签（簇射、径迹、米歇尔电子、德尔塔射线、LED）。
粒子级分割与 PID：使用“组 ID”定义粒子实例，使用“PID”分配粒子类型。
相互作用级重建：使用“相互作用 ID”对属于同一物理相互作用的粒子进行分组，使用 cluster_extra 获取每粒子的动量和顶点信息。

快速开始

提供了一个 Colab 笔记本用于加载和检查数据集的实践介绍。

引用

bibtex @misc{young2025particletrajectoryrepresentationlearning, title={Particle Trajectory Representation Learning with Masked Point Modeling}, author={Sam Young and Yeon-jae Jwa and Kazuhiro Terao}, year={2025}, eprint={2502.02558}, archivePrefix={arXiv}, primaryClass={hep-ex}, doi={10.48550/arXiv.2502.02558}, url={https://arxiv.org/abs/2502.02558}, }

搜集汇总

数据集介绍

构建方式

在高能物理实验领域，液态氩时间投影室（LArTPC）技术能够精确记录粒子在探测器中电离产生的三维轨迹。PILArNet-M数据集延续了PILArNet系列的数据生成范式，通过模拟约120万个粒子事件构建而成，数据以HDF5格式存储，总规模达168 GB。每个事件包含粒子穿越探测器时产生的电离点云，通过点（point）、簇（cluster）和簇额外信息（cluster_extra）三个主要数据集进行组织，分别编码空间点坐标与物理属性、簇级语义与实例标签以及粒子的动量与顶点信息。数据按照训练集、验证集和测试集划分，事件数量分别为1,082,400、66,800和50,000，为粒子物理分析提供了结构化的基准。

特点

该数据集的核心特点在于其多层次标注体系与丰富的物理属性信息。每个事件不仅提供三维体素化的空间点，还通过簇级标签实现了从语义分类到实例识别的无缝衔接。语义标签将点云划分为簇射、径迹、米歇尔电子、德尔塔射线及低能沉积等类别；粒子标识符则区分光子、电子、μ子、π介子和质子等粒子类型。此外，片段ID、组ID和交互ID支持从粒子片段到完整相互作用的多粒度分组，而簇额外数据则提供了粒子质量、动量及顶点坐标等关键物理量。这种精细的标注结构使得数据集能够同时支持语义分割、粒子级实例分割及交互级重建等多种下游任务。

使用方法

使用该数据集时，需通过HDF5接口加载对应文件，并利用点与簇数组的对应关系进行数据重构。每个事件中的点数组可按簇数量展开为（N, 8）形状，包含坐标、能量沉积、时间等属性；簇数组则重构为（M, 6）形状，涵盖语义类型、粒子ID及分组标识。数据点按簇顺序排列，便于将簇级标签映射至点级。对于低能沉积（LED）的处理，可通过识别簇数组首行的点数量进行过滤。典型应用包括基于语义类型的体素级分类、利用组ID的粒子实例分割，以及结合交互ID与簇额外数据的相互作用重建。数据集附有Colab笔记本，可供快速入门与可视化探索。

背景与挑战

背景概述

在粒子物理实验领域，液氩时间投影室（LArTPC）作为高精度探测器，能够记录粒子与介质相互作用产生的三维电离轨迹，为深入理解基本粒子性质与相互作用机制提供了关键数据支撑。PILArNet-M数据集作为PILArNet系列的延续，由Sam Young、Yeon-jae Jwa和Kazuhiro Terao等研究人员于2025年构建并公开发布，旨在为粒子成像探测器提供大规模、高质量的模拟事件数据。该数据集包含约120万个事件，核心研究问题聚焦于粒子轨迹的语义分割、实例级识别以及相互作用级重建，旨在推动基于深度学习的粒子重建算法发展，对高能物理实验中的自动事件重建与物理分析具有重要影响力。

当前挑战

该数据集致力于解决高能物理实验中粒子轨迹重建的复杂挑战，具体包括对三维点云数据进行精确的语义分割以区分不同粒子类型（如簇射、径迹、米歇尔电子等），以及实现粒子级实例分割以识别单个物理粒子。在构建过程中，面临的主要挑战源于数据规模与复杂性：模拟数百万个粒子事件需消耗巨大的计算资源，确保物理过程的真实性是一大难点；同时，将原始模拟输出转化为结构化、标注一致的点云数据，涉及复杂的轨迹聚类与标签映射，需克服数据格式统一与噪声（如低能量沉积）有效剔除等技术障碍。

常用场景

经典使用场景

在粒子物理实验领域，PILArNet-M数据集为液态氩时间投影室（LArTPC）的粒子轨迹三维重建提供了关键基准。该数据集最经典的使用场景在于训练和评估深度学习模型，以完成对探测器记录的点云数据进行语义分割、粒子级实例分割及相互作用级分组等复杂任务。研究人员利用其包含的约120万个事件，能够模拟真实实验环境中的粒子电离轨迹，从而优化模型在嘈杂背景下的识别精度与鲁棒性。

实际应用

PILArNet-M数据集的实际应用紧密围绕大型中微子实验，如深部地下中微子实验（DUNE）。它被用于开发和验证能够实时处理LArTPC海量数据的重建算法，以精确识别中微子相互作用产生的次级粒子（如电子、μ子、π介子）。这些算法对于从背景中提取微弱信号、测量粒子能量与动量、进而推断中微子振荡参数等物理量至关重要，直接服务于前沿物理发现。

衍生相关工作

基于PILArNet-M数据集，已衍生出一系列经典的机器学习研究工作。例如，相关研究探索了掩码点建模（Masked Point Modeling）等自监督学习范式，用于学习粒子轨迹的通用表示。此外，众多工作聚焦于开发基于图神经网络或三维卷积的架构，以提升对点云数据的语义与实例分割性能。这些模型不仅在该数据集上取得了先进成果，其方法学也常被迁移至其他粒子物理乃至更广泛的点云处理任务中。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集