PILArNet-M
收藏PILArNet-M 数据集概述
数据集基本信息
- 数据集名称: Public Dataset for Particle Imaging Liquid Argon Detectors in High Energy Physics - Medium (PILArNet-Medium)
- 许可协议: Apache 2.0
- 任务类别: 图像分割、目标检测
- 标签: 粒子、物理、3D、模拟、lartpc、点云
- 数据规模: 1M < n < 10M
- 数据量: 约 168 GB,包含约 120 万个事件
数据来源与背景
- 该数据集是 PILArNet 数据集的延续,数据来自液态氩时间投影室(LArTPCs)的模拟。
- 每个事件包含粒子穿过探测器时产生的 3D 电离轨迹。
数据结构与组织
- 存储格式: HDF5
- 目录结构:
/train/:训练集,包含 1,082,400 个事件/val/:验证集,包含 66,800 个事件/test/:测试集,包含 50,000 个事件
- 文件名中的数字表示该文件包含的事件数量。
数据格式详解
每个 HDF5 文件包含三个主要数据集:point、cluster 和 cluster_extra。数据以可变长度的一维数组存储,需按事件进行重塑。
point 数据集
- 每个条目对应一个事件,以扁平化数组编码该事件的所有空间点。
- 重塑后形状:
(N, 8) - 列定义(每点):
x坐标(整数体素索引,0 至 768)y坐标(整数体素索引,0 至 768)z坐标(整数体素索引,0 至 768)- 体素值(探测器记录值)
- 能量沉积
dE - 绝对时间(纳秒)
- 电子数量
dx(毫米)
cluster 数据集
- 每个条目对应一个事件的簇集合。
- 重塑后形状:
(M, 6) - 列定义(每簇):
- 簇中的点数
- 片段 ID
- 组 ID
- 相互作用 ID
- 语义类型(类别 ID)
- 粒子 ID
cluster_extra 数据集
- 每个条目提供一个事件的额外每簇信息。
- 重塑后形状:
(M, 5) - 列定义(每簇):
- 粒子质量(来自 PDG)
- 粒子动量(大小)
- 粒子顶点
x坐标 - 粒子顶点
y坐标 - 粒子顶点
z坐标
簇与点的排序
point 数组中的点按其所属的簇排序。对于给定事件:
- 设
clusters[i, 0]为簇i中的点数。 - 簇
0的点占据points中的前clusters[0, 0]行。 - 簇
1的点占据接下来的clusters[1, 0]行,依此类推。
移除低能量沉积(LED)
每个事件中的第一个簇(cluster[0])对应非晶态低能量沉积或闪烁,被视为不可计数的“填充物”,标记为 LED。
可通过移除 points 数组的前 clusters[0, 0] 个点来去除 LED 点。
标签模式
语义分割类别
语义标签由 cluster[:, 4] 字段给出。映射如下:
| 语义 ID | 类别名称 |
|---|---|
| 0 | 簇射 |
| 1 | 径迹 |
| 2 | 米歇尔电子 |
| 3 | 德尔塔射线 |
| 4 | LED |
粒子识别(PID)标签
粒子识别使用 cluster[:, 5] 中的粒子 ID 字段。映射如下:
| ID | 粒子类型 |
|---|---|
| 0 | 光子 |
| 1 | 电子 |
| 2 | μ子 |
| 3 | π介子 |
| 4 | 质子 |
| 5 | K介子(本数据集中不存在) |
| 6 | 无(LED) |
实例与相互作用 ID
cluster 数据集包含多个整数 ID 以支持不同的分组粒度:
- 片段 ID (
cluster[:, 1]):标识粒子的连续片段。多个片段可能属于同一粒子。 - 组 ID (
cluster[:, 2]):标识粒子级实例。所有具有相同组 ID 的簇对应同一物理粒子。用于粒子实例分割或粒子级识别任务。 - 相互作用 ID (
cluster[:, 3]):标识相互作用级组。所有具有相同相互作用 ID 的粒子属于同一相互作用(例如中微子相互作用及其次级粒子)。用于相互作用级分割或分类。
对于 LED 簇,片段 ID、组 ID 和相互作用 ID 均设置为 -1。
典型下游任务
- 语义分割:使用“语义类型”字段预测体素级语义标签(簇射、径迹、米歇尔电子、德尔塔射线、LED)。
- 粒子级分割与 PID:使用“组 ID”定义粒子实例,使用“PID”分配粒子类型。
- 相互作用级重建:使用“相互作用 ID”对属于同一物理相互作用的粒子进行分组,使用
cluster_extra获取每粒子的动量和顶点信息。
快速开始
提供了一个 Colab 笔记本 用于加载和检查数据集的实践介绍。
引用
bibtex @misc{young2025particletrajectoryrepresentationlearning, title={Particle Trajectory Representation Learning with Masked Point Modeling}, author={Sam Young and Yeon-jae Jwa and Kazuhiro Terao}, year={2025}, eprint={2502.02558}, archivePrefix={arXiv}, primaryClass={hep-ex}, doi={10.48550/arXiv.2502.02558}, url={https://arxiv.org/abs/2502.02558}, }




