Industrial3D
收藏arXiv2026-03-31 更新2026-04-01 收录
下载链接:
https://github.com/pointcloudyc/Industrial3D
下载链接
链接失效反馈官方服务:
资源简介:
Industrial3D是由香港科技大学团队主导构建的工业级地面激光雷达点云数据集,包含来自13个水处理设施的6.12亿个6毫米精度的标注点,规模达现有同类MEP数据集的6.6倍。该数据集涵盖12类专业机械、电气和管道系统构件,具有215:1的极端类别不平衡特性,其标注过程由专家团队完成。作为首个工业跨范式基准测试平台,该数据集支持扫描到BIM、数字孪生构建等应用,旨在解决工业点云中几何模糊性和统计稀缺性双重危机带来的语义分割挑战。
Industrial3D is an industrial-grade terrestrial LiDAR point cloud dataset developed and led by a team from The Hong Kong University of Science and Technology. It contains 612 million annotated points with 6-mm accuracy collected from 13 water treatment facilities, with a scale 6.6 times that of existing comparable MEP datasets. This dataset covers 12 categories of specialized mechanical, electrical, and piping (MEP) system components, and exhibits extreme class imbalance with a ratio of 215:1; its annotation process was completed by a team of domain experts. As the first industrial cross-paradigm benchmark platform, Industrial3D supports applications such as scan-to-BIM and digital twin construction, aiming to address the semantic segmentation challenges brought about by the dual crises of geometric ambiguity and statistical scarcity in industrial point clouds.
提供机构:
香港科技大学·土木与环境工程系; 广东省科学院·广州地理研究所; 东南大学·土木工程学院; 衡阳师范学院·地理与旅游学院; 香港城市大学·建筑与土木工程系; 纽约大学阿布扎比分校·S.M.A.R.T.建筑研究组; 新加坡国立大学·建筑环境系; 中国科学院城市环境研究所·空间智能与城市计算; 中国科学院城市环境研究所·区域与城市生态安全重点实验室
创建时间:
2026-03-31
原始信息汇总
Industrial3D 数据集概述
数据集基本信息
- 数据集名称:Industrial3D: A Large-Scale Dataset and Benchmark for Industrial Point Cloud Segmentation
- 核心定位:面向工业机械、电气和管道(MEP)场景理解的大规模、高分辨率点云数据集,专注于水处理设施。
- 核心特点:首个为工业点云分割提供全面跨范式基准的数据集。
- 当前状态:正在积极开发中,完整数据集和基准代码即将发布。
关键亮点
- 规模空前:包含6.127亿个标注点,是现有最可比MEP数据集规模的6.6倍。
- 工业领域:首个针对水处理设施(关键基础设施领域)的大规模数据集。
- 跨范式基准:涵盖四种学习范式的综合评估:
- 全监督学习(FS)
- 稀疏标签的弱监督学习(WS)
- 自监督/无监督学习(US)
- 适配的基础模型(FM)
- 真实世界复杂性:包含真实遮挡、传感器噪声和场景复杂性的真实工业环境。
数据集统计信息
| 指标 | 数值 |
|---|---|
| 总标注点数 | 6.127亿 |
| 语义类别数 | 12类(MEP + 结构元素) |
| 设施数量 | 来自7个水处理厂的13个区域 |
| 扫描分辨率 | 6毫米地面激光雷达 |
| 总扫描面积 | 约11,237平方米 |
| 标注耗时 | 754人时 |
| 类别不平衡比 | 215:1(长尾分布) |
数据集划分
| 划分 | 区域 | 点数 | 占比 |
|---|---|---|---|
| 训练集 | 1,2,3,4,5,7,8,10,11,13 | 5.278亿 | 86.1% |
| 验证集 | 9 (OSCG) | 0.151亿 | 2.5% |
| 测试集 | 6, 12 (Psu, SPH) | 0.849亿 | 13.9% |
基准测试结果摘要
全监督学习(FS)
- 最佳方法:ResPointNet++ (boundary-CB), mIoU为55.74%。
- 次佳方法:ResPointNet++, mIoU为54.05%。
弱监督学习(WS)- 标签高效
- 方法:SQN
- 使用0.1%标签时,mIoU为44.29%。
- 使用0.01%标签时,mIoU为33.16%。
自监督学习(US)
- 方法:GrowSP, mIoU为11.73%。
基础模型:Point-SAM(FM)
- 零样本:mIoU为35.2%。
- 10%少样本适配:mIoU为74.5%。
关键发现
- 具有挑战性:最佳全监督方法mIoU仅达54.05%,表明数据集复杂性高。
- 长尾挑战:215:1的类别不平衡(比S3DIS严重3.5倍)对所有方法构成显著困难。
- 基础模型潜力:少样本适配显著提升性能,为工业应用指明了方向。
语义类别
包含12个语义类别:
- MEP组件:管道、阀门、管件、风管、电缆桥架、设备。
- 结构元素:墙壁、地板、天花板、梁、柱。
与相关数据集的比较
| 数据集 | 领域 | 点数 | 年份 |
|---|---|---|---|
| Jing et al. (2024) | 普通建筑 | 9210万 | 2024 |
| PSNet5 (2021) | 工业MEP | 8000万 | 2021 |
| S3DIS | 室内办公室 | 约2700万 | 2017 |
| Industrial3D | 水处理 | 6.127亿 | 2025 |
引用信息
bibtex @article{industrial3d2026, title={Industrial3D: A Large-Scale Dataset and Benchmark for Industrial Point Cloud Segmentation}, author={Yin, Chao and others}, url={https://github.com/PointCloudYC/Industrial3D} year={2025} }
许可与联系
- 许可证:待数据集发布时确定。
- 联系方式:可通过GitHub仓库提交Issue或发送邮件至 cyinac@connect.ust.hk。
搜集汇总
数据集介绍

构建方式
在工业机械、电气和管道(MEP)设施的三维语义理解领域,高质量数据集的构建是推动Scan-to-BIM和数字孪生等应用的关键前提。Industrial3D数据集的构建始于对13个香港污水处理厂的真实运营环境进行地面激光扫描,使用Leica BLK360设备以6毫米分辨率采集点云。原始扫描数据经过多站配准和格式转换后,由领域专家团队投入754人时进行精细标注,采用分块、聚类提取、合并和边界优化的四步流程,最终形成了包含6.12亿个标注点、涵盖12个语义类别的庞大数据集。
特点
该数据集的核心特征体现在其规模与挑战性上,它不仅是当前最大的工业MEP点云数据集,更以215:1的极端类别不平衡比例和严重的几何模糊性构成了独特的双重危机。数据集中头部类别(如管道、矩形梁)占据77%的点数,而尾部类别(如阀门、过滤器)则极为稀疏且与管道共享圆柱几何基元,这种统计稀有性与几何相似性的叠加使得传统频率重加权方法难以奏效。此外,密集的设备布局导致严重遮挡,金属组件间有限的颜色对比进一步削弱了RGB特征的判别力,共同塑造了一个对现有分割方法极具考验的基准测试平台。
使用方法
Industrial3D数据集为工业点云语义分割研究提供了首个跨范式基准。研究者可遵循其划分协议,将13个区域中的10个用于训练,2个作为测试集,以评估方法在未见设施上的泛化能力。数据集支持全监督、弱监督、无监督及基础模型四种学习范式的评估,并提供了包括mIoU、OA及针对长尾分布的组别mIoU与调和平均IoU在内的多层次度量体系。通过公开的代码库与预训练模型,用户能够复现基准结果,系统分析极端不平衡、稀疏监督与领域迁移等核心挑战,进而推动面向工业场景的鲁棒三维理解算法的发展。
背景与挑战
背景概述
随着建筑行业数字化转型的深入推进,基于地面激光扫描(TLS)的密集点云自动语义理解已成为Scan-to-BIM流程、数字孪生构建及竣工验证等核心任务的关键前提。然而,工业机械、电气和管道(MEP)设施的点云数据因存在极端几何模糊性、严重遮挡及类别极度不平衡等特性,使得现有室内建筑基准数据集(如S3DIS或ScanNet)难以充分表征其挑战。为此,由香港科技大学、东南大学及香港城市大学等机构的研究团队于2026年联合发布了Industrial3D数据集。该数据集采集自13个水处理设施,包含6.12亿个以6毫米分辨率标注的点,涵盖12个专业MEP与结构类别,其规模达到现有最接近MEP数据集的6.6倍,为工业三维场景理解提供了迄今规模最大且最具挑战性的测试平台。该数据集的建立不仅填补了工业点云基准的空白,也为跨范式学习评估奠定了重要基础,对推动工业基础设施的智能感知与数字化建设具有深远影响。
当前挑战
Industrial3D数据集所针对的工业MEP点云语义分割任务面临双重核心挑战。在领域问题层面,数据呈现出极端的类别不平衡(头尾类别比例达215:1)与几何模糊性(尾类点与主导的管道类别共享圆柱体基元),导致传统频率重加权方法难以有效区分功能迥异但几何相似的组件,如阀门、法兰与管道。这种统计稀缺性与几何歧义性的交织,使得现有监督模型在尾类识别上表现严重受限,监督最佳方法的平均交并比仅为55.74%,而零样本基础模型则低至15.79%,凸显出巨大的领域迁移鸿沟。在构建过程中,数据采集与标注亦遭遇显著困难:密集设备布局导致严重相互遮挡,许多组件仅被部分捕获;专业MEP组件需领域专家进行精细辨识,总计耗费754人时完成标注;此外,大规模点云的处理与对齐、以及跨多个设施的场景多样性保障,均对数据集的构建提出了严峻的技术与资源要求。
常用场景
经典使用场景
在工业基础设施数字化进程中,Industrial3D数据集为点云语义分割研究提供了关键基准。该数据集以其612百万个标注点、12个专业MEP类别以及13个水处理设施的覆盖范围,成为评估算法在极端类别不平衡与几何模糊性双重挑战下性能的经典测试平台。其最经典的使用场景在于系统评估不同学习范式——包括全监督、弱监督、无监督及基础模型——在真实工业环境中的泛化能力,为研究人员量化工业领域与通用室内场景之间的性能差距提供了精确度量。
衍生相关工作
围绕Industrial3D数据集,已衍生出一系列针对工业点云理解的经典研究工作。ResPointNet++作为其前身PSNet5的扩展,首次将残差学习引入工业MEP点云分割。Boundary-CB方法则针对数据集揭示的极端不平衡问题,提出了结合类别平衡加权与边界感知特征的损失函数。在弱监督学习方面,SQN等方法的评估验证了稀疏标注在工业场景下的有效性。同时,该数据集催生了对于Point-SAM等基础模型在工业领域零样本迁移能力的系统性评测,为后续工业域自适应预训练模型的研究指明了方向。
数据集最近研究
最新研究方向
在工业基础设施数字化领域,Industrial3D数据集正推动点云语义分割研究向跨范式评估与极端类不平衡问题聚焦。该数据集以其612百万标注点规模,首次构建了涵盖全监督、弱监督、无监督及基础模型四大学习范式的工业基准测试,揭示了工业场景中统计稀缺性与几何模糊性的双重危机。前沿研究围绕长尾分布下的类平衡策略展开,探索边界感知特征建模与频率重加权结合的方法,以缓解215:1的极端类不平衡。同时,弱监督学习在0.1%标注比例下展现超越全监督基线的潜力,凸显稀疏标注作为正则化手段的有效性。基础模型如Point-SAM在零样本设定下出现39.95个百分点的领域适应差距,驱动研究朝向工业域自适应预训练与提示工程优化发展。这些进展为Scan-to-BIM、数字孪生构建等工业应用提供了更鲁棒的感知基础,标志着工业点云理解从方法探索迈向系统化基准驱动的新阶段。
相关研究论文
- 1Industrial3D: A Terrestrial LiDAR Point Cloud Dataset and CrossParadigm Benchmark for Industrial Infrastructure香港科技大学·土木与环境工程系; 广东省科学院·广州地理研究所; 东南大学·土木工程学院; 衡阳师范学院·地理与旅游学院; 香港城市大学·建筑与土木工程系; 纽约大学阿布扎比分校·S.M.A.R.T.建筑研究组; 新加坡国立大学·建筑环境系; 中国科学院城市环境研究所·空间智能与城市计算; 中国科学院城市环境研究所·区域与城市生态安全重点实验室 · 2026年
以上内容由遇见数据集搜集并总结生成



