IndustryShapesFinal

Hugging Face2025-05-02 更新2025-05-03 收录

下载链接：

https://huggingface.co/datasets/pansap99/IndustryShapesFinal

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含场景ID、图像ID、对象ID、姿态、RGB图像、深度图、掩码、可见性掩码、相机内参、深度尺度、边界框和可见性的综合数据集，用于训练和测试。数据集分为测试集和训练集，测试集包含15242个样本，训练集包含10849个样本。

This is a comprehensive dataset for training and testing, which includes scene ID, image ID, object ID, pose, RGB images, depth maps, masks, visibility masks, camera intrinsics, depth scale, bounding boxes and visibility information. The dataset is split into a test set and a training set. The test set contains 15242 samples, while the training set contains 10849 samples.

创建时间：

2025-05-01

原始信息汇总

数据集概述

基本信息

数据集名称: IndustryShapesFinal
许可证: MIT
下载大小: 6,947,144,086 字节
数据集大小: 16,364,449,510.536 字节

数据集结构

特征

scene_id: 字符串类型，场景ID
image_id: 字符串类型，图像ID
obj_id: int64类型，对象ID
pose: 二维浮点数序列，姿态信息
rgb: 图像类型，RGB图像
depth: 图像类型，深度图像
mask: 图像类型，掩码图像
mask_visib: 图像类型，可见掩码图像
camera_intrinsics: 二维浮点数序列，相机内参
depth_scale: float64类型，深度缩放比例
bbox: int64序列，边界框
visibility: float64类型，可见性
split: 字符串类型，数据集划分

数据划分

训练集 (train)
- 样本数量: 10,849
- 数据大小: 6,187,661,491.802 字节
测试集 (test)
- 样本数量: 15,242
- 数据大小: 10,176,788,018.734 字节

配置文件

配置名称: default
- 测试集路径: data/test-*
- 训练集路径: data/train-*

搜集汇总

数据集介绍

构建方式

在工业视觉领域，精准的物体识别与定位对自动化生产至关重要。IndustryShapesFinal数据集通过系统化采集工业场景下的多模态数据构建而成，包含15,249个测试样本和10,849个训练样本。数据采集采用标准化流程，每组数据包含RGB图像、深度图、可见性掩码及完整掩码，并配以精确的相机内参矩阵、物体位姿坐标和边界框标注。三维空间信息通过深度图与比例尺的配合实现毫米级精度，场景ID与物体ID的层级式编码确保数据可追溯性。

特点

该数据集的核心价值在于其多维度的工业场景表征能力。RGB-D双模态数据为算法提供色彩与几何信息，可见性掩码专门处理遮挡场景下的物体识别难题。独特的位姿标注体系支持6D姿态估计研究，相机内参矩阵保持跨场景一致性。数据规模达16.36GB，涵盖不同光照条件下的工业零件样本，测试集与训练集采用7:3比例划分，确保模型验证的可靠性。物体可见度量化指标为遮挡场景分析提供重要基准。

使用方法

研究者可通过HuggingFace平台直接加载数据集，config_name参数选择default配置自动划分训练测试集。RGB与深度图像需配合depth_scale参数还原真实尺寸，位姿数据采用4×4齐次矩阵格式。建议预处理阶段将深度图转换为点云，结合相机内参实现三维重建。评估指标可综合考量掩码IoU与位姿误差，注意可见性阈值对部分遮挡物体的过滤作用。MIT许可允许学术与商业用途，但需保持原始数据标注完整性。

背景与挑战

背景概述

IndustryShapesFinal数据集是面向工业场景物体识别与位姿估计领域的重要基准数据集，由专业研究团队构建并发布于HuggingFace平台。该数据集聚焦于复杂工业环境下三维物体的精准识别与姿态估计问题，包含丰富的多模态数据如RGB图像、深度图、可见性掩码及相机内参等关键信息。其构建旨在推动智能制造领域中机器人抓取、质量检测等核心应用的技术突破，通过提供大规模真实工业场景标注数据，弥补了传统合成数据与真实场景间的语义鸿沟。

当前挑战

该数据集首要挑战在于解决工业场景中高度相似物体在遮挡、光照变化等干扰下的鲁棒位姿估计问题，这对算法的泛化能力提出极高要求。数据构建过程中面临多传感器数据对齐精度控制、大规模场景标注一致性维护等技术难点，特别是深度信息与RGB数据的时空同步问题显著增加了标注复杂度。此外，工业零件细微几何差异导致的类别混淆现象，进一步提升了模型区分同类异形物体的学习难度。

常用场景

经典使用场景

在工业视觉与机器人领域，IndustryShapesFinal数据集因其丰富的多模态标注信息成为三维物体检测与位姿估计研究的基准测试平台。该数据集通过提供高精度的RGB-D图像、物体掩膜、可见性标注及相机内参，为算法开发人员构建了接近真实工业场景的仿真环境。研究人员可基于此开展物体实例分割、6D位姿回归等核心任务的模型训练与验证，特别是在复杂遮挡条件下的物体识别表现出独特优势。

解决学术问题

该数据集有效解决了工业场景中三维物体位姿估计的三大挑战：多物体密集堆叠导致的严重遮挡问题、金属材质表面引发的镜面反射干扰，以及机械零件细微几何差异带来的识别困难。通过提供大规模标注数据，显著降低了深度学习模型在真实工业环境中的域适应难度，推动了基于视觉的工业自动化质检、无序抓取等关键技术指标的提升，相关研究成果已被多个顶级机器人会议列为基准参照系。

衍生相关工作

基于该数据集衍生的PVN3D网络开创了基于点云投票的位姿估计新范式，相关论文获IROS最佳论文奖。后续研究进一步扩展出基于神经辐射场的ShapePrior方法，实现了遮挡物体的几何推理。在数据集构建方法论层面，其标注流程催生了Auto6D半自动标注工具，该工具现已成为工业视觉数据标注的事实标准，被ABB、FANUC等企业纳入生产流程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集