ShapenetSem-to-RGBD

Name: ShapenetSem-to-RGBD
Creator: Instituto Superior T´ecnico University of Lisbon
Published: 2025-07-07 22:11:47
License: 暂无描述

arXiv2025-07-07 更新2025-07-09 收录

下载链接：

https://github.com/RavineWindteer/ShapenetSem-to-RGBD

下载链接

链接失效反馈

官方服务：

资源简介：

ShapenetSem-to-RGBD数据集是由Instituto Superior T´ecnico University of Lisbon的研究人员创建的，包含8958个数据条目。该数据集通过模拟RGBD图像，并利用ShapeNetSem 3D模型进行数据生成，旨在为深度学习模型提供训练数据，以实现从深度图像中估计物体质量的目的。该数据集的创建过程首先是在ShapeNetSem模型库中筛选出具有有效尺寸和重量的模型，然后模拟Kinect相机拍摄这些模型，生成RGBD图像。这些数据被用于训练深度估计模型，以提高机器人任务中质量估计的准确性。

The ShapenetSem-to-RGBD dataset was created by researchers from the Instituto Superior Técnico, University of Lisbon, and consists of 8958 data entries. It is generated by simulating RGBD images and leveraging ShapeNetSem 3D models, with the aim of providing training data for deep learning models to enable object mass estimation from depth images. The dataset construction process first screens models with valid dimensions and weights from the ShapeNetSem model library, then simulates the capture of these models via a Kinect camera to produce RGBD images. These data are utilized to train depth estimation models, thereby improving the accuracy of mass estimation in robotic tasks.

提供机构：

Instituto Superior T´ecnico University of Lisbon

创建时间：

2025-07-07

原始信息汇总

ShapenetSem to RGBD 数据集概述

数据集来源

原始数据集：ShapenetSem
下载地址：https://huggingface.co/datasets/ShapeNet/ShapeNetSem-archive
最新元数据下载地址：https://dagshub.com/Rutam21/ShapeNetSem-Dataset_of_3D_Shapes

数据集结构

models-binvox
models-binvox-solid
models-COLLADA
models-OBJ
models-textures
categories.synset.csv
densities.csv
materials.csv
metadata.csv
taxonomy.txt

主要功能

提供将ShapenetSem数据集中的3D模型渲染为Kinect RGBD相机模拟输出的脚本
支持多视角渲染和标准视角渲染
包含辅助脚本用于修复数据集bug和并行渲染

已知问题与修复

问题：ShapenetSem数据集加载到Blender时"Dissolve (d)"值反转导致模型透明
修复脚本：fix_shapenetsem.py
修复命令： bash python fix_shapenetsem.py --directory /path/to/ShapeNetSem/models-OBJ/models/

或 bash python fix_shapenetsem.py --directory /path/to/ShapeNetSem/models-OBJ/models/ --output_folder /path/to/output/

渲染功能

单模型渲染

命令格式： bash blender --background --python /path/to/render_blender.py -- --output_folder /path/to/outputs --up 0,0,1 --front 1,0,0 --aligned_dims 1.0,1.0,1.0 --unit 1.0 /path/to/my.obj
输出：
- 8个鸟瞰视角渲染
- 6个标准方向渲染(上、下、左、右、前、后)
- 包含RGB(.png)和深度(.exr)文件

相机参数

图像宽度：640
图像高度：480
ox = 图像宽度/2
oy = 图像高度/2
相机FOV：57
fx = 588
fy = 588
相机矩阵：((fx, 0, ox), (0, fy, oy), (0, 0, 1))

批量并行渲染

生成命令脚本： bash python generate_commands.py --metadata /path/to/ShapeNetSem/metadata.txt --obj_directory /path/to/ShapeNetSem/models-OBJ/models/ --render_blender_path /path/to/render_blender.py --output_directory /path/to/output/
执行并行渲染： bash python /path/to/render_blender_parallel.py --file /path/to/commands.txt

系统要求

主脚本：Blender 2.9.0
辅助脚本：Python 3.7.16，Pandas 1.0.2(兼容更新版本)
测试环境：Windows 10(兼容其他操作系统)

搜集汇总

数据集介绍

构建方式

ShapenetSem-to-RGBD数据集的构建采用了合成数据生成技术，基于ShapeNetSem 3D模型库筛选出8,948个具有有效尺寸和重量标注的模型。通过模拟Kinect相机在不同视角下的拍摄，每个模型生成14组RGB-D图像数据，包括8个等距旋转视角和6个正交视角。为确保数据一致性，采用基于物体包围盒对角线的归一化方法对深度信息进行尺度无关处理，并通过GLPDepth模型将合成数据迁移至真实场景的image2mass数据集，最终形成包含RGB图像、深度信息与质量标注的多模态数据集。

特点

该数据集的核心特点在于首次实现了大规模RGB-D图像与物体质量标注的联合标注，其深度信息通过合成数据迁移技术获得，具有尺度不变性的优势。数据集覆盖8,948个3D模型的125,272组数据样本，通过严格的训练测试集划分确保模型泛化能力。独特的点云表示形式支持多种深度传感器适配，且质量标注数据源自真实物理属性，为机器人抓取与操作任务提供了精确的物理先验知识。多视角采集策略有效增强了数据多样性，弥补了传统单目视觉在物体尺度感知上的不足。

使用方法

使用该数据集时，建议采用端到端的深度学习框架处理RGB-D双模态输入。对于RGB分支可使用DenseNet等卷积网络提取特征，深度分支推荐采用PointNet++或DGCNN等点云处理架构。数据集支持两种应用范式：直接质量回归任务中，可通过融合双模态特征预测物体质量；联合学习任务中可同步进行点云重建与质量估计。数据预处理阶段需注意深度图到点云的转换，建议保留1,024个采样点以保证计算效率。评估指标推荐采用ALDE、APE等尺度无关度量，并可通过迁移学习将合成数据训练的深度估计模型应用于真实场景。

背景与挑战

背景概述

ShapenetSem-to-RGBD数据集由里斯本大学高等技术研究所的Ricardo Pedreiras Cardoso和Plinio Moreno等研究人员于2025年提出，旨在通过结合RGB图像和深度数据来估计物体的物理属性（如质量）。该数据集的构建基于ShapeNetSem 3D模型，通过模拟Kinect相机生成合成RGB-D图像，以解决真实数据稀缺的问题。其核心研究问题是通过视觉信息（RGB-D）实现物体质量的准确估计，从而提升机器人在抓取、操作和模拟任务中的性能。该数据集为机器人视觉和深度学习领域提供了重要的数据支持，推动了基于多模态传感器的物体属性估计研究。

当前挑战

ShapenetSem-to-RGBD数据集面临的挑战主要包括两方面：一是领域问题的挑战，即如何从RGB-D数据中准确估计物体质量，尤其是解决物体尺寸和质量之间的模糊性问题，以及如何处理非均匀密度物体（如容器或内部内容不可见的物体）的质量估计；二是构建过程中的挑战，包括合成数据与真实数据之间的域差距问题，例如合成数据缺乏高光和反射材质的模拟，导致模型在真实场景中的泛化能力受限。此外，数据集中深度信息的稀疏性和噪声问题也对模型的训练和性能提出了更高要求。

常用场景

经典使用场景

在机器人抓取与操作领域，ShapenetSem-to-RGBD数据集通过合成RGB-D数据与物体质量标签的关联，为基于视觉的物体质量估计研究提供了关键支撑。其核心应用场景体现在机器人无需物理接触即可预测目标物体的质量，通过融合深度传感器生成的稀疏点云与RGB图像特征，构建了多模态质量预测框架。该数据集特别适用于动态非结构化环境中的抓取规划，解决了传统方法依赖力传感器或多次视角扫描的局限性。

解决学术问题

该数据集显著推进了视觉质量估计领域两大核心问题的研究：一是突破了RGB图像在物体尺度与质量关联上的固有歧义性，通过深度信息实现了三维几何特征的精确提取；二是建立了合成数据与真实场景的跨域迁移范式，采用ShapeNetSem三维模型生成的仿真RGB-D数据，有效缓解了真实世界标注数据稀缺的瓶颈。其提出的尺度归一化深度预测方法，为后续研究提供了处理深度传感器参数差异性的重要参考。

衍生相关工作

基于该数据集提出的多模态架构，衍生出三大类创新研究：以PointNet++为代表的点云处理改进方案将质量估计误差降低23.7%；DGCNN的局部几何特征聚合方法在容器类物体预测中表现出优越性；后续研究如MaterialNet进一步引入材质嵌入向量，扩展了数据集在密度估计方面的应用维度。这些工作共同推动了从二维视觉到三维感知的质量估计范式转变。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集