Yinxuan/OCTScenes
收藏OCTScenes 数据集概述
数据集描述
OCTScenes 数据集是一个多功能的真实世界桌面场景数据集,用于对象中心学习,包含 5000 个桌面场景,共 15 种对象。每个场景以 360 度视角捕捉 60 帧图像,适用于基于单图像、视频和多视角的对象中心学习方法的评估。
支持的任务和排行榜
- 对象中心学习:该数据集可用于训练模型进行对象中心学习,旨在无监督的方式下学习组合场景表示。模型的分割性能通过调整互信息(AMI)、调整兰德指数(ARI)和平均交并比(mIoU)来衡量。重建性能通过最小化平方误差(MSE)和学习感知图像块相似性(LPIPS)来衡量。
数据集结构
数据集提供三种不同分辨率的图像:640x480、256x256 和 128x128。每张图像的命名格式为 [scene_id]_[frame_id].png,分别存储在 ./640x480、./256x256 和 ./128x128 目录下。图像文件使用 tar 压缩,压缩文件名以分辨率开头,例如 image_128x128_。
数据实例
每个数据实例包含一个 RGB 图像、其深度图、相机内参矩阵、相机姿态和分割图(训练和验证集中的分割图为空)。
数据字段
scene_id:每个示例的字符串场景标识符frame_id:每个示例的字符串帧标识符resolution:每个示例的图像分辨率字符串(例如 640x480、256x256、128x128)image:包含图像的PIL.Image.Image对象depth:包含深度图的PIL.Image.Image对象segment:包含分割图的PIL.Image.Image对象,每个像素的整数表示对象的索引(范围从 1 到 10,0 表示背景)intrinsic_matrix:每个图像的相机内参矩阵numpy.ndarraycamera_pose:每个图像的相机姿态numpy.ndarray
数据分割
数据集分为两个子集,以创建不同难度级别的数据集。两个子集随机分为训练、验证和测试集。验证和测试集各包含 100 个场景,其余场景构成训练集。只有测试集中的数据包含分割注释以进行评估。
- OCTScenes-A:包含 3200 个场景(
scene_id从 0000 到 3199),仅包含前 11 种对象类型,场景包含 1 到 6 个对象,相对较小且较简单。 - OCTScenes-B:包含 5000 个场景(
scene_id从 0000 到 4999),包含所有 15 种对象类型,场景包含 1 到 10 个对象,较大且较复杂。
数据集创建
数据收集和归一化
使用配备 Orbbec Astra 3D 相机的三轮全方位轮式机器人进行数据收集。数据收集在一个学校会议室中进行,一个小木桌放置在地板上并被挡板包围。随机选择的 1 到 10 个对象手动放置在桌子上,没有堆叠。数据直接从这些视觉场景中收集。
注释
- 分割注释:使用 EISeg 进行交互式自动图像分割注释。手动标记每个场景的 6 张图像,并使用标记的图像训练监督实时语义分割模型 PP-LiteSeg,以注释剩余数据。
- 内参矩阵:通过相机标定获得相机内参矩阵。
- 相机姿态:通过使用 COLMAP 进行 3D 重建获得每个图像的相机姿态。
其他信息
数据集创建者
数据集由 Yinxuan Huang、Tonglin Chen、Zhimeng Shen、Jinghao Huang、Bin Li 和 Xiangyang Xue 创建,他们是复旦大学视觉智能实验室的成员。
许可信息
数据集在 CC-BY-NC 4.0 许可下提供。
引用信息
@article{huang2023octscenes, title={OCTScenes: A Versatile Real-World Dataset of Tabletop Scenes for Object-Centric Learning}, author={Huang, Yinxuan and Chen, Tonglin and Shen, Zhimeng and Huang, Jinghao and Li, Bin and Xue, Xiangyang}, journal={arXiv preprint arXiv:2306.09682}, year={2023} }




