COCO-3D, Objects365-v2-3D

github2025-10-01 更新2025-10-07 收录

下载链接：

https://github.com/ZhangGongjie/2D-3D-Lifting

下载链接

链接失效反馈

官方服务：

资源简介：

通过集成深度估计、相机校准和尺度校准，将单视图图像转换为全面、尺度和外观逼真的3D表示，包括点云、相机姿态、深度图和伪RGB-D。这些生成的数据集弥合了图像库与空间场景理解需求之间的差距，自动从图像生成真实、尺度感知的3D数据，显著降低数据收集成本，并为推进空间智能开辟新途径。

By integrating depth estimation, camera calibration and scale calibration, the generated datasets convert single-view images into comprehensive, scale-consistent and photorealistic 3D representations, including point clouds, camera poses, depth maps and pseudo RGB-D data. These datasets bridge the gap between image repositories and the demands for spatial scene understanding, automatically generate photorealistic, scale-aware 3D data from images, significantly reduce data collection costs, and open up new avenues for advancing spatial intelligence.

创建时间：

2025-09-21

原始信息汇总

数据集概述

基本信息

数据集名称: COCO-3D 和 Objects365-v2-3D
研究论文: Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting
会议: ICCV 2025 Highlight
论文链接: https://www.arxiv.org/abs/2507.18678
项目页面: https://zhanggongjie.github.io/TowardsSSI-page/

核心方法

通过可扩展的流水线将单视角图像转换为全面的3D表示，包括：

点云
相机位姿
深度图
伪RGB-D数据

技术流程

集成以下三个核心模块：

深度估计
相机标定
尺度标定

数据集生成

输入要求

MS-COCO数据集图像
对应的标注文件

生成命令

bash python generate_spatial_img_coco.py -i /path/to/Datasets/coco/train2017 -a /path/to/Datasets/coco/annotations/instances_train2017.json -o ./path/to/output/

验证功能

空间图像验证

验证3D场景重建的正确性：

语义有意义的点云
正确的尺度表示
Z轴向上指向

点云标注验证

确保点云与标注对齐：

实例用不同颜色标记
正确的空间边界

环境要求

Python 3.8+
PyTorch > 2.0 with CUDA支持
系统依赖：libgl1-mesa-dev, libglib2.0-0, ffmpeg等

引用

bibtex @inproceedings{miao2025towards, title={Towards Scalable Spatial Intelligence via 2D-to-3D Data Lifting}, author={Miao, Xingyu and Duan, Haoran and Qian, Quanhao and Wang, Jiuniu and Long, Yang and Shao, Ling and Zhao, Deli and Xu, Ran and Zhang, Gongjie}, booktitle={Proceedings of the IEEE/CVF International Conference on Computer Vision}, year={2025} }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，三维数据稀缺成为制约空间智能发展的瓶颈。该数据集通过创新的二维至三维数据提升技术构建，集成深度估计、相机标定与尺度校准模块，将单视角图像转化为包含点云、相机位姿、深度图及伪RGBD信息的完整三维表示。整个过程自动化执行，显著降低了传统三维数据采集对专业传感器与人工标注的依赖，实现了从海量二维图像资源到规模化三维场景数据的高效转化。

特点

作为面向空间智能研究的重要资源，该数据集具备尺度感知与外观真实性的核心特性。其生成的三维表示严格遵循物理空间约束，点云结构语义清晰，深度信息与色彩纹理高度对齐。数据集覆盖多样化的场景与对象类别，支持从基础三维感知到多模态大语言模型推理的广泛任务，为三维视觉研究提供了兼具规模性与真实性的基准数据。

使用方法

研究者可通过标准化流程快速启用该数据集。运行生成脚本指定原始图像路径与标注文件，系统将自动输出空间图像及其三维衍生数据。验证模块支持对点云重建质量与标注对齐度的可视化检查，确保数据可靠性。该数据集可直接应用于三维目标检测、场景理解等任务，其结构化输出格式兼容主流深度学习框架，为空间智能算法的开发与评估提供完整支持。

背景与挑战

背景概述

三维空间智能作为人工智能领域的前沿方向，其发展长期受限于大规模三维数据集的稀缺性。传统三维数据采集依赖专业传感器与人工标注，成本高昂且效率低下。2025年，由多机构联合发布的COCO-3D与Objects365-v2-3D数据集，通过创新性二维到三维数据转换技术，实现了从单视角图像生成包含点云、相机位姿、深度图等要素的规模化三维表征。该工作通过集成深度估计与相机标定技术，有效弥合了海量二维图像与三维场景理解需求之间的鸿沟，为三维目标检测、空间推理等任务提供了关键数据支撑。

当前挑战

在三维空间智能领域，核心挑战在于如何从二维图像中恢复具有真实尺度与几何一致性的三维场景结构。具体表现为：单视角图像缺乏深度信息导致的几何歧义性问题，以及跨场景尺度校准的复杂性。在数据集构建过程中，需攻克深度估计模型在复杂光照条件下的鲁棒性难题，解决相机参数自动标定与真实物理尺度的对齐问题，同时确保生成的点云数据与原始二维标注在语义层面的精确对应。这些技术瓶颈直接影响了三维感知任务的精度与泛化能力。

常用场景

经典使用场景

在三维视觉研究领域，COCO-3D与Objects365-v2-3D数据集通过二维图像的三维重建机制，为空间感知任务提供了关键支撑。该数据集最典型的应用场景包括三维目标检测与场景理解，研究者可基于其包含的点云、深度图及相机参数，训练模型从单视角图像中还原物体的几何结构与空间关系。这类数据在自动驾驶的环境感知模块中尤为关键，能够帮助系统准确识别道路要素的三维轮廓。

衍生相关工作

该数据集的发布催生了系列创新研究，尤其在跨模态三维理解方向产生深远影响。基于其构建的基准测试推动了端到端三维生成网络的发展，相关成果已延伸至神经辐射场与隐式三维表示的学习框架。在具身智能领域，衍生工作通过融合该数据集的空间先验知识，显著提升了智能体在物理环境中的操作与推理能力。

数据集最近研究