OpenSpatial-3M
收藏arXiv2026-04-09 更新2026-04-10 收录
下载链接:
https://github.com/VINHYU/OpenSpatial
下载链接
链接失效反馈官方服务:
资源简介:
OpenSpatial-3M是由Joy Future Academy、香港大学和莫纳什大学联合创建的大规模空间智能数据集,包含300万条高保真样本,涵盖空间测量、空间关系、相机感知、多视角一致性和场景感知推理五大核心任务。数据集通过3D边界框作为基础表示,结合自动标注和人工标注流程生成,数据来源包括多视角图像和视频关键帧。该数据集旨在解决当前空间智能研究中数据多样性不足和生成流程不透明的问题,为空间推理、机器人导航和具身决策等领域的模型训练提供高质量、可扩展的基础数据支持。
OpenSpatial-3M is a large-scale spatial intelligence dataset jointly created by Joy Future Academy, The University of Hong Kong, and Monash University. It comprises 3 million high-fidelity samples covering five core tasks: spatial measurement, spatial relation, camera perception, multi-view consistency, and scene-aware reasoning. The dataset is generated using 3D bounding boxes as the fundamental representation, combining both automatic and manual annotation pipelines, with data sources including multi-view images and video keyframes. This dataset aims to address the issues of insufficient data diversity and opaque generation pipelines in current spatial intelligence research, providing high-quality, scalable foundational data support for model training in fields such as spatial reasoning, robot navigation, and embodied decision-making.
提供机构:
Joy Future Academy; 香港大学; 莫纳什大学
创建时间:
2026-04-09
原始信息汇总
OpenSpatial 数据集概述
基本信息
- 数据集名称:OpenSpatial
- 性质:一个开源的3D空间理解数据引擎,旨在生成高质量、可扩展、任务多样且高效的数据集。
- 核心目标:弥合海量2D网络数据与复杂3D空间推理之间的差距,为下一代具身AI和世界模型提供全面支持。
- 当前状态:3D数据引擎已开源。模型和数据将在未来两周内发布。
- 相关论文:arXiv:2604.07296 (2025)
- 许可证:Apache License 2.0
主要特性
- 网络数据3D提升:先进的流程,将大规模2D网络图像转换为几何一致的3D表示。
- 多样化数据生成:自动化引擎,用于创建丰富的空间理解数据集,涵盖各种环境和物体级细节。
- 多任务集成:支持广泛的任务,包括3D定位、空间推理和场景描述。
- 全面评估:内置基准测试套件,用于评估不同模型架构的空间理解能力。
- 高效率:针对大规模数据处理进行优化,支持可扩展的分布式计算。
计划发布内容
- OpenSpatial-3M数据集:大规模3M空间理解数据集。
- 空间理解模型:训练好的空间理解模型。
- 评估套件:用于空间任务的综合评估代码。
- 3D提升模块:用于将2D网络数据提升为3D表示的核心引擎。
- 更多任务类型:扩展对更多空间理解任务类型的支持。
文档与资源
- 快速入门:涵盖数据准备、配置结构、标注流程使用以及端到端运行任务。
- 开发指南:涵盖添加新标注任务、流程阶段、提示模板、数据集预处理器以及内部架构参考。
引用
若研究中使用OpenSpatial,请考虑引用相关论文。
搜集汇总
数据集介绍

构建方式
在空间智能研究领域,高质量数据的匮乏长期制约着模型对三维几何与空间关系的深入理解。OpenSpatial-3M数据集的构建基于一套原则化的开源数据引擎,其核心在于采用三维定向包围盒作为基础表征单元。该引擎通过融合人工标注与自动化三维重建两种模式,从多视角图像或视频关键帧中提取场景级的三维几何结构。具体流程包括:首先通过手动标注或基于实例分割与三维点云拟合的自动化流程,为场景中的物体生成精确的三维包围盒;随后,通过投影、可见性过滤与掩码细化,将这些三维锚点转换为帧级别的物体属性索引;最终,基于构建的场景图,通过程序化枚举对象、属性及其关系,系统性地合成覆盖空间测量、空间关系、相机感知、多视图一致性与场景感知推理五大核心任务的问答对。这种以三维几何为中心、结合自动化扩展与结构化合成的构建方式,确保了数据在规模、质量与任务多样性上的高度可控与可扩展性。
特点
OpenSpatial-3M数据集在推动空间智能发展方面展现出若干显著特征。其首要特征在于以三维包围盒为中心的统一表征,这为所有空间任务提供了稳定、视角不变的世界坐标系锚点,使得度量推理与跨视图关联成为可能。其次,数据集具备高度的任务多样性,其内容并非随机堆砌,而是被系统地组织为涵盖五大核心能力的渐进式课程,旨在弥合以自我为中心的观察与稳定的世界坐标理解之间的鸿沟。再者,数据集体现了卓越的规模与质量平衡,其包含的三百万个样本均源于经过严格几何验证的高保真合成过程,同时通过集成来自ScanNet、Matterport3D及网络数据等多种来源,保证了场景覆盖的广泛性。最后,其开源引擎的透明性与模块化设计,使得数据生成过程可追溯、可复现,为深入分析数据属性如何影响空间感知提供了坚实基础。
使用方法
OpenSpatial-3M数据集主要服务于多模态大语言模型在空间理解能力上的监督微调。研究人员可将该数据集作为训练语料,与通用多模态数据按比例混合,对开源视觉语言模型进行指令微调,以系统性提升模型在三维空间度量、关系推理、相机感知等多方面的综合能力。在具体使用中,数据集中以标记图像和结构化场景图为条件的问答对,可直接用于模型训练,其涵盖的单视图与多视图任务促使模型学习从二维观测构建连贯的三维心理表征。此外,得益于数据引擎的模块化设计,使用者可根据研究需求,对特定任务类型或数据生成模块进行可控的消融实验,以探究不同数据设计选择对模型空间泛化能力的影响。该数据集为评估模型在BLINK、AllAngles、MMSI等一系列空间推理基准测试上的性能提供了高质量的预训练资源。
背景与挑战
背景概述
空间智能作为人类水平智能的基石,其发展长期受限于高质量数据的匮乏与生成管道的封闭性。为应对这一挑战,Joy Future Academy、香港大学及蒙纳士大学的研究团队于2026年联合提出了OpenSpatial-3M数据集。该数据集旨在通过一个开源、可控的数据引擎,系统性地生成大规模、高质量的空间理解监督信号。其核心研究问题聚焦于弥合多模态大语言模型在语义表达与空间感知能力之间的鸿沟,特别是解决模型在精确距离感知、多视角一致性与空间认知地图构建等方面的不足。通过构建涵盖空间度量、空间关系、相机感知、多视角一致性与场景感知推理五大基础任务的300万样本数据集,OpenSpatial-3M为推进空间智能研究提供了透明、可扩展的数据基础,显著提升了各类模型在空间推理基准测试上的性能。
当前挑战
OpenSpatial-3M旨在解决的领域核心挑战是克服多模态大语言模型普遍存在的‘空间短视’问题,即模型在特定基准上表现良好,却缺乏在复杂真实世界环境中进行稳健、通用空间推理的能力。这具体体现在模型难以准确处理三维几何度量、维持跨视角的空间逻辑一致性,以及进行需要长期空间记忆的场景级推理。在数据集构建过程中,研究团队面临两大系统性挑战:一是如何从有限的二维视觉线索中,高效、准确地重建出具有真实世界尺度、视角一致的三维空间标注,这需要设计超越传统二维投影的、以三维定向边界框为核心的标注范式;二是如何设计一个可扩展、任务多样化的数据合成管道,以程序化方式生成平衡的问答对,覆盖从基础度量到高层推理的完整空间能力谱系,避免数据分布偏差导致模型能力狭隘化。
常用场景
经典使用场景
在空间智能研究领域,OpenSpatial-3M数据集最经典的使用场景是作为大规模、高质量的监督数据源,用于训练和微调多模态大语言模型(MLLMs)的空间理解能力。该数据集通过其精心设计的五层任务体系——空间度量、空间关系、相机感知、多视图一致性和场景感知推理——为模型提供了从基础几何感知到高级空间逻辑的渐进式学习路径。研究者通常利用该数据集对开源视觉语言模型(如InternVL、Qwen-VL系列)进行监督微调,以系统性地提升模型在复杂三维场景中的感知与推理性能,特别是在需要精确度量、跨视图关联和场景级规划的基准测试中展现卓越效果。
实际应用
OpenSpatial-3M数据集的实际应用价值主要体现在推动具身智能与机器人技术的发展。经过该数据集训练的增强型视觉语言模型,能够更精准地理解环境的三维结构、物体间的空间关系以及相机自身的位姿变化,这些能力是机器人进行自主导航、物体抓取与操纵、以及复杂任务规划的核心前提。例如,在家庭服务或工业巡检场景中,具备高级空间智能的模型可以更可靠地解读多视角监控画面,估算障碍物距离,或为移动机器人规划出安全高效的行动路径。该数据集的开源特性进一步降低了相关技术研发的门槛,使得工业界和学术界能够基于统一、高质量的数据基础,加速开发下一代能够与物理世界进行智能交互的AI系统。
衍生相关工作
OpenSpatial-3M数据集的发布及其背后开源数据引擎的设计理念,为空间智能领域的研究提供了新的基础设施,并有望催生一系列衍生工作。其模块化、可扩展的数据生成流程,为后续研究探索不同数据混合策略、任务课程设计以及数据规模与模型性能的缩放规律提供了理想实验平台。基于该数据集训练的模型在多项空间推理基准上取得的显著性能提升,也为开发更强大的‘空间化’视觉语言模型树立了新的标杆。可以预见,未来工作将围绕如何进一步利用该引擎整合更多样化的数据源(如室外动态场景)、设计更复杂的空间推理任务,以及探索将此类空间先验知识高效迁移至具体机器人控制策略的方法,从而持续拓展AI系统在三维物理世界中的认知与行动边界。
以上内容由遇见数据集搜集并总结生成



