JoyAI-Image-OpenSpatial

Hugging Face2026-04-13 更新2026-04-14 收录

下载链接：

https://huggingface.co/datasets/jdopensource/JoyAI-Image-OpenSpatial

下载链接

链接失效反馈

官方服务：

资源简介：

JoyAI-Image-OpenSpatial 是一个基于 OpenSpatial 构建的空间理解数据集，用于 JoyAI-Image 项目。数据集以 parquet 文件格式存储，包含以下字段：'conversations'（多轮对话对，包含人类提问和 GPT 回答，涉及相机参数和空间推理问题，以及结构化 3D 标注如 3D 边界框）、'id'（唯一样本标识符）、'data_source'（源数据集名称，如 arkitscenes、scannet、hypersim、Ego-Exo4D）、'images'（嵌入的 PNG 图像数据及原始路径）、'type'（数据类型标签）、'meta_info'（包含图像尺寸和调整信息的 JSON 字符串）。该数据集适用于空间理解和 3D 标注相关的任务。

JoyAI-Image-OpenSpatial is a spatial understanding dataset constructed based on OpenSpatial, designed for the JoyAI-Image project. The dataset is stored in Parquet file format and includes the following fields: "conversations": multi-turn dialogue pairs containing human queries and GPT responses, covering camera parameters, spatial reasoning problems, as well as structured 3D annotations such as 3D bounding boxes; "id": unique sample identifier; "data_source": source dataset name, e.g., arkitscenes, scannet, hypersim, Ego-Exo4D; "images": embedded PNG image data and original paths; "type": data type label; "meta_info": JSON string containing image dimensions and adjustment information. This dataset is applicable to tasks related to spatial understanding and 3D annotation.

创建时间：

2026-04-10

原始信息汇总

JoyAI-Image-OpenSpatial 数据集概述

基本信息

许可证: Apache-2.0
任务类别: 视觉问答、图像到文本
语言: 英语
标签: 空间理解、3D视觉、深度估计、3D基础、多视图
规模类别: 1M<n<10M
配置名称: default
数据文件: train 分割，路径为 data/*.parquet
下载大小: 2362232012800 字节
数据集大小: 2362232012800 字节

数据集详情

描述: 基于 OpenSpatial 构建的空间理解数据集，用于 JoyAI-Image。
样本数量: 训练集包含 2,335,335 个样本。
数据来源: 涵盖 9 个源数据集，包括 ARKitScenes, ScanNet, ScanNet++, HyperSim, Matterport3D, WildRGB-D, 和 Ego-Exo4D。
任务范围: 覆盖广泛的空间理解能力，包括 3D 物体基础、深度排序、空间关系推理、距离估计等。
数据状态: 剩余的网页数据将在未来版本中开源。

数据特征

数据集包含以下特征列：

conversations: 列表类型，包含多轮对话对（human / gpt）。human 回合提供相机参数和空间推理问题；gpt 回合提供结构化的空间标注（例如，3D 边界框、深度排序、空间关系）。
id: 字符串类型，唯一样本标识符。
data_source: 字符串类型，源数据集名称（例如 arkitscenes, scannet, scannetpp, hypersim, matterport3d, wildrgbd, Ego-Exo4D）。
images: 列表类型，包含嵌入的图像数据（PNG 字节）和路径。
type: 字符串类型，数据类型标签。
meta_info: 字符串类型，包含图像尺寸（width, height, resized_width, resized_height）的 JSON 字符串。

快速开始

使用以下代码加载数据集： python from datasets import load_dataset ds = load_dataset("jdopensource/JoyAI-Image-OpenSpatial", split="train", streaming=True) for sample in ds: print(sample["conversations"]) break

待办事项

发布 3D 提升数据。

搜集汇总

数据集介绍

构建方式

在三维视觉与空间理解领域，JoyAI-Image-OpenSpatial数据集通过整合九个权威的公开三维场景数据集构建而成，包括ARKitScenes、ScanNet、ScanNet++、HyperSim、Matterport3D、WildRGB-D以及Ego-Exo4D。该数据集采用多轮对话形式，将人类提问与结构化空间标注配对，每一轮对话均结合相机参数与空间推理问题，生成涵盖三维物体定位、深度排序、空间关系推理及距离估计等多种任务的样本，最终形成约233万条高质量视觉空间问答数据。

特点

该数据集的核心特点在于其广泛覆盖多源三维场景与丰富的空间理解任务。数据来源于九个不同规模与场景类型的公开数据集，确保了样本的多样性与代表性。任务设计全面，不仅包含基础的三维物体定位与深度估计，还涉及复杂的空间关系推理与距离量化，为模型提供了多层次的空间认知挑战。数据格式统一，每一条样本均包含多轮对话、嵌入式图像数据及元信息，支持高效的流式加载与处理，便于大规模预训练与微调应用。

使用方法

使用该数据集时，可通过Hugging Face的datasets库以流式方式加载，有效管理大规模数据。开发者可以轻松访问数据中的对话对、图像字节及元信息，快速构建视觉语言模型训练流程。数据集中的人类提问与GPT标注的结构化输出，可直接用于监督学习，训练模型在给定相机参数下进行空间推理。其标准化的Parquet格式与清晰的字段定义，确保了与现有机器学习框架的无缝集成，适用于三维视觉问答、空间关系理解及多模态大模型的前沿研究。

背景与挑战

背景概述

随着三维视觉与空间理解技术的快速发展，对大规模、高质量视觉空间问答数据的需求日益迫切。JoyAI-Image-OpenSpatial数据集应运而生，由京东开源团队基于OpenSpatial项目构建，并于近期发布。该数据集整合了ARKitScenes、ScanNet、Matterport3D等九个权威三维场景数据集，旨在通过约230万轮多轮视觉空间问答样本，系统性地探索三维物体定位、深度排序、空间关系推理等核心研究问题。其构建不仅推动了视觉语言模型在空间认知能力上的进步，也为三维视觉与具身智能等前沿领域提供了重要的数据支撑。

当前挑战

在视觉空间理解领域，模型需从二维图像中准确推断三维空间结构，这涉及复杂的几何推理与跨模态对齐挑战。具体而言，任务要求模型理解深度顺序、估计相对距离并解析物体间的空间关系，这些能力对现有视觉问答系统构成了显著考验。数据构建过程中，团队面临多源异构数据融合的难题，包括不同数据集在坐标系、标注标准与场景尺度上的差异，以及大规模高质量空间标注的生成与校验，这些因素共同增加了数据集的构建复杂度与技术要求。

常用场景

经典使用场景

在三维视觉与空间理解领域，JoyAI-Image-OpenSpatial数据集为多模态大语言模型提供了丰富的视觉空间问答样本。其经典使用场景集中于训练模型从多视角图像中解析三维场景结构，例如通过人类提问与模型回答的对话形式，引导模型执行物体三维定位、深度顺序推理及空间关系判断等任务。该数据集整合了多个权威三维数据集，构建了大规模、多样化的视觉空间对话数据，有效支撑了模型在复杂环境下的空间认知能力评估与优化。

实际应用

在实际应用层面，该数据集为增强现实、机器人导航及智能交互系统提供了关键训练资源。例如，在AR场景中，模型可利用数据集学习从二维图像推断三维物体位置与空间布局，实现更精准的虚拟物体叠加；在自主机器人领域，模型通过深度顺序与距离估计能力，辅助路径规划与环境感知。这些应用依托于数据集的大规模多视角样本，能够有效提升系统在真实复杂环境中的空间决策准确性。

衍生相关工作

基于JoyAI-Image-OpenSpatial数据集，已衍生出一系列经典研究工作，主要集中在多模态空间推理模型的架构创新与评估框架构建。例如，部分研究利用其多轮对话数据开发端到端的视觉语言模型，实现从图像到三维注释的联合学习；另一些工作则借助其多样化的任务定义，建立了统一的空间理解评测基准，促进了不同模型在深度排序、关系推理等子任务上的性能比较与迭代优化。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集