SpaCE-10

github2025-06-10 更新2025-06-11 收录

下载链接：

https://github.com/VisionXLab/SpaCE-10

下载链接

链接失效反馈

官方服务：

资源简介：

SpaCE-10是一个用于评估多模态大语言模型在室内环境中的组合空间智能的基准数据集。它涵盖了10种原子空间能力、8种组合QA类型、5000多个QA对和811个室内场景（ScanNet++、ScanNet、3RScan、ARKitScene），同时支持2D和3D MLLMs的评估。

SpaCE-10 is a benchmark dataset designed to evaluate the combined spatial intelligence of multimodal large language models within indoor environments. It encompasses 10 atomic spatial abilities, 8 types of composite question-answering, over 5,000 QA pairs, and 811 indoor scenes (ScanNet++, ScanNet, 3RScan, ARKitScene), and supports the evaluation of both 2D and 3D MLLMs.

创建时间：

2025-06-05

原始信息汇总

SpaCE-10 数据集概述

基本信息

数据集名称: SpaCE-10
用途: 评估多模态大语言模型（MLLMs）在室内环境中的组合空间智能
主要特点:
- 包含10种原子空间能力
- 8种组合问答类型
- 5,000+问答对
- 811个室内场景（来自ScanNet++、ScanNet、3RScan、ARKitScene）
- 支持2D和3D MLLMs评估

数据集内容

场景来源: ScanNet++, ScanNet, 3RScan, ARKitScene
数据类型: 问答对
数量: 5,000+ QA pairs

评估方法

评估工具: lmms-eval
环境要求: Python 3.10
示例评估命令: bash bash internvl2.5-8b.sh

引用信息

bibtex @article{gong2025space10, title={SpaCE-10: A Comprehensive Benchmark for Multimodal Large Language Models in Compositional Spatial Intelligence}, author={Ziyang Gong, Wenhao Li, Oliver Ma, Songyuan Li, Jiayi Ji, Xue Yang, Gen Luo, Junchi Yan, Rongrong Ji}, journal={arXiv preprint arXiv:XXXX.XXXXX}, year={2025} }

相关链接

项目页面: https://github.com/VisionXLab/SpaCE-10
HuggingFace数据集: https://huggingface.co/datasets/Cusyoung/SpaCE-10

搜集汇总

数据集介绍

构建方式

SpaCE-10数据集作为多模态大语言模型在室内环境中的空间智能评估基准，其构建过程体现了严谨的科学方法。研究团队整合了来自ScanNet++、ScanNet、3RScan和ARKitScene等主流数据源的811个室内场景，通过系统化的标注流程生成了涵盖10种原子空间能力和8种组合问答类型的5000余个QA对。数据采集过程中采用了多维度验证机制，确保每个样本在空间关系和语义理解上的准确性，同时兼顾了2D和3D多模态模型的评估需求。

特点

该数据集在空间智能评估领域展现出鲜明的特色。SpaCE-10通过精心设计的层次化评估体系，将空间能力分解为可量化的原子单元，同时构建了具有挑战性的组合式问答任务。数据集覆盖了从基础物体定位到复杂空间推理的多层次能力评估，其场景多样性保证了模型的泛化性能测试。特别值得注意的是，该基准创新性地统一了2D图像和3D点云模态的评估标准，为跨模态空间理解研究提供了重要平台。

使用方法

研究人员可通过HuggingFace平台便捷获取SpaCE-10数据集资源。评估流程基于lmms-eval框架实现，用户需配置Python3.10环境并安装指定依赖库。典型的使用场景包括：克隆代码仓库后创建虚拟环境，安装评估工具包，随后运行预置的模型测试脚本。对于新型模型的评估，需要预先配置对应的运行环境。数据集提供的标准化评估协议支持研究者系统性地比较不同多模态大语言模型在空间认知任务上的性能表现。

背景与挑战

背景概述

SpaCE-10是由上海交通大学、厦门大学、上海人工智能实验室等机构联合研发的多模态大语言模型（MLLMs）评估基准，专注于室内环境中的组合空间智能。该数据集由Ziyang Gong和Wenhao Li等学者于2025年提出，旨在系统评估MLLMs在空间理解与推理方面的能力。SpaCE-10涵盖了10种原子空间能力、8种组合问答类型，包含超过5000个问答对和811个室内场景数据，涉及ScanNet++、ScanNet、3RScan和ARKitScene等多个来源。作为首个专注于组合空间智能的综合性基准，SpaCE-10为MLLMs在复杂空间认知任务中的性能评估提供了重要工具，推动了多模态人工智能在空间智能领域的发展。

当前挑战

SpaCE-10面临的挑战主要体现在两个方面：领域问题方面，室内空间理解的复杂性要求模型具备跨模态融合和组合推理能力，如何准确评估MLLMs在多层次空间认知任务中的表现成为核心难题；数据构建方面，室内场景的多样性和空间关系的复杂性导致高质量标注数据的获取成本高昂，同时确保不同来源数据（2D/3D）的一致性和可比性也面临技术挑战。此外，设计能够全面评估10种原子空间能力和8种组合问答类型的评估框架，需要克服任务设计的代表性和平衡性问题。

常用场景

经典使用场景

SpaCE-10数据集作为多模态大语言模型（MLLMs）在室内环境中的空间智能评估基准，其经典使用场景主要集中在评估模型在复杂空间理解与推理任务中的表现。通过涵盖10种原子空间能力和8种组合式问答类型，该数据集能够全面测试模型在2D和3D环境中的空间认知能力，为研究者在模型优化和性能提升方面提供了重要参考。

衍生相关工作

SpaCE-10数据集的发布衍生了一系列经典研究工作，包括基于该数据集的模型性能优化、多模态融合算法的改进以及新型评估指标的提出。例如，研究者利用该数据集开发了针对3D MLLMs的评估框架，进一步拓展了空间智能研究的深度和广度。这些工作不仅验证了数据集的科学价值，也为后续研究提供了重要借鉴。

数据集最近研究