SURPRISE3D

Name: SURPRISE3D
Creator: 人工智能与机器人实验室（AI2Robotic）
Published: 2025-07-10 22:01:24
License: 暂无描述

arXiv2025-07-10 更新2025-07-12 收录

下载链接：

https://github.com/liziwennba/SUPRISE

下载链接

链接失效反馈

官方服务：

资源简介：

SURPRISE3D是一个用于评估复杂3D场景中语言引导的空间推理分割的数据集。该数据集由来自ScanNet++ v2的900多个详细室内场景中的超过20万个视觉语言对组成，包括超过2800个独特的物体类别。数据集包含8.9万多个人类注释的空间查询，这些查询在空间理解中避免了对象名称，从而减轻了捷径偏差。这些查询全面涵盖了各种空间推理技能，如相对位置、叙事视角、参数化视角和绝对距离推理。SURPRISE3D旨在促进空间感知人工智能的进步，为有效的具身交互和机器人规划铺平道路。

SURPRISE3D is a dataset for evaluating language-guided spatial reasoning segmentation in complex 3D scenes. It consists of over 200,000 visual-language pairs sourced from more than 900 detailed indoor scenes in ScanNet++ v2, encompassing over 2,800 unique object categories. The dataset contains more than 89,000 human-annotated spatial queries that avoid using object names during spatial understanding, thereby mitigating shortcut bias. These queries comprehensively cover diverse spatial reasoning skills, such as relative position, narrative perspective, parametric perspective, and absolute distance reasoning. SURPRISE3D aims to advance the progress of spatially aware AI, paving the way for effective embodied interaction and robotic planning.

提供机构：

人工智能与机器人实验室（AI2Robotic）

创建时间：

2025-07-10

原始信息汇总

Surprise3D数据集概述

数据集简介

名称: Surprise3D: A Dataset for Spatial Understanding and Reasoning in Complex 3D Scenes
作者: Jiaxin Huang, Ziwen Li, Hanlue Zhang
机构: MBZUAI
论文链接: https://arxiv.org/abs/your_arxiv_id

数据集特点

设计目的: 评估复杂3D场景中语言引导的空间推理分割能力
核心优势: 通过排除对象名称的查询设计，强调空间推理，减少语义线索带来的偏差
数据规模:
- 200k+ 视觉-语言对
- 900+ 室内场景（来自ScanNet++）
- 89k+ 人工标注的空间查询
- 2.8k 独特对象类别

空间推理技能覆盖

相对位置（如"Find the object behind the chair."）
叙述视角（如"Locate the object visible from the sofa."）
参数化视角（如"Select the object 2 meters to the left of the table."）
绝对距离推理（如"Identify the object exactly 3 meters in front of you."）

数据分析

针对低频对象的增强
按问题类型划分的对象频率分析（Top 15对象）
问题类型分布可视化

数据下载

下载地址: https://huggingface.co/datasets/hhllzz/surprise-3d

训练与评估

基于Reason3D代码库修改
支持ScanNet++数据预处理
支持Reason3D在Surprise3D上的分割任务
相关脚本路径: ./Models/reason3d

致谢

感谢Reason3D（https://github.com/KuanchihHuang/Reason3D）的作者提供了基础工作

搜集汇总

数据集介绍

构建方式

SURPRISE3D数据集构建于ScanNet++ v2的900多个室内场景之上，通过双轨标注流程确保数据的多样性与质量。空间推理标注由人工完成，涵盖相对位置、叙述视角、参数视角及绝对距离推理等复杂查询，刻意避免对象名称以减少语义捷径。常识与人类意图推理部分则采用LLM生成候选问题，经人工验证后纳入数据集。标注过程中实施了严格的消歧准则、稀有对象采样及多人验证机制，确保查询的清晰性与空间关系的精确性。

特点

该数据集包含超过20万条语言-3D分割对，覆盖2800余种对象类别，其核心特点在于空间查询的复杂性与去语义化设计。89K+人工标注的问题彻底剥离对象名称依赖，强制模型通过几何关系进行推理，如‘距离门最近的椅子’或‘你左侧的教具’。数据集均衡覆盖四大空间推理类型（相对位置、叙述视角、参数视角、绝对距离）及常识意图推理，并引入3D-SRS基准套件，提供标准化评估协议与细粒度性能诊断指标。

使用方法

SURPRISE3D支持3D空间推理分割任务的训练与评估，需将3D场景点云与语言查询作为输入，输出符合空间约束的对象掩码。使用时应遵循场景级划分的官方数据拆分，以mIoU为主要评估指标。对于零样本评估，可直接测试预训练模型在隐含查询上的表现；微调时建议结合稀有对象增强策略以提升长尾类别性能。数据集的相机参数记录支持视角相关推理，而3D-SRS基准提供的诊断工具可分析模型在不同推理类型上的薄弱环节。

背景与挑战

背景概述

SURPRISE3D是由MBZUAI、悉尼大学、AI2Robotic、德州农工大学和墨尔本大学的研究团队于2025年提出的一个创新性数据集，旨在解决3D视觉与语言融合领域中的空间推理问题。该数据集基于ScanNet++ v2构建，包含900多个室内场景和超过200,000个视觉-语言对，涵盖2,800多个独特物体类别。其核心研究问题是评估复杂3D场景中语言引导的空间推理分割能力，通过精心设计的89,000多个人工标注的空间查询（刻意避免使用物体名称）来消除语义捷径偏差。SURPRISE3D首次系统性地定义了相对位置、叙述视角、参数视角和绝对距离推理等空间推理技能，为具身AI和机器人系统的空间理解能力评估设立了新标准。

当前挑战

SURPRISE3D面临的挑战主要体现在两个方面：领域问题方面，现有3D视觉语言模型过度依赖显式物体名称（如ScanRefer数据集），导致模型通过类别检测而非真实空间推理解决问题；构建过程方面，需要克服LLM生成空间推理标注的保真度不足问题，为此设计了人工参与的标注流程。具体挑战包括：1) 消除语义捷径后模型性能显著下降（当前最优模型在零样本设置下平均mIoU仅8.89%）；2) 处理复杂空间关系时需解决几何可变性和遮挡问题；3) 保持Gricean会话准则下标注查询的清晰性与空间特异性；4) 平衡2,800多个物体类别的覆盖范围，特别是对低频物体的充分采样。

常用场景

经典使用场景

SURPRISE3D数据集在3D视觉与语言融合领域具有广泛的应用价值，尤其在空间推理任务中表现突出。该数据集通过精心设计的空间查询，如相对位置、叙事视角、参数化视角和绝对距离推理，为模型提供了丰富的训练和评估场景。其经典使用场景包括语言引导的3D空间推理分割任务，模型需要根据自然语言描述在复杂3D场景中准确定位目标对象。例如，给定查询“距离门最近的椅子”，模型需在点云数据中分割出符合该空间关系的椅子实例。

实际应用

在实际应用层面，SURPRISE3D为服务机器人、智能家居系统等具身AI应用提供了关键技术支持。例如，在餐厅服务场景中，机器人需要理解“沙发左侧的餐桌”这类空间指令；在家庭环境中，助手需根据“距离我2米的地板灯”等绝对距离描述进行定位。数据集涵盖的900+室内场景和28k+物体类别，使其能够支持复杂环境下的多模态交互系统开发，显著提升了机器人在真实世界中的空间认知和任务执行能力。

衍生相关工作

该数据集已衍生出多个重要研究方向，包括3D多模态大语言模型适配（如MLLMfor3D）、空间推理分割框架（如Reason3D）以及意图驱动的3D感知系统（如Intent3D）。其提出的3D-SRS基准套件被广泛用于评估模型在叙事视角、参数化视角等细分任务上的表现。相关工作还探索了如何将人类常识推理与几何理解相结合，例如通过LLM生成的功能性查询来增强空间语义理解，为3D开放词汇分割等前沿课题提供了新思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集