Struct2D-Set

Name: Struct2D-Set
Creator: 东北大学，微软研究院，南加州大学，加州大学圣克鲁兹分校
Published: 2025-06-05 01:58:04
License: 暂无描述

arXiv2025-06-05 更新2025-06-06 收录

下载链接：

https://github.com/neu-vi/struct2d

下载链接

链接失效反馈

官方服务：

资源简介：

Struct2D-Set是一个大规模的指令微调数据集，包含来自3D室内场景的20万个细粒度的QA对，涵盖八个与具身AI相关的空间推理类别。该数据集通过自动化流程自动生成，利用原始3D数据集中提供的真实对象标注。Struct2D-Set旨在帮助大型多模态模型（LMMs）获得丰富的3D空间推理技能，通过指令微调仅使用结构化2D表示，无需直接访问3D点云。数据集的构建包括使用ChatGPT丰富QA对并提供推理线索，以及人类参与的审核流程来进一步验证数据集。该数据集的发布旨在支持未来的研究，并推动LMMs在空间推理任务中的发展。

Struct2D-Set is a large-scale instruction tuning dataset containing 200,000 fine-grained QA pairs from 3D indoor scenes, covering eight embodied AI-related spatial reasoning categories. This dataset is automatically generated through an automated pipeline, leveraging real object annotations provided in the original 3D dataset. Struct2D-Set aims to equip large multimodal models (LMMs) with rich 3D spatial reasoning skills via instruction tuning using only structured 2D representations, without direct access to 3D point clouds. The construction of the dataset involves enriching QA pairs with ChatGPT to provide reasoning clues, as well as a human-in-the-loop review process to further validate the dataset. The release of this dataset is intended to support future research and advance the development of LMMs in spatial reasoning tasks.

提供机构：

东北大学，微软研究院，南加州大学，加州大学圣克鲁兹分校

创建时间：

2025-06-05

原始信息汇总

Struct2D数据集概述

数据集基本信息

数据集名称：Struct2D
代码发布：用于论文《Struct2D: A Perception-Guided Framework for Spatial Reasoning in Large Multimodal Models》

数据集用途

专注于空间推理任务
面向大型多模态模型(LMMs)开发

技术特点

采用感知引导框架
针对二维空间结构推理问题设计

搜集汇总

数据集介绍

构建方式

Struct2D-Set数据集通过自动化流程构建，利用6K个3D室内场景的RGB-D视频输入，结合3D感知模块生成结构化2D输入。具体包括：鸟瞰图（BEV）图像、物体标记和物体中心元数据（如类别标签和3D坐标）。数据集包含200K个细粒度问答对，覆盖8类空间推理任务，并通过ChatGPT增强问答对的推理步骤，辅以人工审核确保数据质量。

使用方法

使用Struct2D-Set时，需将BEV图像与物体标记作为主要输入，任务需要外观线索时补充自我中心关键帧。模型训练采用特殊标记<think>和<answer>区分推理过程与最终答案。评估阶段，通过离线3D重建生成BEV输入，在VSI-Bench等基准测试中验证模型的空间推理能力。该数据集特别适合微调开源LMM（如Qwen2.5VL），无需3D点云输入即可实现竞争性性能。

背景与挑战

背景概述

Struct2D-Set是由Northeastern University、Microsoft Research、University of Southern California和University of California, Santa Cruz的研究团队于2025年提出的一个大规模指令调优数据集，旨在通过结构化2D输入（如鸟瞰图图像和对象中心元数据）来增强大型多模态模型（LMMs）的空间推理能力。该数据集包含200K个细粒度的问答对，覆盖了8类空间推理任务，如相对方向估计和路径规划，数据来源于6K个3D室内场景。Struct2D-Set的创新之处在于其无需显式3D输入即可支持复杂的3D空间推理，为具身智能和机器人交互等应用提供了重要支持。

当前挑战

Struct2D-Set面临的挑战主要包括两方面：1) 领域问题挑战：现有模型在理解复杂空间关系（如自我中心到全局坐标转换）时仍存在精度不足的问题，尤其在噪声感知条件下性能显著下降；2) 构建过程挑战：数据生成需依赖3D感知模块预处理（如点云重建和物体检测），导致计算成本高且泛化性受限。此外，数据多样性受限于室内场景，对外部环境（如户外场景）的适应性尚未验证。

常用场景

经典使用场景

Struct2D-Set数据集在空间推理任务中展现了卓越的应用潜力，尤其在三维场景理解与多模态模型训练方面表现突出。通过结合鸟瞰图（BEV）和对象中心元数据，该数据集能够有效支持模型在零样本条件下的空间关系推理，如相对方向估计和路径规划。其结构化二维输入的设计不仅降低了计算复杂度，还显著提升了模型在复杂室内环境中的表现。

解决学术问题

Struct2D-Set解决了多模态模型在三维空间推理中依赖显式三维输入的局限性问题。通过引入结构化二维表示，该数据集为模型提供了丰富的空间先验和视觉上下文，使其能够在无需直接处理点云数据的情况下完成精确的场景理解。这一创新不仅突破了传统方法的计算瓶颈，还为跨任务泛化提供了新的研究范式。

实际应用

在实际应用中，Struct2D-Set可广泛应用于智能家居导航、增强现实交互和机器人自主决策等领域。例如，在家庭服务机器人场景中，模型通过解析BEV图像和对象元数据，能够准确判断家具的相对位置并规划最优移动路径。这种轻量化的空间推理方案为实时性要求高的嵌入式系统提供了可行的技术路径。

数据集最近研究