Open3DVQA

Name: Open3DVQA
Creator: 清华大学
Published: 2025-03-14 13:35:38
License: 暂无描述

arXiv2025-03-14 更新2025-03-18 收录

下载链接：

https://github.com/WeichenZh/Open3DVQA

下载链接

链接失效反馈

官方服务：

资源简介：

Open3DVQA是一个全面的室外空间推理基准，包含了9千个VQA样本，使用高效半自动化工具在一个高保真城市模拟器中收集。数据集涵盖了多种空间推理任务，如相对和绝对空间关系、情境推理以及以对象为中心的空间属性。该数据集旨在评估当前最先进的基础模型在开放3D空间中的空间推理能力。

Open3DVQA is a comprehensive outdoor spatial reasoning benchmark containing 9,000 VQA samples, collected via an efficient semi-automated tool within a high-fidelity urban simulator. The dataset covers a variety of spatial reasoning tasks, such as relative and absolute spatial relationships, contextual reasoning, and object-centric spatial attributes. This benchmark aims to evaluate the spatial reasoning capabilities of current state-of-the-art foundation models in open 3D spaces.

提供机构：

清华大学

创建时间：

2025-03-14

搜集汇总

数据集介绍

构建方式

Open3DVQA数据集的构建采用了半自动化的数据生成流程，基于高保真度的城市模拟器Unreal Engine（UE）。通过UE内置的RGB-D相机传感器，围绕场景中的对象进行全景观察，获取对象的3D边界框和点云扫描。随后，利用强大的语言模型（如GPT-4）对图像中的对象进行文本描述生成，并结合39种空间推理任务模板生成问答对。该流程确保了数据的多样性和准确性，涵盖了自我中心、他者中心以及对象中心的空间推理任务。

特点

Open3DVQA数据集包含9000个视觉问答样本，涵盖了多种空间推理任务，包括相对和绝对空间关系、情境推理以及对象中心的空间属性。数据集的特点在于其多维度的空间推理任务设计，能够全面评估多模态大语言模型在开放3D空间中的空间推理能力。此外，数据集通过高保真模拟器生成，确保了数据的准确性和多样性，避免了传统自动化数据生成流程中的噪声问题。

使用方法

Open3DVQA数据集主要用于评估多模态大语言模型在开放3D空间中的空间推理能力。用户可以通过加载数据集中的问答对，结合图像和点云数据，对模型进行零样本评估或微调训练。数据集提供了训练、验证和测试集，分别包含6708、1092和1248个问答对。通过该数据集，用户可以深入分析模型在不同空间推理任务中的表现，并通过微调提升模型的空间推理能力。

背景与挑战

背景概述

Open3DVQA是由清华大学的研究团队于2025年提出的一个多模态大语言模型（MLLMs）在开放三维空间中进行空间推理能力评估的基准数据集。该数据集旨在解决智能体在复杂三维环境中理解空间信息的关键问题，涵盖了相对与绝对空间关系、情境推理以及对象中心空间属性等多个方面。Open3DVQA包含9000个视觉问答（VQA）样本，通过高保真城市模拟器中的半自动化工具收集。该数据集的推出填补了现有基准在评估户外空间推理能力方面的空白，并为多模态大语言模型的空间推理能力提供了全面的评估框架。

当前挑战

Open3DVQA面临的挑战主要体现在两个方面。首先，在领域问题方面，现有的多模态大语言模型在空间推理任务中表现不佳，尤其是在绝对空间关系（如距离估计）和定量任务（如对象属性预测）上存在显著局限性。其次，在数据集构建过程中，获取户外环境中三维对象的精确边界框和点云数据是一个主要挑战。与室内数据集不同，户外环境无法使用RGB-D扫描系统进行密集扫描，现有的深度估计方法在阴影或远距离对象上引入了额外误差，导致数据质量下降。Open3DVQA通过基于Unreal Engine的半自动化数据生成管道解决了这一问题，但仍需人工干预以确保数据的准确性和多样性。

常用场景

经典使用场景

Open3DVQA数据集主要用于评估多模态大语言模型（MLLMs）在开放三维空间中的空间推理能力。通过提供包含9000个视觉问答（VQA）样本的基准，该数据集能够全面测试模型在相对和绝对空间关系、情境推理以及对象中心空间属性等方面的表现。其数据采集基于高保真城市模拟器，确保了数据的多样性和真实性，为模型的空间推理能力提供了严格的测试环境。

衍生相关工作

Open3DVQA数据集的推出激发了大量相关研究工作，尤其是在多模态大语言模型的空间推理能力提升方面。例如，SpatialVLM和SpatialRGPT等模型通过借鉴Open3DVQA的数据生成方法，进一步优化了其在空间关系推理中的表现。此外，该数据集还推动了基于点云和深度图的多模态融合研究，如GPT4Point等模型通过结合点云数据，显著提升了对象空间属性的推理能力。这些衍生工作不仅验证了Open3DVQA的实用性，也为未来的空间推理研究提供了新的方向。

数据集最近研究