Open3DVQA
收藏github2025-08-12 更新2025-08-22 收录
下载链接:
https://github.com/EmbodiedCity/Open3D-VQA.code
下载链接
链接失效反馈官方服务:
资源简介:
Open3DVQA是一个新颖的基准测试,用于从空中视角评估多模态大语言模型对复杂空间关系的推理能力。它包含89k个问答对,涵盖7种空间推理任务类型,包括多项选择、真假判断和简答格式,支持视觉和点云数据。问题是从真实世界和模拟空中场景中提取的空间关系自动生成的。
Open3DVQA is a novel benchmark for evaluating the reasoning capabilities of multimodal large language models (LLMs) on complex spatial relations from an aerial perspective. It contains 89k question-answer pairs, covering 7 types of spatial reasoning tasks including multiple-choice, true/false judgment, and open-ended question formats, and supports both visual and point cloud data. The questions are automatically generated based on spatial relations extracted from real-world and simulated aerial scenes.
创建时间:
2025-08-11
原始信息汇总
Open3DVQA 数据集概述
数据集简介
Open3DVQA 是一个用于评估多模态大语言模型(MLLMs)从空中视角推理复杂空间关系能力的新型基准数据集。该数据集包含来自真实世界和模拟空中场景的空间关系自动生成的问答对。
数据集规模
- 问答对数量:89,000
- 任务类型:7种
- 数据格式:支持视觉数据和点云数据
- 问答格式:包括多项选择、真/假和简答形式
核心特点
- 涵盖四种空间视角和七种任务类型,用于全面的开放3D空间推理评估
- 引入可扩展的问答生成流程,从单个RGB图像提取3D空间关系并创建多样化问答格式
- 通过多模态校正流程确保数据质量
- 对主流MLLMs进行基准测试,揭示其当前空间推理局限性和模拟到现实的泛化能力
任务类型
1. 他中心大小推理
推断空间中两个对象之间的相对大小关系,如更长/更短、更宽/更窄、更高/更矮、更大/更小。
2. 他中心距离推理
推断对象之间的直线、垂直或水平距离。
3. 自我中心方向推理
推断对象相对于智能体的方向,如左、右、上、下。
4. 自我中心距离推理
推断对象与智能体之间的直线距离。
5. 他中心-自我中心转换方向推理
智能体基于自身移动推断对象相对于自身的方向。
6. 他中心-自我中心转换距离推理
智能体推断对象在水平或垂直方向上相对于自身的距离。
7. 对象中心大小推理
推断单个对象的绝对大小,如其长度、宽度或高度。
多模态支持
数据集支持以下模态:
- RGB图像
- 深度图
- 标题和边界框
- 掩码
- 点云数据
相关资源
- 论文地址:https://www.arxiv.org/abs/2503.11094
- 数据集地址:https://huggingface.co/datasets/EmbodiedCity/Open3DVQA-v2
- 代码许可证:Apache 2.0
- 数据许可证:Apache 2.0
搜集汇总
数据集介绍

构建方式
在空间推理研究领域,Open3DVQA数据集通过创新的自动化流程构建而成。该数据集从真实世界和模拟航拍场景中提取三维空间关系,利用可扩展的问答生成流水线,将单张RGB图像转化为多样化的问答格式。生成过程融合多模态校正机制,确保89,000个问答对在七类空间推理任务中的质量和一致性,涵盖多选、判断及简答等多种形式。
特点
Open3DVQA的显著特点在于其全面覆盖四种空间视角与七类推理任务,包括 allocentric 与 egocentric 的空间关系推理。数据集支持视觉与点云双模态数据,提供RGB图像、深度图、标注框、掩码及点云等多种数据形式。其问答内容兼具客观量化指标与主观空间关系描述,为评估多模态大模型在开放空间中的三维推理能力提供了丰富且严谨的基准。
使用方法
研究人员可通过Hugging Face平台获取数据集,支持以视觉或点云数据作为输入,驱动多模态大模型进行空间关系推理。使用时可针对特定任务类型设计评估方案,例如通过问答准确率衡量模型在距离估算、方向判断或尺寸推理等方面的性能。该数据集还可用于测试模型从模拟到真实场景的泛化能力,为空间认知研究提供标准化评估框架。
背景与挑战
背景概述
空间推理作为多模态大语言模型的核心能力之一,在自动驾驶、机器人导航等领域具有重要应用价值。Open3DVQA数据集由研究团队于2025年创建,旨在系统评估多模态大语言模型从空中视角理解复杂空间关系的能力。该数据集包含89,000个问答对,涵盖七类空间推理任务,支持视觉与点云数据,通过自动生成技术从真实和模拟空中场景中提取空间关系,为模型的空间认知能力评估提供了标准化基准。
当前挑战
该数据集致力于解决多模态大语言模型在空间概念推理中的核心挑战,包括模型对物体尺寸、距离、方向等空间关系的精确理解与跨模态对齐。构建过程中的主要挑战在于如何自动生成高质量且多样化的问答对,确保空间关系提取的准确性,以及处理真实场景与模拟环境之间的域适应问题,同时保持多模态数据的一致性。
常用场景
经典使用场景
在空间认知计算领域,Open3DVQA数据集被广泛应用于评估多模态大语言模型对复杂三维空间关系的推理能力。该数据集通过包含89,000个问答对,覆盖七类空间推理任务,支持从鸟瞰视角进行物体尺寸、距离和方向的综合判断,为模型提供了标准化的性能测试平台。其自动生成的问答机制确保了数据规模的扩展性和多样性,成为空间概念理解研究的重要基准。
解决学术问题
Open3DVQA有效解决了多模态模型在三维空间推理中的评估空白问题,为研究社区提供了量化模型空间认知能力的标准工具。通过系统性地涵盖 allocentric(客体中心)和 egocentric(自我中心)视角的转换任务,该数据集揭示了模型在跨视角空间关系推断、尺度感知和几何理解方面的局限性,推动了空间推理理论与计算方法的深度融合。
衍生相关工作
基于Open3DVQA的评估框架,研究者开发了多种创新方法,如空间关系提取管道和多模态校正流程。这些工作显著提升了模型在跨模态空间推理任务中的表现,并催生了针对三维视觉问答的专用架构设计。相关研究进一步拓展到具身智能领域,为智能体在复杂环境中的交互与决策提供了理论基础和技术支撑。
以上内容由遇见数据集搜集并总结生成



