NuScenes-SpatialQA
收藏arXiv2025-04-07 更新2025-04-08 收录
下载链接:
https://taco-group.github.io/NuScenes-SpatialQA/
下载链接
链接失效反馈官方服务:
资源简介:
NuScenes-SpatialQA是一个专门为评估自动驾驶中视觉语言模型的空间理解和推理能力而设计的大规模地面真实问答基准。该数据集基于NuScenes数据集构建,包含自动化生成的3D场景图和问答对。数据集分为空间理解和空间推理两个层次,旨在解决自动驾驶场景中的空间关系理解和推理问题。
NuScenes-SpatialQA is a large-scale ground-truth question answering benchmark specifically designed to evaluate the spatial understanding and reasoning capabilities of vision-language models in autonomous driving. This dataset is built upon the NuScenes dataset and contains automatically generated 3D scene graphs and question-answer pairs. It is divided into two levels: spatial understanding and spatial reasoning, aiming to address the problems of spatial relation understanding and reasoning in autonomous driving scenarios.
提供机构:
德克萨斯A&M大学,威斯康星大学麦迪逊分校
创建时间:
2025-04-04
搜集汇总
数据集介绍

构建方式
NuScenes-SpatialQA数据集基于NuScenes自动驾驶数据集构建,通过自动化流程生成3D场景图和问答对。首先,利用LiDAR提供的3D物体标注信息,通过3D到2D边界框投影技术将物体定位到图像平面。随后,对物体进行可见性和分辨率过滤,确保仅保留清晰可见的物体实例。接着,通过最佳视角选择算法,从多帧中筛选最具代表性的物体图像,并利用视觉语言模型(如LLaMA-3.2)生成物体描述。最后,基于3D场景图自动生成空间理解和推理的问答对,涵盖定性和定量两类问题。
特点
NuScenes-SpatialQA数据集具有以下显著特点:首先,它是首个专注于自动驾驶场景中空间理解和推理能力评估的大规模基准数据集,填补了现有评测资源的空白。其次,数据集基于真实世界的LiDAR空间标注数据构建,确保了空间关系的精确性和可靠性。此外,数据集包含丰富的问答类型,涵盖空间关系判断、数值测量以及多跳推理等任务,能够全面评估模型的性能。最后,数据集的自动化生成流程保证了标注的一致性和可扩展性,支持高效的模型评测和研究。
使用方法
使用NuScenes-SpatialQA数据集时,研究人员可通过加载预生成的问答对和对应的3D场景图,对视觉语言模型进行评测。评测任务分为空间理解和空间推理两大类,前者包括定性和定量问题,后者涉及直接推理和情境推理。对于封闭式问题,可采用准确率作为评价指标;对于开放式数值问题,则使用容忍度准确率和平均绝对误差进行评估。数据集支持多种视觉语言模型的评测,包括通用模型和空间增强模型,为研究自动驾驶场景中的空间认知能力提供了标准化平台。
背景与挑战
背景概述
NuScenes-SpatialQA是由德克萨斯农工大学和威斯康星大学麦迪逊分校的研究团队于2025年提出的首个面向自动驾驶场景的大规模视觉语言模型空间理解与推理基准。该数据集基于著名的NuScenes自动驾驶数据集构建,通过自动化3D场景图生成和问答对生成流程,系统评估视觉语言模型在空间感知与推理方面的能力。作为该领域的开创性工作,NuScenes-SpatialQA填补了现有基准在自动驾驶场景空间推理评估方面的空白,为提升自动驾驶系统的环境理解能力提供了重要工具。
当前挑战
NuScenes-SpatialQA面临的核心挑战体现在两个方面:在领域问题层面,现有视觉语言模型对空间关系的定量推理能力显著不足,特别是在距离、角度等精确测量任务中表现欠佳;在构建过程层面,如何从原始3D标注自动生成语义丰富的场景描述,以及确保空间关系问答对的多样性与准确性构成了主要技术难点。此外,基准构建需要克服传感器数据融合、对象可见性判断以及跨模态表征对齐等一系列复杂问题。
常用场景
经典使用场景
在自动驾驶领域,NuScenes-SpatialQA数据集被广泛用于评估视觉语言模型(VLMs)的空间理解和推理能力。该数据集通过构建基于真实3D场景图的问答对,为研究者提供了一个系统化的测试平台,用于验证模型在复杂驾驶场景中的空间关系识别和定量推理能力。经典使用场景包括模型在定性空间关系(如前后、左右)和定量测量(如距离、角度)任务中的性能评估。
衍生相关工作
NuScenes-SpatialQA的发布催生了一系列围绕空间增强型VLMs的研究。例如,SpatialRGPT等模型通过引入专门的空间信息处理模块,在定性空间任务中展现了显著优势。同时,该数据集启发了对链式推理(CoT)在空间任务中有效性的深入探讨,揭示了现有提示方法的局限性,为后续研究提供了改进方向。
数据集最近研究
最新研究方向
在自动驾驶领域,视觉语言模型(VLMs)的空间理解和推理能力成为研究热点。NuScenes-SpatialQA作为首个基于真实空间数据的大规模问答基准,系统评估了VLMs在复杂驾驶场景中的几何关系认知与多步推理表现。前沿研究聚焦三个维度:一是探索多模态预训练中空间表征的优化方法,通过三维场景图自动构建技术提升物体间几何关系的建模精度;二是针对定量空间问答的显著性能缺口,开发融合激光雷达点云特征的跨模态对齐策略;三是研究情境推理与直接几何推理的性能差异机制,揭示VLMs依赖先验知识而非精确空间计算的本质局限。该数据集推动了具身智能领域对空间认知可解释性的研究,并为自动驾驶系统的安全决策提供了新的评估范式。
相关研究论文
- 1NuScenes-SpatialQA: A Spatial Understanding and Reasoning Benchmark for Vision-Language Models in Autonomous Driving德克萨斯A&M大学,威斯康星大学麦迪逊分校 · 2025年
以上内容由遇见数据集搜集并总结生成



