NuPlanQA-1M

Name: NuPlanQA-1M
Creator: 普渡大学, 丰田研究院
Published: 2025-03-17 11:12:39
License: 暂无描述

arXiv2025-03-17 更新2025-03-19 收录

下载链接：

https://github.com/sungyeonparkk/NuPlanQA

下载链接

链接失效反馈

官方服务：

资源简介：

NuPlanQA-1M是由普渡大学和丰田研究院创建的大型数据集，包含1M个现实世界的视觉问答对。该数据集基于nuPlan，利用多视角图像和详细的注释生成自由形式的问答对，旨在支持驾驶场景的上下文感知分析。数据集被细分为九个子任务，涵盖三个核心技能：道路环境感知、空间关系识别和自我中心推理，以帮助多模态大型语言模型更好地理解和适应多视角驾驶场景。

NuPlanQA-1M is a large-scale dataset created by Purdue University and Toyota Research Institute, containing 1 million real-world visual question-answer pairs. Built upon nuPlan, this dataset generates free-form question-answer pairs using multi-view images and detailed annotations, aiming to support context-aware analysis of driving scenarios. The dataset is subdivided into nine subtasks covering three core skills: road environment perception, spatial relationship recognition, and egocentric reasoning, to help multimodal large language models better understand and adapt to multi-view driving scenarios.

提供机构：

普渡大学, 丰田研究院

创建时间：

2025-03-17

搜集汇总

数据集介绍

构建方式

NuPlanQA-1M数据集的构建基于nuPlan数据集，利用其多视角图像、传感器配置和高质量标注。数据集的构建过程包括从nuPlan中采样约2Hz的帧，并通过GPT-4o生成自由形式的问答对。这些问答对涵盖了交通场景的九个子任务，分为三个核心技能：道路环境感知、空间关系识别和自我中心推理。生成的数据经过人工质量检查，确保其准确性和多样性。最终，数据集被划分为100万条训练样本和8千条评估样本，评估样本进一步重构为多项选择题形式。

特点

NuPlanQA-1M数据集的特点在于其规模大、覆盖广且多视角。数据集包含100万条问答对，远超现有同类数据集。其多视角图像为模型提供了丰富的环境信息，增强了感知和推理能力。此外，数据集涵盖了九个子任务，涉及交通灯、天气/光照条件、道路类型/状况、周围物体、交通流、关键物体、自我车辆操作、情境评估和行动建议等多个方面，确保了任务的多样性和复杂性。自由形式的问答对进一步提升了数据集的灵活性和表达能力。

使用方法

NuPlanQA-1M数据集的使用方法主要包括训练和评估多模态大语言模型（MLLMs）。在训练阶段，模型通过多视角图像和历史帧进行输入，结合BEV（鸟瞰图）特征，增强对交通场景的理解。评估阶段，模型在NuPlanQA-Eval基准上进行测试，该基准包含8千条多项选择题，涵盖九个子任务。通过这种方式，研究人员可以系统地评估模型在道路环境感知、空间关系识别和自我中心推理等方面的表现，并针对性地改进模型能力。

背景与挑战

背景概述

NuPlanQA-1M数据集由普渡大学和丰田信息技术实验室的研究团队于2025年提出，旨在推动多模态大语言模型（MLLMs）在驾驶场景理解中的应用。该数据集包含100万对真实世界的视觉问答（VQA）样本，涵盖多视角图像，专注于驾驶场景的上下文感知分析。数据集被细分为九个子任务，涵盖三大核心技能：道路环境感知、空间关系识别和自我中心推理。NuPlanQA-1M的提出填补了现有数据集在驾驶场景多样性、多视角信息覆盖以及自由形式问答生成方面的不足，为自动驾驶领域的研究提供了重要的数据支持。

当前挑战

NuPlanQA-1M数据集在构建和应用过程中面临多重挑战。首先，驾驶场景的复杂性要求模型能够处理多视角信息，并理解动态环境中的空间关系，这对现有MLLMs的感知和推理能力提出了更高要求。其次，数据集的构建依赖于高质量的多视角图像和复杂的场景标注，生成自由形式的问答对需要克服标注一致性和多样性的难题。此外，现有MLLMs在处理驾驶场景时，尤其在交通灯识别和空间关系推理等任务上表现不佳，表明模型在短时推理和上下文理解方面仍需改进。最后，如何将鸟瞰图（BEV）特征有效融入MLLMs以增强多视角理解能力，也是当前研究的关键挑战之一。

常用场景

经典使用场景

NuPlanQA-1M数据集在自动驾驶领域的经典使用场景主要集中在对多视角驾驶场景的理解与推理。通过提供100万对真实世界的视觉问答（VQA）数据，该数据集能够支持模型在复杂交通环境中进行多模态推理。其多视角图像和丰富的问答对使得模型能够在静态和动态场景中同时感知道路环境、识别空间关系，并进行自我中心推理，从而提升自动驾驶系统的决策能力。

实际应用

在实际应用中，NuPlanQA-1M数据集为自动驾驶系统的开发提供了强有力的支持。通过其多视角图像和丰富的问答对，模型能够在真实世界的复杂交通环境中进行更准确的场景理解和决策。例如，模型可以识别交通信号灯的状态、理解车辆间的空间关系，并根据当前场景推荐合适的驾驶行为。这些能力直接提升了自动驾驶系统的安全性和可靠性，减少了人类干预的需求。

衍生相关工作

NuPlanQA-1M数据集的发布催生了一系列相关研究工作，特别是在多模态大语言模型（MLLMs）与自动驾驶场景理解的结合方面。基于该数据集，研究者提出了BEV-LLM模型，通过将鸟瞰图（BEV）特征与视觉和语言模态结合，显著提升了模型在多视角驾驶场景中的表现。此外，该数据集还推动了其他MLLMs在驾驶场景中的适应性研究，进一步扩展了多模态模型在自动驾驶领域的应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集