DriveQA

Name: DriveQA
Creator: 波士顿大学, 华盛顿大学圣路易斯分校
Published: 2025-08-30 01:59:53
License: 暂无描述

arXiv2025-08-30 更新2025-11-25 收录

下载链接：

https://hf-mirror.com/datasets/DriveQA/DriveQA_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

DriveQA是一个大规模的基准数据集，包含文本和视觉数据，用于评估大型语言模型和跨模态大型语言模型在驾驶知识测试中的表现。数据集覆盖了19个问题类别，220个交通标志，以及474,000个样本。它旨在帮助AI系统更好地理解和遵守各种交通规则，提高驾驶安全。

提供机构：

波士顿大学, 华盛顿大学圣路易斯分校

创建时间：

2025-08-30

搜集汇总

数据集介绍

构建方式

DriveQA数据集的构建融合了多模态数据生成与结构化知识提取的双重路径。其文本分支DriveQA-T通过自动化流程生成：首先基于美国50个州及华盛顿特区的官方驾驶手册，利用GPT-4o模型自动生成问题对，再经过多轮人工质量验证与语义聚类，最终形成涵盖19类交通规则的26K问答样本。视觉分支DriveQA-V则通过增强版CARLA仿真平台实现：在虚拟环境中植入220种交通标志3D模型，通过程序化控制相机视角、天气光照等参数生成68K图像，并配合人工标注的Mapillary真实场景数据，构建出覆盖标志识别与路权判断的视觉问答对。

特点

该数据集的核心特征在于对交通规则体系的全景覆盖与细粒度解析。其文本分支通过分层聚类形成了基本安全、车道规则、特殊案例等五大类19个子类的知识体系，每个问题均附带权威解释以支撑可解释性研究。视觉分支则通过合成数据与真实数据的互补，实现了对光照条件、观测视角、标志变体等环境因素的系统性控制。特别值得关注的是，数据集通过负采样策略构建了高混淆度干扰项，并提供了完整的元数据标注，为探索模型在数值推理、空间感知等薄弱环节的表现提供了精准评估基准。

使用方法

研究者可通过分层评估框架系统化检验模型性能：在基础层面直接测量多项选择题的准确率；对于文本任务可结合思维链提示与检索增强生成技术，通过BLEU-4和ROUGE-L指标量化推理质量；视觉任务则支持按交叉口类型、标志分类等维度进行细粒度分析。数据集特别适用于模拟到真实的迁移验证，经DriveQA预训练的模型可直接在nuScenes、BDD等真实驾驶数据集上测试轨迹预测与决策推理能力。此外，其模块化设计支持对视觉语言模型进行参数高效微调，为探索交通规则的知识内化机制提供了标准化实验范式。

背景与挑战

背景概述

DriveQA数据集由波士顿大学与圣路易斯华盛顿大学的研究团队于2025年联合推出，旨在填补自动驾驶领域对交通规则深度理解能力的评估空白。该数据集通过系统整合美国各州驾驶手册文本与合成视觉场景，构建了涵盖19类交通场景、220种交通标志的47.4万样本规模，其创新性在于将传统驾驶知识测试框架转化为可量化评估多模态大语言模型认知能力的基准体系，显著推动了自动驾驶系统从感知层面向规则推理层面的范式转移。

当前挑战

在领域问题层面，DriveQA需解决多模态模型在复杂路权场景中的空间推理缺陷，特别是在无控制交叉口动态决策、数值型交通标志识别、以及极端天气条件下的规则适应性等长尾问题。构建过程中面临合成数据与真实场景的语义鸿沟，需通过增强CARLA仿真平台的交通标志库与设计程序化生成机制来保证数据多样性，同时需平衡文本描述与视觉表征的语义对齐精度，以应对模型在光照变化、视角转换等环境因素下的泛化需求。

常用场景

经典使用场景

在自动驾驶领域，DriveQA数据集被广泛用于评估大型语言模型和多模态模型对交通规则的深度理解能力。该数据集通过涵盖交通标志识别、路权判断及复杂交叉口场景等多种任务，为模型提供了全面的驾驶知识测试环境。研究者利用其丰富的视觉与文本问答对，系统检验模型在模拟真实驾驶考试中的表现，从而推动智能系统在规则遵循方面的可靠性提升。

衍生相关工作

DriveQA催生了多项衍生研究，例如基于其构建的链式思维推理与检索增强生成框架，显著提升了模型在交通规则问答中的逻辑一致性。以该数据集为基准的微调方法（如LoRA适配）被广泛应用于Gemma-2、LLaVA等模型，推动了多模态模型在驾驶知识领域的专业化发展。同时，其合成的数据生成流程启发了后续研究对CARLA仿真平台的扩展，促进了自动驾驶仿真与真实数据融合的技术创新。

数据集最近研究