DrivingVQA

Hugging Face2025-03-24 更新2025-03-25 收录

下载链接：

https://huggingface.co/datasets/EPFL-DrivingVQA/DrivingVQA

下载链接

链接失效反馈

官方服务：

资源简介：

DrivingVQA数据集是一个旨在帮助考生准备法国驾驶理论考试的数据集，包含了结合现实世界图像的选择题，用于测试考生对交通法规、路标和驾驶安全实践的知识。该数据集由EPFL VITA和NLP实验室策划，使用英语编写，并遵循MIT许可证。

创建时间：

2025-03-18

原始信息汇总

数据集概述：DrivingVQA

数据集基本信息

名称：DrivingVQA
主页：https://vita-epfl.github.io/DrivingVQA/
创建者：EPFL VITA & NLP labs
语言：英语
许可证：MIT
任务类别：视觉问答、多项选择
标签：驾驶、推理
规模：1K<n<10K

数据集描述

DrivingVQA旨在帮助准备法国驾驶理论考试的考生。该考试要求通过理论和实践测试，理论部分包括分析40个多项选择题（MCQs），附带真实世界图像，测试考生对交通法规、路标和安全驾驶实践的了解。该数据集专注于考试所需的视觉分析技能，包含从多个平台收集的基于图像的驾驶理论材料。

数据集用途

用于探究大型视觉语言模型在复杂场景中进行推理的能力。
该数据集并非法国驾驶理论考试的精确反映，仅保留视觉推理问题。

数据集结构

样本数量：3,931个
分割：训练集（80%）、测试集（20%）
样本内容：
- 驾驶场景图像
- 带有2至4个可能答案的问题
- 正确答案
- 专家标注的解释
- 相关实体列表及边界框坐标
- 交错解释（结合原始解释和相关实体）

数据集创建

数据来源

从多个在线平台收集驾驶理论练习题。

数据收集与处理

格式标准化：包括问题文本、可能答案列表、正确答案和专家标注解释。
过滤：使用GPT-4o过滤不需要视觉推理的样本，并进行人工审查。
翻译：使用GPT-4o-mini将问题、答案选项和解释从法语翻译为英语，并进行人工审查和优化。

标注

相关实体：手动标注，包括名称和位置（边界框坐标）。
交错解释：使用GPT4o-mini生成，结合初始解释和相关实体坐标。

偏见、风险与限制

不包含个人、敏感或私人信息。
可能受限于所使用的标注工具。

引用

bibtex @article{corbiere2025drivingvqa, title={DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests}, author={Corbi{`e}re, Charles and Roburin, Simon and Montariol, Syrielle and Bosselut, Antoine and Alahi, Alexandre}, journal={arXiv preprint arXiv:2501.04671}, year={2025} }

搜集汇总

数据集介绍

构建方式

DrivingVQA数据集通过精心筛选在线驾驶理论练习平台的多选题构建而成，专注于需要视觉推理的驾驶场景问题。研究团队采用GPT-4o进行自动化过滤，剔除仅凭文本即可作答的样本，并通过三位专家标注员进行人工验证，确保0.95的高标注一致性。所有法语原始数据经GPT-4o-mini翻译为英语后，经过人工校审以保证语义准确性。每个样本包含驾驶场景图像、问题选项、正确答案及专家标注的解释说明，并额外标注了图像中关键实体的边界框坐标。

特点

该数据集包含3,931个专业标注的驾驶理论样本，其中80%用于训练，20%用于测试。其独特之处在于每个问题都配有专家撰写的解释说明，以及通过GPT4o-mini生成的交错式解释，将原始说明与相关实体坐标信息有机融合。数据集特别强调视觉推理能力，所有问题都需结合图像中的实体属性及空间关系进行解答，为研究视觉语言模型在复杂场景下的推理能力提供了理想基准。

使用方法

研究人员可利用该数据集评估视觉语言模型在真实驾驶场景中的多模态推理能力。使用时需同时处理图像输入和文本问题，模型需识别图像中的关键实体及其空间关系来回答问题。数据集提供的边界框标注可用于可解释性研究，而交错式解释则为模型生成合理的推理链条提供参考。由于样本已进行严格的视觉依赖性筛选，确保所有问题都必须依赖图像信息作答，因此特别适合研究视觉 grounding 能力的基准测试。

背景与挑战

背景概述

由EPFL VITA与NLP实验室联合开发的DrivingVQA数据集，旨在为法国驾驶理论考试提供视觉问答支持。该数据集创建于2025年，主要研究者包括Charles Corbière等学者，其核心研究问题聚焦于探索大规模视觉语言模型在复杂场景中的推理能力。通过从多个在线平台精选驾驶理论试题，数据集构建了包含3931个样本的视觉推理题库，涵盖交通法规、道路标识识别等关键驾驶知识领域。作为首个针对驾驶理论考试的视觉问答基准，该数据集为多模态推理研究提供了重要实验平台，推动了视觉语言模型在现实场景中的应用探索。

当前挑战

该数据集面临双重挑战：在领域问题层面，驾驶场景的视觉问答需要模型同时处理空间关系识别、细粒度视觉理解与逻辑推理，现有模型在实体定位与跨模态对齐方面仍存在显著差距；在构建过程中，数据筛选环节需平衡视觉依赖性判断的准确性，通过GPT-4o过滤非视觉依赖问题时可能引入偏差，尽管采用三重专家验证机制（Krippendorff's α=0.95），法语至英语的语义保真度维护仍是持续挑战。此外，标注实体边界框与生成交错解释的流程对标注一致性提出较高要求。

常用场景

经典使用场景

在自动驾驶与智能交通系统研究中，DrivingVQA数据集为视觉问答任务提供了独特的实验平台。该数据集通过真实驾驶场景图像与多选问题的结合，模拟了法国驾照理论考试中的视觉推理环节，特别适合用于评估模型对交通标志、道路规则及安全驾驶知识的理解能力。研究者可利用其丰富的标注信息，包括边界框坐标和专家解释，深入探究多模态模型在复杂场景下的推理机制。

解决学术问题

该数据集有效解决了视觉语言模型在真实场景中细粒度推理的评估难题。通过精心筛选必须依赖视觉信息才能回答的问题，填补了传统文本问答数据集无法衡量空间关系理解的空白。其包含的实体定位标注和链式思维解释，为研究视觉 grounding 和可解释性人工智能提供了关键数据支撑，推动了多模态推理领域的定量化研究进程。

衍生相关工作

自发布以来，DrivingVQA已催生多个视觉推理领域的创新研究。部分工作专注于改进模型对交通标志的细粒度识别能力，另一些研究则利用其链式解释标注开发新型可解释性框架。值得注意的是，该数据集启发了跨语言驾驶问答系统的构建，相关成果在智能交通国际会议（ITS）上获得广泛关注。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集