five

DRIVINGVQA|自动驾驶数据集|视觉推理数据集

收藏
arXiv2025-01-09 更新2025-01-14 收录
自动驾驶
视觉推理
下载链接:
http://arxiv.org/abs/2501.04671v1
下载链接
链接失效反馈
资源简介:
DRIVINGVQA是由瑞士洛桑联邦理工学院创建的一个视觉问答数据集,旨在评估和改进视觉语言模型在复杂现实场景中的视觉链式推理能力。该数据集包含3931个样本,每个样本包括一个或多个多项选择题、相关实体的边界框坐标以及与视觉内容对齐的解释。数据来源于驾驶理论考试,涵盖了广泛的驾驶场景。数据集的创建过程包括数据收集、相关实体的人工标注以及生成与视觉元素相关的解释。DRIVINGVQA的应用领域主要集中在自动驾驶和视觉推理任务中,旨在解决多对象识别、空间关系推理和决策制定等问题。
提供机构:
瑞士洛桑联邦理工学院
创建时间:
2025-01-09
AI搜集汇总
数据集介绍
main_image_url
构建方式
DRIVINGVQA数据集的构建过程分为三个阶段:数据收集、专家标注和解释生成。首先,数据集从法国驾驶理论考试中收集了3931个多选题,涵盖广泛的驾驶场景。每个样本包含一到两个问题、多个选项、专家标注的相关实体及其边界框坐标,以及与视觉内容交织的解释。数据收集后,通过过滤和翻译步骤,确保问题需要视觉推理,并将所有内容从法语翻译为英语。随后,专家标注相关实体,并通过自动化工具和人工验证相结合的方式,生成与视觉内容交织的解释,确保推理过程与视觉元素紧密关联。
使用方法
DRIVINGVQA数据集的使用方法主要包括评估和微调视觉语言模型(LVLM)的视觉推理能力。数据集可用于零样本评估,测试模型在复杂驾驶场景中的推理表现。此外,数据集支持多种微调策略,如通过提供相关实体的名称、边界框坐标或图像裁剪区域来引导模型的推理路径。具体方法包括直接提供实体信息并训练模型生成解释,或训练模型预测相关实体并利用这些信息进行推理。通过这些方法,研究者可以探索模型在不同视觉推理任务中的表现,并改进其推理能力。
背景与挑战
背景概述
DRIVINGVQA数据集由瑞士洛桑联邦理工学院(EPFL)的研究团队于2025年创建,旨在评估视觉语言模型(LVLMs)在复杂现实场景中的视觉链式推理能力。该数据集基于驾驶理论考试,包含3931个专家精心设计的多选题,每个问题都附有与推理过程相关的实体注释和交错解释。DRIVINGVQA的独特之处在于其结合了真实世界的驾驶场景和人类专家的注释,提供了丰富的视觉推理任务,涵盖了感知、空间推理和决策能力。该数据集的推出填补了现有视觉问答(VQA)数据集在复杂视觉推理评估上的不足,推动了多模态推理领域的研究进展。
当前挑战
DRIVINGVQA数据集面临的挑战主要体现在两个方面。首先,视觉语言模型在处理复杂视觉推理任务时,往往依赖于文本先验知识,容易产生幻觉或过度依赖语言模型,导致在零样本设置下的推理能力受限。其次,数据集的构建过程中,如何准确标注与推理相关的实体及其空间关系是一大难题。尽管采用了自动化工具如GroundingDINO进行实体定位,但仍需大量人工干预以确保标注的准确性和一致性。此外,如何将实体信息与推理过程无缝结合,生成具有解释性的交错解释,也是数据集构建中的一大挑战。这些挑战不仅影响了模型的训练效果,也限制了其在自动驾驶等实际应用中的表现。
常用场景
经典使用场景
DRIVINGVQA数据集主要用于评估视觉语言模型(LVLMs)在复杂现实场景中的视觉链式推理能力。该数据集通过驾驶理论测试中的多选题问题,结合真实世界的驾驶场景图像,要求模型进行多对象识别、空间关系推理和决策制定。这种场景特别适合用于测试模型在自动驾驶、交通规则理解等领域的表现。
解决学术问题
DRIVINGVQA数据集解决了视觉语言模型在视觉推理中的几个关键问题,包括对文本先验的过度依赖、幻觉现象以及复杂视觉推理能力的不足。通过提供专家标注的多选题问题和解释,该数据集帮助研究者评估和改进模型在真实驾驶场景中的推理能力,尤其是在多对象识别和空间关系理解方面的表现。
实际应用
DRIVINGVQA数据集的实际应用场景主要集中在自动驾驶和智能交通系统领域。通过该数据集,研究者可以训练和评估模型在复杂驾驶环境中的视觉推理能力,帮助开发更安全的自动驾驶系统。此外,该数据集还可用于驾驶辅助系统的开发,帮助驾驶员更好地理解交通规则和驾驶场景。
数据集最近研究
最新研究方向
近年来,DRIVINGVQA数据集在视觉语言模型(LVLMs)的视觉链式推理能力评估中引起了广泛关注。该数据集基于真实的驾驶理论考试,提供了3931个专家设计的多选题和交错解释,旨在评估模型在复杂现实场景中的视觉推理能力。研究表明,现有的开源和专有LVLMs在零样本设置下难以准确回答涉及复杂视觉推理的驾驶场景问题。通过引入相关实体的视觉信息,模型的推理能力得到了显著提升,尤其是在使用裁剪区域图像块时,性能提升了7%。DRIVINGVQA的独特之处在于其结合了真实世界的驾驶场景图像、人类专家标注的相关实体以及交错解释,为视觉链式推理提供了丰富的基准。这一数据集不仅揭示了当前LVLMs在视觉推理中的瓶颈,还为未来研究提供了改进方向,特别是在多对象识别和空间关系理解方面。
相关研究论文
  • 1
    DRIVINGVQA: Analyzing Visual Chain-of-Thought Reasoning of Vision Language Models in Real-World Scenarios with Driving Theory Tests瑞士洛桑联邦理工学院 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

Beijing Traffic

The Beijing Traffic Dataset collects traffic speeds at 5-minute granularity for 3126 roadway segments in Beijing between 2022/05/12 and 2022/07/25.

Papers with Code 收录

NASA Battery Dataset

用于预测电池健康状态的数据集,由NASA提供。

github 收录

Houston2013, Berlin, Augsburg

本研究发布了三个多模态遥感基准数据集:Houston2013(高光谱和多光谱数据)、Berlin(高光谱和合成孔径雷达数据)和Augsburg(高光谱、合成孔径雷达和数字表面模型数据)。这些数据集用于土地覆盖分类,旨在通过共享和特定特征学习模型(S2FL)评估多模态基线。数据集包含不同模态和分辨率的图像,适用于评估和开发新的遥感图像处理技术。

arXiv 收录