DVBench

Name: DVBench
Creator: 弗吉尼亚理工大学
Published: 2025-04-20 15:50:44
License: 暂无描述

arXiv2025-04-20 更新2025-04-23 收录

下载链接：

https://github.com/tongzeng/DVBench.git

下载链接

链接失效反馈

官方服务：

资源简介：

DVBench是由弗吉尼亚理工大学交通研究所构建的一个综合性能评估基准，旨在评估视觉大语言模型在理解安全关键驾驶视频方面的性能。该数据集包含10000个由人工注释的多项选择题，涵盖了25项关键的驾驶视频理解任务，与高级自动化驾驶系统的安全评估框架相吻合。数据来源于真实的驾驶场景，包括碰撞和接近碰撞事件，通过多阶段的人工分析和注释，确保了数据的质量和可靠性。该数据集的应用领域主要针对自动驾驶系统，在感知和推理方面提供全面的评估，以推动视觉大语言模型在真实世界自动驾驶系统中的安全性和鲁棒性要求的发展。

DVBench is a comprehensive performance evaluation benchmark constructed by the Virginia Tech Transportation Institute, intended to evaluate the performance of visual large language models (VLLMs) in comprehending safety-critical driving videos. This dataset comprises 10,000 manually annotated multiple-choice questions spanning 25 critical driving video understanding tasks, which aligns with the safety assessment framework of advanced automated driving systems (ADS). The dataset is sourced from real-world driving scenarios including collisions and near-crash incidents, and its quality and reliability are ensured through multi-stage manual analysis and annotation. Primarily targeted at autonomous driving systems, this benchmark delivers comprehensive assessments of perception and reasoning capabilities, thereby promoting the advancement of safety and robustness requirements for visual large language models applied in real-world autonomous driving systems.

提供机构：

弗吉尼亚理工大学

创建时间：

2025-04-20

搜集汇总

数据集介绍

构建方式

DVBench数据集的构建基于安全关键驾驶视频理解的需求，采用分层能力分类法，涵盖25种关键驾驶安全能力。数据集包含10,000道人工标注的多选题，问题来源于真实驾驶场景中的安全关键事件（如碰撞和近碰撞事件）。视频数据来自SHRP 2自然驾驶研究，通过多阶段质量保证流程确保标注的准确性和一致性。问题生成结合了专家标注和大型语言模型辅助改写，并通过人工检查和多数投票策略进行质量控制。

特点

DVBench数据集的特点在于其全面性和针对性。它不仅覆盖常规驾驶场景，还特别关注安全关键事件，填补了现有基准在动态时空理解和安全评估方面的空白。数据集采用分层分类法（2个L1能力、10个L2能力和25个L3能力），系统评估视觉大语言模型从感知到推理的多层次能力。其独特的GroupEval评估策略通过随机选项排序消除位置偏差，确保评测的公平性。实验表明，现有模型在安全关键场景中的最高准确率不足40%，凸显了该数据集的挑战性。

使用方法

使用DVBench时，研究者可通过其开源工具包对视觉大语言模型进行零样本评估或领域适配微调。评估时需输入视频帧和问题，模型需从多选题中选出正确答案。为提高模型表现，可整合提供的领域知识（如交通术语解释）作为上下文提示。对于微调应用，建议使用数据集中的2,880个人工标注样本进行监督训练。评测支持两种模式：IndividualEval（单次推理）和更严格的GroupEval（多次轮换选项验证一致性）。结果分析应重点关注模型在安全关键场景中的感知-推理差距，以及不同能力层级的表现差异。

背景与挑战

背景概述

DVBench是由弗吉尼亚理工大学的Tong Zeng、Longfeng Wu、Liang Shi、Dawei Zhou和Feng Guo等研究人员于2025年提出的一个开创性基准测试，旨在评估视觉大语言模型（VLLMs）在安全关键驾驶视频理解中的性能。该数据集围绕一个层次化的能力分类体系构建，与高度自动化驾驶系统评估中广泛采用的驾驶场景描述框架保持一致，包含10,000个人工标注的多选题，全面评估VLLMs在感知和推理方面的能力。DVBench的推出填补了现有基准测试在安全关键场景评估上的空白，为自动驾驶领域的研究提供了重要的评估工具和研究路线图。

当前挑战

DVBench面临的挑战主要包括：1) 安全关键事件的稀有性，导致数据集高度不平衡；2) 现有基准测试缺乏对驾驶场景中时空理解的评估；3) 评估范围狭窄，无法全面覆盖驾驶知识的各个方面。在构建过程中，DVBench需要解决视频选择和处理的复杂性、多选题库的质量控制、以及领域知识的有效整合等问题。此外，评估策略的设计也需要克服模型位置偏差和随机猜测带来的挑战，确保评估的公平性和可靠性。

常用场景

经典使用场景

DVBench数据集专为评估视觉大语言模型（VLLMs）在安全关键驾驶场景中的视频理解能力而设计。通过包含10,000个多项选择题的丰富数据集，DVBench能够全面测试模型在复杂驾驶环境中的感知和推理能力。其经典使用场景包括自动驾驶系统的安全性能评估、驾驶场景理解的模型优化以及多模态模型的基准测试。

实际应用

在实际应用方面，DVBench为自动驾驶技术的开发提供了重要支持。汽车制造商和研究机构可以利用该数据集来测试和优化其自动驾驶系统的视觉理解能力。此外，保险行业可以借助DVBench评估自动驾驶系统在危险情况下的反应能力，从而更准确地定价相关保险产品。数据集还可用于培训自动驾驶系统的安全测试工程师，提高他们对复杂场景的理解和分析能力。

衍生相关工作

DVBench的发布催生了一系列相关研究工作。基于该数据集，研究人员开发了多种针对自动驾驶场景优化的VLLM模型，如DriveVLM和DriveGPT-4等。这些工作不仅扩展了VLLM在自动驾驶领域的应用，还推动了多模态理解技术的发展。此外，DVBench的评估方法也被其他领域的研究所借鉴，促进了更严谨的模型评估标准的建立。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集