DriveBench

github2025-01-08 更新2025-01-09 收录

下载链接：

https://github.com/drive-bench/toolkit

下载链接

链接失效反馈

官方服务：

资源简介：

我们介绍了:blue_car: **DriveBench**，一个基准数据集，旨在评估VLM在**17种设置**（干净、损坏和仅文本输入）下的可靠性，涵盖**19,200帧**、**20,498个问答对**、**三种问题类型**、**四种主流驾驶任务**和**总共12个流行的VLM**。我们的研究结果表明，VLM通常生成基于一般知识或文本线索的合理响应，而不是真正的视觉基础，尤其是在视觉输入退化或缺失的情况下。这种行为由于数据集不平衡和评估指标不足而被掩盖，在自动驾驶等安全关键场景中构成重大风险。

We introduce :blue_car: **DriveBench**, a benchmark dataset designed to evaluate the reliability of VLMs across **17 settings** (clean, corrupted, and text-only inputs), spanning **19,200 frames**, **20,498 question-answer pairs**, **three question types**, **four mainstream driving tasks**, and a total of **12 popular VLMs**. Our findings demonstrate that VLMs often generate plausible responses based on general knowledge or textual cues rather than true visual grounding, particularly when visual inputs are degraded or missing. This behavior is masked by dataset imbalance and insufficient evaluation metrics, posing significant risks in safety-critical scenarios such as autonomous driving.

创建时间：

2025-01-01

原始信息汇总

数据集概述

数据集名称

DriveBench

数据集简介

DriveBench 是一个用于评估视觉语言模型（VLM）在自动驾驶场景中的可靠性的基准数据集。该数据集涵盖了17种不同的设置（包括干净、损坏和仅文本输入），包含19,200帧图像、20,498个问答对、三种问题类型、四种主流驾驶任务，并评估了12种流行的VLM模型。

数据集特点

数据规模：19,200帧图像，20,498个问答对。
任务类型：涵盖感知、预测、行为和规划四种主流驾驶任务。
评估设置：包括干净、损坏和仅文本输入三种设置。
评估模型：12种流行的VLM模型。

数据集结构

问题类型：三种问题类型（MCQ、VQA、CAP）。
任务类型：感知、预测、行为和规划。
评估指标：准确率（Acc）、语言模型评估（Language）、GPT评估（GPT、GPT<sub>ctx</sub>）。

数据集对比

DriveBench 在多个方面优于其他基准数据集，如BDD-X、BDD-OIA、nuScenes-QA等，特别是在任务覆盖范围和数据规模上。

数据集更新

2025.01：评估数据可在 HuggingFace Dataset Card 上访问。
2025.01：DriveBench 项目正式发布，详细信息请参考 Project Page 和 Preprint。

数据集使用

安装：参考 INSTALL.md 进行安装和环境设置。
数据准备：参考 DATA_PREPAER.md 准备数据集。
快速开始：参考 GET_STARTED.md 了解代码库的使用方法。

数据集评估结果

DriveBench 对多种VLM模型进行了评估，包括商业模型（如GPT-4o）、开源模型（如LLaVA-1.5、LLaVA-NeXT、InternVL2等）和专用模型（如DriveLM-Agent、Dolphins等）。评估结果涵盖了感知、预测、行为和规划任务在不同输入条件下的表现。

数据集鲁棒性分析

DriveBench 还对模型在不同条件下的鲁棒性进行了分析，包括天气、外部环境、传感器、运动和传输等方面。

数据集引用

如需引用该数据集，请参考相关论文和项目页面。

搜集汇总

数据集介绍

构建方式

DriveBench数据集的构建旨在评估视觉语言模型（VLM）在自动驾驶场景中的可靠性。该数据集涵盖了17种不同的设置，包括干净、损坏和仅文本输入的情况，共包含19,200帧图像和20,498个问答对。数据集的构建过程涉及对多种驾驶任务（如感知、预测、行为和规划）的全面覆盖，并通过图形化的逻辑结构进行组织，以确保数据的多样性和复杂性。此外，数据集还特别关注了视觉输入退化或缺失情况下的模型表现，以揭示模型在安全关键场景中的潜在风险。

特点

DriveBench数据集的特点在于其广泛的覆盖范围和多样化的任务设置。它不仅包含了大量的图像帧和问答对，还涵盖了三种问题类型和四种主流驾驶任务。数据集特别强调了视觉输入的质量对模型输出的影响，通过引入损坏和仅文本输入的场景，揭示了模型在视觉信息不完整或缺失时的表现。此外，DriveBench还提供了多种评估指标，包括准确性、语言模型评分和上下文感知的GPT评分，使得研究者能够全面评估模型的性能。

使用方法

使用DriveBench数据集时，研究者可以通过访问HuggingFace平台获取评估数据。数据集的安装和环境配置详细说明可在INSTALL.md文件中找到，而数据准备步骤则在DATA_PREPAER.md中进行了详细描述。为了快速上手，研究者可以参考GET_STARTED.md文件，了解如何使用该数据集进行模型评估。DriveBench支持多种视觉语言模型的评估，包括商业模型、开源模型和专用模型，研究者可以根据需要选择合适的模型进行测试，并通过数据集提供的丰富评估指标进行性能分析。

背景与挑战

背景概述

DriveBench数据集由加州大学欧文分校、上海人工智能实验室、新加坡国立大学等机构的研究团队于2025年推出，旨在评估视觉语言模型（VLMs）在自动驾驶领域的可靠性。该数据集包含19,200帧图像、20,498个问答对，涵盖17种不同的输入设置（如干净、损坏和仅文本输入），并涉及感知、预测、行为和规划等四大主流驾驶任务。研究团队发现，VLMs在视觉输入退化或缺失时，往往依赖通用知识或文本线索生成看似合理的回答，而非基于真实的视觉基础，这为自动驾驶等安全关键场景带来了潜在风险。DriveBench的推出填补了现有基准数据集在全面性和鲁棒性评估上的不足，为自动驾驶领域的研究提供了新的评估工具。

当前挑战

DriveBench数据集在构建和应用过程中面临多重挑战。首先，自动驾驶场景的复杂性要求模型在感知、预测、行为和规划等多个任务上具备高度可靠性，而现有VLMs在这些任务上的表现尚不理想，尤其是在视觉输入受损或缺失的情况下，模型容易生成基于文本线索而非真实视觉信息的回答。其次，数据集的构建需要平衡不同输入条件下的样本分布，以确保评估的全面性和公平性。此外，现有的评估指标可能无法充分反映模型在真实驾驶场景中的表现，尤其是在鲁棒性和安全性方面。这些挑战不仅影响了模型的评估效果，也对自动驾驶系统的实际应用提出了更高的要求。

常用场景

经典使用场景

DriveBench数据集在自动驾驶领域中被广泛用于评估视觉语言模型（VLM）的可靠性。通过涵盖17种不同设置（包括干净、损坏和仅文本输入），该数据集提供了19,200帧图像和20,498个问答对，覆盖了感知、预测、行为和规划四大主流驾驶任务。研究人员利用该数据集对12种主流VLM进行系统性评估，揭示模型在视觉输入退化或缺失情况下的表现，从而为自动驾驶系统的安全性提供重要参考。

实际应用

在实际应用中，DriveBench数据集为自动驾驶系统的开发和测试提供了重要支持。通过模拟多种驾驶场景（如恶劣天气、传感器故障等），该数据集帮助开发者评估和优化视觉语言模型在复杂环境中的表现。此外，DriveBench还为自动驾驶系统的标准化测试提供了基准，推动了行业在安全性和可靠性方面的技术进步。

衍生相关工作

DriveBench数据集的发布催生了一系列相关研究工作，特别是在自动驾驶领域的视觉语言模型优化方面。例如，基于DriveBench的研究提出了多种改进模型鲁棒性的方法，包括多模态融合技术和对抗训练策略。此外，该数据集还启发了其他领域的研究，如智能交通系统和机器人导航，推动了多模态人工智能技术的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集