DriveBench|自动驾驶数据集|视觉语言模型数据集
收藏arXiv2025-01-08 更新2025-01-09 收录
下载链接:
https://huggingface.co/datasets/drive-bench/arena
下载链接
链接失效反馈加速链接:
资源简介:
DriveBench是由上海人工智能实验室等机构创建的一个基准数据集,旨在评估视觉语言模型(VLMs)在自动驾驶任务中的可靠性。该数据集包含19,200帧图像和20,498个问答对,涵盖感知、预测、规划和解释等四大主流驾驶任务,并在17种不同的设置(如干净、损坏和纯文本输入)下进行评估。数据集的内容包括多种问题类型(如多选题、开放式问题和视觉基础问题),数据来源广泛,涵盖了真实世界的自动驾驶场景。数据集的创建过程包括对现有驾驶数据集的深入分析,并通过重新采样解决了数据分布不平衡的问题。DriveBench的应用领域主要集中在自动驾驶领域,旨在揭示VLMs在视觉基础和多模态推理方面的局限性,并推动更可靠、可解释的自动驾驶决策系统的发展。
提供机构:
上海人工智能实验室
创建时间:
2025-01-08
AI搜集汇总
数据集介绍

构建方式
DriveBench数据集的构建基于DriveLM数据集,通过从DriveLM训练数据集中抽取200个关键帧,确保数据分布的平衡性。每个关键帧包含多个与不同任务相关的问题,涵盖感知、预测、规划和行为四大主流驾驶任务。问题类型包括多选题和视觉问答(VQA)。为了评估视觉语言模型(VLMs)在视觉退化条件下的可靠性,数据集还引入了15种不同类型的视觉退化,涵盖天气、外部干扰、传感器故障、运动模糊和数据传输错误等多种场景。
特点
DriveBench数据集的特点在于其多样性和复杂性。它包含19,200帧图像和20,498个问答对,涵盖17种不同的输入条件(包括干净图像、退化图像和纯文本输入)。数据集通过引入多种视觉退化场景,能够全面评估VLMs在极端条件下的表现。此外,DriveBench还提供了三种问题类型(多选题、开放式问题和视觉基础问题),确保了对VLMs的多维度评估。
使用方法
DriveBench数据集的使用方法主要包括对VLMs在自动驾驶任务中的可靠性进行评估。用户可以通过该数据集测试模型在感知、预测、规划和行为任务中的表现,尤其是在视觉退化条件下的表现。数据集提供了详细的评估指标,包括准确率、BLEU、ROUGE-L和GPT评分等,用户可以根据这些指标对模型的视觉基础能力和多模态推理能力进行深入分析。此外,数据集还支持对模型在纯文本输入条件下的表现进行评估,以揭示模型是否依赖视觉信息进行决策。
背景与挑战
背景概述
DriveBench是由上海人工智能实验室、加州大学欧文分校、新加坡国立大学等机构的研究人员于2025年提出的一个基准数据集,旨在评估视觉-语言模型(VLMs)在自动驾驶任务中的可靠性。该数据集涵盖了感知、预测、规划和行为四大主流驾驶任务,并包含19,200帧图像和20,498个问答对,涵盖了17种不同的输入条件(包括干净、损坏和纯文本输入)。DriveBench的提出填补了现有研究中VLMs在自动驾驶场景中视觉基础解释能力的空白,揭示了VLMs在视觉输入退化或缺失时可能生成的虚假响应,推动了自动驾驶领域中对模型可靠性和可解释性的进一步研究。
当前挑战
DriveBench面临的挑战主要包括两个方面:首先,VLMs在自动驾驶任务中的视觉基础解释能力不足,尤其是在视觉输入退化或缺失时,模型倾向于生成基于常识或文本线索的虚假响应,而非基于真实视觉信息的解释。这种问题在安全关键场景中尤为突出,可能导致严重的后果。其次,数据集的构建过程中存在数据分布不平衡的问题,例如在行为任务中,大多数样本的标签为‘直行’,导致模型容易记住多数类别的答案,从而影响评估的准确性。此外,现有的评估指标(如ROUGE、BLEU等)难以捕捉驾驶任务中的复杂推理和上下文理解,亟需开发更精细的评估方法来准确衡量VLMs的性能。
常用场景
经典使用场景
DriveBench数据集主要用于评估视觉-语言模型(VLMs)在自动驾驶任务中的可靠性,涵盖了感知、预测、规划和行为四大主流任务。通过多样化的输入条件(如清洁、损坏和纯文本输入),该数据集能够全面测试VLMs在不同环境下的表现,尤其是在视觉信息缺失或退化的情况下,模型是否能够生成基于真实视觉线索的解释。
解决学术问题
DriveBench解决了自动驾驶领域中VLMs的视觉基础可靠性问题。研究表明,VLMs在视觉信息缺失或损坏时,往往会生成看似合理但缺乏真实视觉基础的响应。通过引入多样化的数据损坏类型和评估指标,DriveBench揭示了现有VLMs在多模态推理和视觉损坏敏感性方面的局限性,推动了更可靠、可解释的自动驾驶决策系统的开发。
衍生相关工作
DriveBench的推出催生了一系列相关研究,特别是在自动驾驶与VLMs结合的应用中。例如,DriveLM和Dolphin等模型通过在该数据集上进行微调,进一步提升了自动驾驶任务中的视觉基础推理能力。此外,DriveBench还推动了针对多模态模型在自动驾驶中的可靠性评估方法的发展,如基于GPT的评分系统和任务特定的评估指标,这些工作为未来的自动驾驶研究提供了重要的参考和工具。
以上内容由AI搜集并总结生成



