five

DriveBench|自动驾驶数据集|视觉语言模型数据集

收藏
github2025-01-08 更新2025-01-09 收录
自动驾驶
视觉语言模型
下载链接:
https://github.com/drive-bench/toolkit
下载链接
链接失效反馈
资源简介:
我们介绍了:blue_car: **DriveBench**,一个基准数据集,旨在评估VLM在**17种设置**(干净、损坏和仅文本输入)下的可靠性,涵盖**19,200帧**、**20,498个问答对**、**三种问题类型**、**四种主流驾驶任务**和**总共12个流行的VLM**。我们的研究结果表明,VLM通常生成基于一般知识或文本线索的合理响应,而不是真正的视觉基础,尤其是在视觉输入退化或缺失的情况下。这种行为由于数据集不平衡和评估指标不足而被掩盖,在自动驾驶等安全关键场景中构成重大风险。
创建时间:
2025-01-01
原始信息汇总

数据集概述

数据集名称

DriveBench

数据集简介

DriveBench 是一个用于评估视觉语言模型(VLM)在自动驾驶场景中的可靠性的基准数据集。该数据集涵盖了17种不同的设置(包括干净、损坏和仅文本输入),包含19,200帧图像、20,498个问答对、三种问题类型、四种主流驾驶任务,并评估了12种流行的VLM模型。

数据集特点

  • 数据规模:19,200帧图像,20,498个问答对。
  • 任务类型:涵盖感知、预测、行为和规划四种主流驾驶任务。
  • 评估设置:包括干净、损坏和仅文本输入三种设置。
  • 评估模型:12种流行的VLM模型。

数据集结构

  • 问题类型:三种问题类型(MCQ、VQA、CAP)。
  • 任务类型:感知、预测、行为和规划。
  • 评估指标:准确率(Acc)、语言模型评估(Language)、GPT评估(GPT、GPT<sub>ctx</sub>)。

数据集对比

DriveBench 在多个方面优于其他基准数据集,如BDD-X、BDD-OIA、nuScenes-QA等,特别是在任务覆盖范围和数据规模上。

数据集更新

数据集使用

数据集评估结果

DriveBench 对多种VLM模型进行了评估,包括商业模型(如GPT-4o)、开源模型(如LLaVA-1.5、LLaVA-NeXT、InternVL2等)和专用模型(如DriveLM-Agent、Dolphins等)。评估结果涵盖了感知、预测、行为和规划任务在不同输入条件下的表现。

数据集鲁棒性分析

DriveBench 还对模型在不同条件下的鲁棒性进行了分析,包括天气、外部环境、传感器、运动和传输等方面。

数据集引用

如需引用该数据集,请参考相关论文和项目页面。

AI搜集汇总
数据集介绍
main_image_url
构建方式
DriveBench数据集的构建旨在评估视觉语言模型(VLM)在自动驾驶场景中的可靠性。该数据集涵盖了17种不同的设置,包括干净、损坏和仅文本输入的情况,共包含19,200帧图像和20,498个问答对。数据集的构建过程涉及对多种驾驶任务(如感知、预测、行为和规划)的全面覆盖,并通过图形化的逻辑结构进行组织,以确保数据的多样性和复杂性。此外,数据集还特别关注了视觉输入退化或缺失情况下的模型表现,以揭示模型在安全关键场景中的潜在风险。
特点
DriveBench数据集的特点在于其广泛的覆盖范围和多样化的任务设置。它不仅包含了大量的图像帧和问答对,还涵盖了三种问题类型和四种主流驾驶任务。数据集特别强调了视觉输入的质量对模型输出的影响,通过引入损坏和仅文本输入的场景,揭示了模型在视觉信息不完整或缺失时的表现。此外,DriveBench还提供了多种评估指标,包括准确性、语言模型评分和上下文感知的GPT评分,使得研究者能够全面评估模型的性能。
使用方法
使用DriveBench数据集时,研究者可以通过访问HuggingFace平台获取评估数据。数据集的安装和环境配置详细说明可在INSTALL.md文件中找到,而数据准备步骤则在DATA_PREPAER.md中进行了详细描述。为了快速上手,研究者可以参考GET_STARTED.md文件,了解如何使用该数据集进行模型评估。DriveBench支持多种视觉语言模型的评估,包括商业模型、开源模型和专用模型,研究者可以根据需要选择合适的模型进行测试,并通过数据集提供的丰富评估指标进行性能分析。
背景与挑战
背景概述
DriveBench数据集由加州大学欧文分校、上海人工智能实验室、新加坡国立大学等机构的研究团队于2025年推出,旨在评估视觉语言模型(VLMs)在自动驾驶领域的可靠性。该数据集包含19,200帧图像、20,498个问答对,涵盖17种不同的输入设置(如干净、损坏和仅文本输入),并涉及感知、预测、行为和规划等四大主流驾驶任务。研究团队发现,VLMs在视觉输入退化或缺失时,往往依赖通用知识或文本线索生成看似合理的回答,而非基于真实的视觉基础,这为自动驾驶等安全关键场景带来了潜在风险。DriveBench的推出填补了现有基准数据集在全面性和鲁棒性评估上的不足,为自动驾驶领域的研究提供了新的评估工具。
当前挑战
DriveBench数据集在构建和应用过程中面临多重挑战。首先,自动驾驶场景的复杂性要求模型在感知、预测、行为和规划等多个任务上具备高度可靠性,而现有VLMs在这些任务上的表现尚不理想,尤其是在视觉输入受损或缺失的情况下,模型容易生成基于文本线索而非真实视觉信息的回答。其次,数据集的构建需要平衡不同输入条件下的样本分布,以确保评估的全面性和公平性。此外,现有的评估指标可能无法充分反映模型在真实驾驶场景中的表现,尤其是在鲁棒性和安全性方面。这些挑战不仅影响了模型的评估效果,也对自动驾驶系统的实际应用提出了更高的要求。
常用场景
经典使用场景
DriveBench数据集在自动驾驶领域中被广泛用于评估视觉语言模型(VLM)的可靠性。通过涵盖17种不同设置(包括干净、损坏和仅文本输入),该数据集提供了19,200帧图像和20,498个问答对,覆盖了感知、预测、行为和规划四大主流驾驶任务。研究人员利用该数据集对12种主流VLM进行系统性评估,揭示模型在视觉输入退化或缺失情况下的表现,从而为自动驾驶系统的安全性提供重要参考。
实际应用
在实际应用中,DriveBench数据集为自动驾驶系统的开发和测试提供了重要支持。通过模拟多种驾驶场景(如恶劣天气、传感器故障等),该数据集帮助开发者评估和优化视觉语言模型在复杂环境中的表现。此外,DriveBench还为自动驾驶系统的标准化测试提供了基准,推动了行业在安全性和可靠性方面的技术进步。
衍生相关工作
DriveBench数据集的发布催生了一系列相关研究工作,特别是在自动驾驶领域的视觉语言模型优化方面。例如,基于DriveBench的研究提出了多种改进模型鲁棒性的方法,包括多模态融合技术和对抗训练策略。此外,该数据集还启发了其他领域的研究,如智能交通系统和机器人导航,推动了多模态人工智能技术的进一步发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Global Solar Dataset

在快速扩展的太阳能领域,找到全面的国家规模光伏(PV)数据集可能具有挑战性。资源通常分散在多个网站和API中,质量和可访问性差异显著。该仓库旨在通过将这些数据集的位置集中到一个位置来简化对这些数据集的访问,从而支持研究并促进新旧市场中太阳能预测模型的开发。

github 收录

豆瓣数据集

该数据集通过爬虫技术从豆瓣网站获取了48223条电影数据,并与movielens ml-latest数据集通过共同的imdb字段进行交集处理,最终得到15752条共同数据。数据存储格式为JSON,支持导入到MongoDB或其他数据库使用。

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

ECMWF Reanalysis v5 (ERA5)

ERA5 是第五代 ECMWF 全球气候大气再分析,涵盖从 1940 年 1 月至今的时期。ERA5 由 ECMWF 的哥白尼气候变化服务 (C3S) 制作。 ERA5 提供大量大气、陆地和海洋气候变量的每小时估计值。这些数据以 30 公里的网格覆盖地球,并使用从地表到 80 公里高度的 137 个级别解析大气。ERA5 包括有关所有变量在降低空间和时间分辨率下的不确定性的信息。

OpenDataLab 收录