five

DriveBench|自动驾驶数据集|视觉语言模型数据集

收藏
arXiv2025-01-08 更新2025-01-09 收录
自动驾驶
视觉语言模型
下载链接:
https://huggingface.co/datasets/drive-bench/arena
下载链接
链接失效反馈
资源简介:
DriveBench是由上海人工智能实验室等机构创建的一个基准数据集,旨在评估视觉语言模型(VLMs)在自动驾驶任务中的可靠性。该数据集包含19,200帧图像和20,498个问答对,涵盖感知、预测、规划和解释等四大主流驾驶任务,并在17种不同的设置(如干净、损坏和纯文本输入)下进行评估。数据集的内容包括多种问题类型(如多选题、开放式问题和视觉基础问题),数据来源广泛,涵盖了真实世界的自动驾驶场景。数据集的创建过程包括对现有驾驶数据集的深入分析,并通过重新采样解决了数据分布不平衡的问题。DriveBench的应用领域主要集中在自动驾驶领域,旨在揭示VLMs在视觉基础和多模态推理方面的局限性,并推动更可靠、可解释的自动驾驶决策系统的发展。
提供机构:
上海人工智能实验室
创建时间:
2025-01-08
AI搜集汇总
数据集介绍
main_image_url
构建方式
DriveBench数据集的构建基于DriveLM数据集,通过从DriveLM训练数据集中抽取200个关键帧,确保数据分布的平衡性。每个关键帧包含多个与不同任务相关的问题,涵盖感知、预测、规划和行为四大主流驾驶任务。问题类型包括多选题和视觉问答(VQA)。为了评估视觉语言模型(VLMs)在视觉退化条件下的可靠性,数据集还引入了15种不同类型的视觉退化,涵盖天气、外部干扰、传感器故障、运动模糊和数据传输错误等多种场景。
特点
DriveBench数据集的特点在于其多样性和复杂性。它包含19,200帧图像和20,498个问答对,涵盖17种不同的输入条件(包括干净图像、退化图像和纯文本输入)。数据集通过引入多种视觉退化场景,能够全面评估VLMs在极端条件下的表现。此外,DriveBench还提供了三种问题类型(多选题、开放式问题和视觉基础问题),确保了对VLMs的多维度评估。
使用方法
DriveBench数据集的使用方法主要包括对VLMs在自动驾驶任务中的可靠性进行评估。用户可以通过该数据集测试模型在感知、预测、规划和行为任务中的表现,尤其是在视觉退化条件下的表现。数据集提供了详细的评估指标,包括准确率、BLEU、ROUGE-L和GPT评分等,用户可以根据这些指标对模型的视觉基础能力和多模态推理能力进行深入分析。此外,数据集还支持对模型在纯文本输入条件下的表现进行评估,以揭示模型是否依赖视觉信息进行决策。
背景与挑战
背景概述
DriveBench是由上海人工智能实验室、加州大学欧文分校、新加坡国立大学等机构的研究人员于2025年提出的一个基准数据集,旨在评估视觉-语言模型(VLMs)在自动驾驶任务中的可靠性。该数据集涵盖了感知、预测、规划和行为四大主流驾驶任务,并包含19,200帧图像和20,498个问答对,涵盖了17种不同的输入条件(包括干净、损坏和纯文本输入)。DriveBench的提出填补了现有研究中VLMs在自动驾驶场景中视觉基础解释能力的空白,揭示了VLMs在视觉输入退化或缺失时可能生成的虚假响应,推动了自动驾驶领域中对模型可靠性和可解释性的进一步研究。
当前挑战
DriveBench面临的挑战主要包括两个方面:首先,VLMs在自动驾驶任务中的视觉基础解释能力不足,尤其是在视觉输入退化或缺失时,模型倾向于生成基于常识或文本线索的虚假响应,而非基于真实视觉信息的解释。这种问题在安全关键场景中尤为突出,可能导致严重的后果。其次,数据集的构建过程中存在数据分布不平衡的问题,例如在行为任务中,大多数样本的标签为‘直行’,导致模型容易记住多数类别的答案,从而影响评估的准确性。此外,现有的评估指标(如ROUGE、BLEU等)难以捕捉驾驶任务中的复杂推理和上下文理解,亟需开发更精细的评估方法来准确衡量VLMs的性能。
常用场景
经典使用场景
DriveBench数据集主要用于评估视觉-语言模型(VLMs)在自动驾驶任务中的可靠性,涵盖了感知、预测、规划和行为四大主流任务。通过多样化的输入条件(如清洁、损坏和纯文本输入),该数据集能够全面测试VLMs在不同环境下的表现,尤其是在视觉信息缺失或退化的情况下,模型是否能够生成基于真实视觉线索的解释。
解决学术问题
DriveBench解决了自动驾驶领域中VLMs的视觉基础可靠性问题。研究表明,VLMs在视觉信息缺失或损坏时,往往会生成看似合理但缺乏真实视觉基础的响应。通过引入多样化的数据损坏类型和评估指标,DriveBench揭示了现有VLMs在多模态推理和视觉损坏敏感性方面的局限性,推动了更可靠、可解释的自动驾驶决策系统的开发。
衍生相关工作
DriveBench的推出催生了一系列相关研究,特别是在自动驾驶与VLMs结合的应用中。例如,DriveLM和Dolphin等模型通过在该数据集上进行微调,进一步提升了自动驾驶任务中的视觉基础推理能力。此外,DriveBench还推动了针对多模态模型在自动驾驶中的可靠性评估方法的发展,如基于GPT的评分系统和任务特定的评估指标,这些工作为未来的自动驾驶研究提供了重要的参考和工具。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录

China Groundgroundwater Monitoring Network

该数据集包含中国地下水监测网络的数据,涵盖了全国范围内的地下水位、水质和相关环境参数的监测信息。数据包括但不限于监测站点位置、监测时间、水位深度、水质指标(如pH值、溶解氧、总硬度等)以及环境因素(如气温、降水量等)。

www.ngac.org.cn 收录

FAOSTAT Agricultural Data

FAOSTAT Agricultural Data 是由联合国粮食及农业组织(FAO)提供的全球农业数据集。该数据集涵盖了农业生产、贸易、价格、土地利用、水资源、气候变化、人口统计等多个方面的详细信息。数据包括了全球各个国家和地区的农业统计数据,旨在为政策制定者、研究人员和公众提供全面的农业信息。

www.fao.org 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录