VLADBench

Name: VLADBench
Creator: 中国科学技术大学
Published: 2025-03-27 21:45:47
License: 暂无描述

arXiv2025-03-27 更新2025-03-29 收录

下载链接：

https://github.com/Depth2World/VLADBench

下载链接

链接失效反馈

官方服务：

资源简介：

VLADBench是一个面向自动驾驶领域的挑战性和细粒度数据集，包含close-form问答，涵盖从静态基础知识到动态路面情况的先进推理。该数据集由华为诺亚方舟实验室和科大联合创建，包含5个关键领域：交通知识理解、通用元素识别、交通图生成、目标属性理解和自我决策与规划。数据集从12个公开数据源精心挑选和构建而成，旨在挑战VLM在多种复杂驾驶情境下的能力。

VLADBench is a challenging and fine-grained dataset tailored for the autonomous driving domain, which includes closed-form question answering tasks covering advanced reasoning spanning from static foundational knowledge to dynamic road surface scenarios. Co-developed by Huawei Noah's Ark Lab and the University of Science and Technology of China (USTC), the dataset encompasses five core research areas: Traffic Knowledge Understanding, General Element Recognition, Traffic Map Generation, Target Attribute Understanding, and Self-Decision-Making and Planning. It is meticulously curated and constructed from 12 public data sources, with the primary goal of challenging the capabilities of Vision-Language Models (VLMs) across various complex driving scenarios.

提供机构：

中国科学技术大学

创建时间：

2025-03-27

搜集汇总

数据集介绍

构建方式

VLADBench数据集的构建采用了多源公开数据集的手工精选与精细化标注策略，通过整合12个自动驾驶领域权威数据源（如nuScenes、GTSDB等），构建了包含2000个静态场景和3000个动态场景的多样化样本库。采用五阶段标注流程：场景筛选→视觉元素描述→问题设计→答案标注→质量双重校验，每个样本平均耗时5分钟，最终形成覆盖5大领域、11个维度、29项细粒度任务的12,000个封闭式问答对。特别注重动态元素的时间序列标注和交通知识图谱的关系构建，通过GPT-4辅助完成1.4M领域特定问题的分类与增强。

特点

该数据集的核心特征体现在三维评估体系：纵向覆盖从静态交通知识理解到动态决策规划的认知层级，横向囊括交通信号解析、意图判断等29项专业任务，深度上通过封闭式问答设计提升评估精确度。独特优势包括：1) 细粒度标注体系，如交通灯状态细分至倒计时读秒级别；2) 动态交互分析，包含3000个具有时空推理要求的驾驶场景；3) 对抗性选项设计，通过语义相似干扰项增强判别难度；4) 多模态提示机制，整合视觉标记框与文本描述线索辅助复杂推理。

使用方法

使用VLADBench需遵循结构化评估协议：输入需包含图像/视频序列及标准化提示模板（如表2所示），输出采用封闭式选择或指定格式的检测结果。评估时采用多指标加权体系，其中指令遵循率占20%，准确率按任务类型差异化加权（基础任务80%、图生成任务50%）。针对轨迹规划等特殊任务，需结合L2距离和碰撞率等专业指标。建议采用渐进式评估策略：先分领域验证基础能力，再通过跨域任务检验协同推理性能。为保障结果可靠性，需配置规则过滤器统一响应格式，并注意视觉编码器与语言模型的规模平衡。

背景与挑战

背景概述

VLADBench是由中国科学技术大学与华为诺亚方舟实验室于2025年联合推出的自动驾驶领域视觉语言模型评估基准。该数据集针对现有基准在细粒度评估方面的不足，构建了包含5大核心领域（交通知识理解、通用元素识别、交通图生成、目标属性理解、自主决策规划）、11个二级维度和29项具体任务的层次化评估体系。基于12个公开数据源精选2000个静态场景和3000个动态场景，生成12000道封闭式问题，显著提升了自动驾驶系统在复杂场景下的认知与推理能力评估精度。其创新性的领域划分方式为自动驾驶系统的可解释性研究提供了结构化评估框架，已成为测试视觉语言模型在动态交通场景中时空推理能力的重要工具。

当前挑战

该数据集主要面临三重挑战：在领域问题层面，需解决动态场景中交通参与者意图识别（如切入行为预测准确率不足60%）、多元素时空关系建模（信号灯-车道关联任务误差率达40%）等核心难题；在构建过程中，需平衡12个异构数据源的标注标准差异，并通过专家双重校验确保29类任务的评估指标一致性；在模型适配性方面，现有视觉语言模型在交通图生成等需要复杂逻辑推理的任务中表现欠佳，且领域专用数据训练易导致泛化性能下降（通用任务性能平均降低15%）。此外，动态元素的时间连续性标注（如3秒轨迹预测）对视频帧间一致性提出了极高要求。

常用场景

经典使用场景

VLADBench作为自动驾驶领域首个细粒度视觉语言模型评估基准，其经典使用场景聚焦于多模态认知与推理能力的系统性验证。该数据集通过2000个静态场景与3000个动态场景构建的封闭式问答体系，支持从交通标志识别到轨迹规划的29项分层任务评估，特别适用于验证模型在复杂交通元素关联推理（如信号灯-车道关系判断）和动态意图预测（如车辆切入意图分析）等关键场景的认知深度。

解决学术问题

该数据集有效解决了自动驾驶研究中三大核心问题：一是突破了传统基准粗粒度分类的局限，通过5大领域11个维度构建层次化评估体系；二是填补了动态场景时空推理的评估空白，包含3000个涵盖参与者意图判断的时序场景；三是攻克了领域数据同质化难题，整合12个异构数据源的1.4M领域专属问答，为模型零样本泛化能力测试提供多样化验证环境。其细粒度标注体系显著提升了自动驾驶系统可解释性研究的精度。

衍生相关工作

该数据集催生了多个里程碑式研究：DriveLM利用其层级结构构建了首个基于图推理的驾驶问答系统；Qwen-VL团队通过基准测试发现视觉编码器扩展比语言模型缩放更关键，推动了大模型轻量化部署；后续工作Reason2Drive则受其动态场景启发，开发了链式推理框架。这些衍生研究共同推动了认知型自动驾驶系统的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集