AutoDriDM

github2026-02-07 更新2026-02-09 收录

下载链接：

https://github.com/Colamentos2023/AutoDriDM

下载链接

链接失效反馈

官方服务：

资源简介：

AutoDriDM是一个以决策为中心的渐进式基准数据集，用于评估视觉语言模型在自动驾驶中的感知→场景理解→决策能力。数据集包含6,650个问题，覆盖对象、场景和决策三个维度，基于1,295张前视图像构建。每个问题项都有5级风险标签，支持推理轨迹分析和失败模式分类。

AutoDriDM is a decision-centric progressive benchmark dataset designed to evaluate the perception → scene understanding → decision-making capabilities of vision-language models in autonomous driving. It contains 6,650 questions covering three dimensions: objects, scenarios and decision-making, and is constructed based on 1,295 forward-facing images. Each question item is annotated with a 5-level risk label, enabling inference trajectory analysis and failure mode classification.

创建时间：

2026-02-07

原始信息汇总

AutoDriDM 数据集概述

数据集基本信息

数据集名称：AutoDriDM
核心定位：一个用于评估自动驾驶领域视觉语言模型决策能力的、可解释的基准测试。
主要目标：弥合以感知为中心和以决策为中心的评估之间的差距，为现实世界自动驾驶中更安全、更可靠的视觉语言模型提供指导。
论文地址：https://arxiv.org/abs/2601.14702
数据集地址：https://huggingface.co/datasets/ColamentosZJU/AutoDriDM
许可证：Apache License 2.0

数据集规模与结构

数据总量：包含 6,650 个问答项目。
数据来源：基于 1,295 张前视图像构建。原始图像来自 nuScenes、KITTI 和 BDD100K 三个数据集，需自行下载。
评估协议：采用渐进式三级评估结构。
1. 对象级：感知关键对象及其状态。
2. 场景级：全局场景理解和关键上下文因素。
3. 决策级：驾驶动作选择和风险意识。
任务构成：共包含 6 项任务，每个级别 2 项。
风险标注：每个问答项目均标注有 5 级风险标签（danger_score ∈ {1,2,3,4,5}），其中 1 表示风险最小，5 表示风险严重。平均风险评分 ≥ 4.0 可定义为高风险场景。

数据文件详情

数据集包含六个 JSON 文件，分别对应六项任务：

对象级任务（单项选择）
- Object-1.json：识别对驾驶决策最重要的对象。
- Object-2.json：判断指定关键对象的状态（例如，交通灯状态）。
场景级任务（多项选择）
- Scene-1.json：识别天气/光照条件（例如，白天、夜晚、雨、雪、浓雾）。
- Scene-2.json：识别可能影响驾驶决策的特殊场景因素（例如，事故现场、施工区域）。
决策级任务（单项选择）
- Decision-1.json：为自车选择最优驾驶动作。
- Decision-2.json：评估指定（可能次优）动作的风险等级。

数据格式

每个 JSON 文件是一个对象数组，每个对象包含以下字段：

image_name (字符串)：图像标识符/路径。
taskX_q (字符串)：任务 X 的问题文本。
taskX_o (字符串)：选项字符串（例如："A....; B....; C...."）。
taskX_a (字符串)：答案字母。
- 单项选择：单个字母（例如："C"）。
- 多项选择：逗号分隔的字母（例如："A,C"）。
danger_score (整数或字符串)：5 级风险标签。

数据集特色

可解释性分析：支持对模型推理过程进行归因分析，包含分类的失败模式，并引入了分析器模型以实现大规模自动标注。
评估结果：提供了主流视觉语言模型的评估结果与分析，包括整体性能雷达图、高风险场景性能雷达图、错误类别统计、相似场景鲁棒性示例以及可解释性案例分析。相关图表位于 docs/figs/ 目录下。

搜集汇总

数据集介绍

构建方式

在自动驾驶领域，评估模型决策能力需构建严谨的基准数据集。AutoDriDM基于nuScenes、KITTI和BDD100K三大公开数据集的1295张前视图像，通过人工标注与自动化分析相结合的方式，构建了涵盖对象、场景与决策三个渐进层次的6650个问答项。每个问答项均标注了五级风险标签，并引入分析器模型对推理过程进行大规模自动化错误分类，从而形成结构化的评估体系。

使用方法

使用者需从Hugging Face平台获取六个JSON格式的标注文件，并自行从原始数据源下载对应图像。通过加载JSON文件，可按照对象识别、场景理解与决策选择三个层次进行任务评估。数据集支持对模型答案与风险标签的联合分析，便于开展性能对比与错误归因研究，为自动驾驶系统的可靠性与安全性评估提供标准化基准。

背景与挑战

背景概述

自动驾驶领域长期面临复杂环境下可靠感知与安全决策的双重挑战。随着视觉-语言模型展现出卓越的推理与泛化能力，为自动驾驶系统注入了新的潜力；然而，现有基准测试过度聚焦于感知性能，未能系统评估模型的决策过程。在此背景下，浙江大学与香港大学的研究团队于2026年推出了AutoDriDM数据集，该数据集作为一项解释性基准，旨在填补感知评估与决策评估之间的鸿沟。其核心研究问题在于明确视觉-语言模型在自动驾驶中从感知到决策的能力边界，通过包含6,650个问题的三层渐进式结构，推动领域向更安全、可解释的自主系统发展。

当前挑战

AutoDriDM致力于解决自动驾驶中视觉-语言模型决策能力评估的挑战。首要挑战在于领域问题本身：自动驾驶决策需在动态、多变的真实场景中整合感知信息、理解全局语境并进行风险感知，现有模型常出现逻辑推理错误或感知与决策性能弱对齐等问题。在数据集构建过程中，挑战体现在如何从nuScenes、KITTI和BDD100K等异构数据源中系统构建渐进式评估协议，并为每个问题标注精确的风险等级与解释性分析标签，这要求设计严谨的标注框架与自动化分析模型以确保数据质量与规模。

常用场景

经典使用场景

在自动驾驶领域，视觉-语言模型（VLMs）的评估长期侧重于感知能力，而决策过程的系统性评测相对匮乏。AutoDriDM通过其渐进式评估框架，为研究者提供了一个经典的使用场景：系统性地评估VLMs从对象感知、场景理解到驾驶决策的完整能力边界。该数据集包含6,650个问答项目，覆盖三个渐进层次，使得模型在复杂驾驶环境中的推理与决策能力得以量化分析，尤其在高风险场景下的表现成为评估焦点。

解决学术问题

AutoDriDM主要解决了自动驾驶研究中视觉-语言模型评估的片面性问题。传统基准过度强调感知能力，忽视了决策过程的安全性与可靠性，导致模型在实际应用中的决策边界模糊。该数据集通过引入风险感知标签和可解释性分析，揭示了感知性能与决策能力之间的弱相关性，并识别出逻辑推理错误等关键失效模式。这为构建更安全、可靠的自动驾驶系统提供了理论依据与评估标准，推动了领域从感知中心向决策中心的范式转变。

实际应用

在实际应用中，AutoDriDM可作为自动驾驶系统开发与测试的重要工具。汽车制造商与科技公司可利用该数据集对车载视觉-语言模型进行端到端评估，特别是在高风险驾驶场景（如恶劣天气、事故区域）中验证模型的决策稳健性。此外，其可解释性分析框架能够帮助工程师定位模型失效原因，优化算法设计，从而提升自动驾驶车辆在真实道路环境中的安全性与适应性，为商业化落地提供技术支撑。

数据集最近研究