DriveAction

Name: DriveAction
Creator: Li Auto Inc.
Published: 2025-06-06 09:30:52
License: 暂无描述

arXiv2025-06-06 更新2025-11-28 收录

下载链接：

https://hf-mirror.com/datasets/LiAuto-DriveAction/drive-action

下载链接

链接失效反馈

官方服务：

资源简介：

DriveAction数据集是Li Auto Inc.创建的第一个专为VLA模型设计的动作驱动基准，包含从2610个驾驶场景中生成的16185个QA对。该数据集利用真实世界驾驶数据，确保广泛的场景覆盖，提供从用户实际驾驶操作中直接收集的高级离散动作标签，并实现一个基于动作的树形结构评估框架，明确链接视觉、语言和动作任务，支持全面和特定任务的评估。

DriveAction Dataset is the first action-driven benchmark tailored for VLA models, developed by Li Auto Inc. It encompasses 16,185 QA pairs generated from 2,610 driving scenarios. By utilizing real-world driving data, this dataset ensures comprehensive scene coverage, and provides high-level discrete action labels directly collected from actual user driving operations. Furthermore, it implements an action-based tree-structured evaluation framework that explicitly links visual, linguistic and action tasks, supporting both comprehensive and task-specific evaluations.

提供机构：

Li Auto Inc.

创建时间：

2025-06-06

搜集汇总

数据集介绍

构建方式

DriveAction数据集由理想汽车内部测试用户从量产级自动驾驶车辆中主动收集的真实驾驶数据构建而成，覆盖中国148个城市。数据采集后，经过多轮人工筛选与质量控制，最终精选出2610个驾驶场景，生成16185个问答对。动作标签直接源自用户的实时驾驶操作，而非事后人工标注，确保了驾驶意图的即时性与真实性。这些标签被离散化为高层级动作，以匹配端到端大模型的输出粒度，并通过多阶段人工验证排除了错误、不合理或违规的行为。

特点

该数据集的核心特点在于其动作驱动与用户偏好对齐的设计。它首次为VLA模型提供了基于真实用户驾驶偏好的基准，动作标签直接从实时操作中提取，忠实反映了人类决策时的意图。场景覆盖广泛，包含匝道、主辅路切换、导航变道、效率变道、绕行弱势道路使用者、交叉口及路段等七大类，兼顾常规与长尾挑战场景。此外，引入以动作为根的树状评估框架，将视觉、语言与动作任务系统性地关联，支持综合与任务特定评估，能够精准识别模型瓶颈。

使用方法

使用DriveAction时，模型需基于三个连续视觉帧、导航指令及自车速度等场景信息，以问答形式完成视觉、语言与动作层级任务。评估支持四种模式：全流水线模式提供视觉与语言信息；视觉仅模式仅提供视觉信息；语言仅模式仅提供语言信息；无信息模式则无任何上游信息。通过对比不同模式下的准确率，可分析模型对各模态的依赖程度。任务特定评估则针对树状结构中的每个节点进行细粒度测试，涵盖车道检测、交通灯识别、导航跟随及具体驾驶动作等14项独立任务。

背景与挑战

背景概述

在自动驾驶领域，视觉-语言-动作（VLA）模型的兴起为端到端驾驶决策带来了革命性突破，然而现有基准数据集在场景多样性、动作标注真实性及评估框架与人类驾驶偏好对齐方面仍存在显著不足。为此，理想汽车的研究团队于2025年提出了DriveAction数据集，这是首个专为VLA模型设计的动作驱动基准。该数据集涵盖2,610个真实驾驶场景，生成16,185个问答对，数据源自量产自动驾驶车辆用户的实时驾驶操作，覆盖中国148个城市，包含匝道汇入、导航变道、避让行人等七大类场景。通过引入动作根树状评估框架，DriveAction实现了视觉、语言与动作任务的系统化关联，为评估模型在复杂交通环境中的类人决策能力提供了坚实基石，对推动自动驾驶从感知到决策的全链路研究具有重要影响力。

当前挑战

DriveAction所解决的领域问题核心在于，现有自动驾驶基准难以真实反映人类驾驶偏好与决策逻辑，尤其在长尾场景如施工区、人车混行路口等，模型常因缺乏上下文信息而产生幻觉式决策。具体挑战包括：一是场景多样性与动作分布不均衡，简单直行场景占比过高而复杂交互场景覆盖不足，导致评估结果偏离实际部署风险；二是动作标签的忠实性不足，传统人工标注或事后标注无法捕捉实时驾驶意图，而DriveAction通过实时采集用户操作并多轮人工校验，确保了标签的高保真度；三是评估框架的导向性缺失，现有基准多采用前向逻辑从感知到动作，未体现以最终决策为驱动的依赖关系，DriveAction引入的动作根树状结构则动态关联视觉与语言任务，支持多模态信息缺失下的瓶颈诊断，从而精确揭示模型对视觉与语言输入的依赖程度。

常用场景

经典使用场景

DriveAction 专为视觉-语言-动作（VLA）模型设计，旨在评估自动驾驶系统在真实复杂场景中的决策能力。其核心使用场景涵盖多模态输入下的动作预测，通过提供连续视觉帧、导航指令和车速等场景信息，驱动模型完成从感知到决策的完整推理链路。该基准尤其适用于分析模型在高速公路匝道汇入、复杂路口转向、施工区域绕行及弱势道路使用者避让等典型驾驶情境中的表现，为衡量模型是否具备类人驾驶决策能力提供了标准化评测平台。

实际应用

在实际应用中，DriveAction 为自动驾驶系统的研发与迭代提供了关键支撑。汽车制造商和算法团队可借助该基准对 VLA 模型进行系统性压力测试，精准定位其在导航跟随、交通灯识别、效率变道等子任务上的性能瓶颈。该数据集覆盖中国148个城市、涵盖量产车全系车型的真实驾驶记录，确保了场景的广泛代表性。通过分析模型在不同信息输入模式下的表现差异，工程师能够优化多模态融合策略，推动更安全、更贴近人类驾驶习惯的自动驾驶系统落地。

衍生相关工作

DriveAction 的提出催生了一系列相关研究工作。其树状评估逻辑启发了后续研究者在 VLA 模型诊断中采用层级化任务分解方法，推动了面向长尾场景的专项评测工具开发。基于其用户实时操作标注的设计理念，学界开始探索更细粒度的驾驶行为编码方案，试图将连续轨迹与离散决策统一建模。此外，该数据集对导航与效率任务的深入分析，促使研究者重新审视模型在保守性与通行效率之间的权衡机制，进而衍生出强调个性化驾驶风格适配的模型优化方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集