Impromptu VLA Dataset
收藏arXiv2025-05-30 更新2025-05-31 收录
下载链接:
https://github.com/ahydchh/Impromptu-VLA
下载链接
链接失效反馈资源简介:
Impromptu VLA数据集是一个针对自动驾驶中非结构化场景的大型数据集,由超过80,000个精心挑选和验证的视频剪辑组成,这些视频剪辑来自8个开源的大型数据集。该数据集专注于四种具有挑战性的非结构化场景类型:边界不清晰的路面、临时交通规则变化、非常规动态障碍和具有挑战性的道路条件。数据集支持包括场景理解、预测、元规划和轨迹规划在内的相互关联的VLA任务。
The Impromptu VLA Dataset is a large-scale dataset targeting unstructured autonomous driving scenarios, consisting of over 80,000 carefully selected and validated video clips sourced from 8 open-source large-scale datasets. This dataset focuses on four challenging types of unstructured driving scenarios: poorly defined road surfaces, temporary traffic regulation changes, unconventional dynamic obstacles, and demanding road conditions. It supports a series of interrelated VLA tasks including scene understanding, prediction, meta-planning, and trajectory planning.
提供机构:
清华大学
创建时间:
2025-05-30
原始信息汇总
Impromptu-VLA 数据集概述
数据集基本信息
- 名称: Impromptu-VLA
- 类型: 驾驶视觉-语言-动作模型数据集
- 许可证: GitHub仓库显示为开源许可证
- 相关论文: arXiv:2505.23757
- 项目主页: Impromptu-VLA.c7w.tech
数据集内容
- 数据来源: 包含
waymo和mapillary_sls数据集的处理数据 - 数据组织:
- 原始数据需按
data_raw目录组织 - 需创建
navsim符号链接指向原始数据路径
- 原始数据需按
- 数据处理: 提供数据生成脚本
scripts/data_qa_generate.sh
数据集访问
- 下载地址: HuggingFace数据集页面
相关模型
- 预训练模型: 提供6个不同配置的预训练模型,包括3B和7B版本
- 3B Base+nuScenes
- 3B Base+Impromptu
- 3B Base+Impromptu+nuScenes
- 7B Base+nuScenes
- 7B Base+Impromptu
- 7B Base+Impromptu+nuScenes
- 模型下载: 所有模型均托管在HuggingFace模型库
性能评估
开环轨迹预测性能(nuScenes数据集)
- 评估指标: L2误差(m)
- 最佳表现:
- 1s: 0.13m (3B/7B Base+Impromptu+nuScenes)
- 2s: 0.27m (3B/7B Base+Impromptu+nuScenes)
- 3s: 0.48m (DriveVLM-Dual)
- 平均: 0.29m (EMMA+)
NeuroNCAP评估
- 评估指标:
- NeuroNCAP评分(越高越好)
- 碰撞率(%)(越低越好)
- 最佳表现:
- NeuroNCAP平均分: 2.15 (Base+Impromptu+nuScenes)
- 平均碰撞率: 65.5% (Base+Impromptu+nuScenes)
使用工具
- 主要依赖库:
- sglang: 高效大语言模型服务
- LLaMA-Factory: 大语言模型微调框架
- vLLM: 高吞吐量推理库
搜集汇总
数据集介绍
构建方式
Impromptu VLA Dataset是通过从8个开源大规模数据集中精心筛选和标注超过80,000个视频片段构建而成。这些数据集包括Mapillary、ONCE、NAVSIM、nuScenes、Waymo、Argoverse、KITTI和IDD。构建过程采用了先进的视觉语言模型(VLM)和链式思维(Chain-of-Thought)推理技术,对每个关键片段进行多任务标注,包括场景描述、交通信号检测、动态物体运动预测等。所有标注均经过严格的人工验证,确保数据的高质量和可靠性。
特点
Impromptu VLA Dataset专注于四种具有挑战性的非结构化驾驶场景:边界模糊的道路、临时交通规则变化、非常规动态障碍物和恶劣道路条件。该数据集不仅包含丰富的视觉数据,还提供了面向规划的问答标注和动作轨迹,支持场景理解、预测、元规划和轨迹规划等互联任务。其独特之处在于对非结构化场景的系统分类和全面的多任务标注,填补了现有数据资源的空白。
使用方法
Impromptu VLA Dataset可用于训练和评估视觉语言动作(VLA)模型在非结构化驾驶场景中的表现。研究人员可以将其用于端到端自动驾驶模型的训练,特别是在处理复杂和不可预测的道路条件时。数据集中的问答标注可作为诊断工具,评估模型在感知、预测和规划方面的能力。使用该数据集时,建议先进行预训练,再在特定基准(如nuScenes)上进行微调,以充分利用其在非结构化场景中的优势。
背景与挑战
背景概述
Impromptu VLA Dataset是由清华大学AIR实验室与博世研究院等机构合作,于2025年提出的专注于自动驾驶视觉-语言-动作(VLA)模型训练的大规模数据集。该数据集从8个开源自动驾驶数据集中精选了8万条视频片段,重点针对道路边界模糊、临时交通规则变化、非常规动态障碍物和恶劣道路条件四类非结构化场景,填补了现有数据在复杂驾驶场景覆盖上的空白。数据集通过链式思维(Chain-of-Thought)提示和人工验证的双重标注流程,构建了包含场景理解、轨迹预测、元动作规划等任务的问答对,显著提升了VLA模型在NeuroNCAP和nuScenes等基准测试中的性能表现。
当前挑战
该数据集主要解决自动驾驶在非结构化场景下的泛化能力挑战,具体包括:1) 领域问题挑战:传统自动驾驶系统在缺乏明确车道线、临时交通管制或突发障碍物等复杂场景中表现不佳;2) 构建过程挑战:需从200万原始片段中精准识别四类非结构化场景,涉及多源数据频率对齐、VLM标注稳定性校验,以及保持轨迹预测与场景语义的一致性。此外,数据标注需平衡自动化效率(使用Qwen2.5-VL 72B模型)与人工验证精度,确保复杂场景标注的可靠性。
常用场景
经典使用场景
Impromptu VLA数据集专为自动驾驶领域设计,特别关注非结构化道路场景下的视觉-语言-动作(VLA)模型训练。该数据集包含超过80,000个视频片段,涵盖四种关键的非结构化场景类型:边界模糊的道路、临时交通规则变化、非常规动态障碍物和恶劣道路条件。这些场景为VLA模型提供了丰富的训练素材,帮助模型在复杂环境中提升感知、预测和规划能力。
衍生相关工作
Impromptu VLA数据集已衍生出多项经典研究工作,如DriveVLM和OmniDrive等基于VLA模型的自动驾驶系统。这些工作利用该数据集的多任务标注和规划导向的问答对,进一步推动了自动驾驶领域的发展。此外,该数据集还被用于开发新的评估基准和诊断工具,帮助研究者更全面地评估模型在非结构化场景中的表现。
数据集最近研究
最新研究方向
近年来,Impromptu VLA数据集在自动驾驶领域引起了广泛关注,特别是在处理非结构化道路场景方面。该数据集专注于四种关键类型的非结构化“极端情况”场景,包括边界不清的道路、临时交通规则变化、非常规动态障碍物和具有挑战性的道路条件。这些场景对现有的自动驾驶系统提出了严峻挑战,推动了视觉-语言-动作(VLA)模型在场景理解、预测、元规划和轨迹规划等任务中的研究。实验结果表明,使用Impromptu VLA数据集训练的VLA模型在闭环NeuroNCAP评分和开环nuScenes轨迹预测中均取得了显著性能提升。此外,该数据集的问答套件作为一种有效的诊断工具,揭示了VLA模型在感知、预测和规划能力上的明显改进。
相关研究论文
- 1Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models清华大学 · 2025年
以上内容由遇见数据集搜集并总结生成



