Impromptu VLA Dataset|自动驾驶数据集|场景理解数据集

arXiv2025-05-30 更新2025-05-31 收录

自动驾驶

场景理解

下载链接：

https://github.com/ahydchh/Impromptu-VLA

下载链接

链接失效反馈

资源简介：

Impromptu VLA数据集是一个针对自动驾驶中非结构化场景的大型数据集，由超过80,000个精心挑选和验证的视频剪辑组成，这些视频剪辑来自8个开源的大型数据集。该数据集专注于四种具有挑战性的非结构化场景类型：边界不清晰的路面、临时交通规则变化、非常规动态障碍和具有挑战性的道路条件。数据集支持包括场景理解、预测、元规划和轨迹规划在内的相互关联的VLA任务。

提供机构：

清华大学

创建时间：

2025-05-30

原始信息汇总

Impromptu-VLA 数据集概述

数据集基本信息

名称: Impromptu-VLA
类型: 驾驶视觉-语言-动作模型数据集
许可证: GitHub仓库显示为开源许可证
相关论文: arXiv:2505.23757
项目主页: Impromptu-VLA.c7w.tech

数据集内容

数据来源: 包含waymo和mapillary_sls数据集的处理数据
数据组织:
- 原始数据需按data_raw目录组织
- 需创建navsim符号链接指向原始数据路径
数据处理: 提供数据生成脚本scripts/data_qa_generate.sh

数据集访问

下载地址: HuggingFace数据集页面

性能评估

开环轨迹预测性能(nuScenes数据集)

评估指标: L2误差(m)
最佳表现:
- 1s: 0.13m (3B/7B Base+Impromptu+nuScenes)
- 2s: 0.27m (3B/7B Base+Impromptu+nuScenes)
- 3s: 0.48m (DriveVLM-Dual)
- 平均: 0.29m (EMMA+)

NeuroNCAP评估

评估指标:
- NeuroNCAP评分(越高越好)
- 碰撞率(%)(越低越好)
最佳表现:
- NeuroNCAP平均分: 2.15 (Base+Impromptu+nuScenes)
- 平均碰撞率: 65.5% (Base+Impromptu+nuScenes)

使用工具

主要依赖库:
- sglang: 高效大语言模型服务
- LLaMA-Factory: 大语言模型微调框架
- vLLM: 高吞吐量推理库

AI搜集汇总

数据集介绍

构建方式

Impromptu VLA Dataset是通过从8个开源大规模数据集中精心筛选和标注超过80,000个视频片段构建而成。这些数据集包括Mapillary、ONCE、NAVSIM、nuScenes、Waymo、Argoverse、KITTI和IDD。构建过程采用了先进的视觉语言模型（VLM）和链式思维（Chain-of-Thought）推理技术，对每个关键片段进行多任务标注，包括场景描述、交通信号检测、动态物体运动预测等。所有标注均经过严格的人工验证，确保数据的高质量和可靠性。

特点

Impromptu VLA Dataset专注于四种具有挑战性的非结构化驾驶场景：边界模糊的道路、临时交通规则变化、非常规动态障碍物和恶劣道路条件。该数据集不仅包含丰富的视觉数据，还提供了面向规划的问答标注和动作轨迹，支持场景理解、预测、元规划和轨迹规划等互联任务。其独特之处在于对非结构化场景的系统分类和全面的多任务标注，填补了现有数据资源的空白。

使用方法

Impromptu VLA Dataset可用于训练和评估视觉语言动作（VLA）模型在非结构化驾驶场景中的表现。研究人员可以将其用于端到端自动驾驶模型的训练，特别是在处理复杂和不可预测的道路条件时。数据集中的问答标注可作为诊断工具，评估模型在感知、预测和规划方面的能力。使用该数据集时，建议先进行预训练，再在特定基准（如nuScenes）上进行微调，以充分利用其在非结构化场景中的优势。

背景与挑战

背景概述

Impromptu VLA Dataset是由清华大学AIR实验室与博世研究院等机构合作，于2025年提出的专注于自动驾驶视觉-语言-动作（VLA）模型训练的大规模数据集。该数据集从8个开源自动驾驶数据集中精选了8万条视频片段，重点针对道路边界模糊、临时交通规则变化、非常规动态障碍物和恶劣道路条件四类非结构化场景，填补了现有数据在复杂驾驶场景覆盖上的空白。数据集通过链式思维（Chain-of-Thought）提示和人工验证的双重标注流程，构建了包含场景理解、轨迹预测、元动作规划等任务的问答对，显著提升了VLA模型在NeuroNCAP和nuScenes等基准测试中的性能表现。

当前挑战

该数据集主要解决自动驾驶在非结构化场景下的泛化能力挑战，具体包括：1) 领域问题挑战：传统自动驾驶系统在缺乏明确车道线、临时交通管制或突发障碍物等复杂场景中表现不佳；2) 构建过程挑战：需从200万原始片段中精准识别四类非结构化场景，涉及多源数据频率对齐、VLM标注稳定性校验，以及保持轨迹预测与场景语义的一致性。此外，数据标注需平衡自动化效率（使用Qwen2.5-VL 72B模型）与人工验证精度，确保复杂场景标注的可靠性。

常用场景

经典使用场景

Impromptu VLA数据集专为自动驾驶领域设计，特别关注非结构化道路场景下的视觉-语言-动作（VLA）模型训练。该数据集包含超过80,000个视频片段，涵盖四种关键的非结构化场景类型：边界模糊的道路、临时交通规则变化、非常规动态障碍物和恶劣道路条件。这些场景为VLA模型提供了丰富的训练素材，帮助模型在复杂环境中提升感知、预测和规划能力。

衍生相关工作

Impromptu VLA数据集已衍生出多项经典研究工作，如DriveVLM和OmniDrive等基于VLA模型的自动驾驶系统。这些工作利用该数据集的多任务标注和规划导向的问答对，进一步推动了自动驾驶领域的发展。此外，该数据集还被用于开发新的评估基准和诊断工具，帮助研究者更全面地评估模型在非结构化场景中的表现。

数据集最近研究

相关研究论文

1
Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models清华大学 · 2025年

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

Google Scholar

Google Scholar是一个学术搜索引擎，旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域，包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集，包含超过1.84亿条推文，覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档，可以完全重新构建，包括推文元数据且无缺失推文。数据集内容丰富，涵盖多种语言，主要用于情感分析和文本分类等任务。创建过程中，研究团队精心筛选了表情符号和表情，确保数据集的质量和多样性。该数据集的应用领域广泛，旨在解决社交媒体情感表达的长期变化问题，特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

CosyVoice 2

CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集，旨在通过大规模多语言数据集训练，实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率，并结合预训练的大型语言模型作为骨干，支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域，旨在解决高延迟和低自然度的问题，提供接近人类水平的语音合成质量。

arXiv 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库，旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合，以增加开放源代码声纳数据集的可见性，并提供一个更容易查找和比较数据集的方式。

github 收录