Impromptu VLA Dataset|自动驾驶数据集|场景理解数据集
收藏Impromptu-VLA 数据集概述
数据集基本信息
- 名称: Impromptu-VLA
- 类型: 驾驶视觉-语言-动作模型数据集
- 许可证: GitHub仓库显示为开源许可证
- 相关论文: arXiv:2505.23757
- 项目主页: Impromptu-VLA.c7w.tech
数据集内容
- 数据来源: 包含
waymo
和mapillary_sls
数据集的处理数据 - 数据组织:
- 原始数据需按
data_raw
目录组织 - 需创建
navsim
符号链接指向原始数据路径
- 原始数据需按
- 数据处理: 提供数据生成脚本
scripts/data_qa_generate.sh
数据集访问
- 下载地址: HuggingFace数据集页面
相关模型
- 预训练模型: 提供6个不同配置的预训练模型,包括3B和7B版本
- 3B Base+nuScenes
- 3B Base+Impromptu
- 3B Base+Impromptu+nuScenes
- 7B Base+nuScenes
- 7B Base+Impromptu
- 7B Base+Impromptu+nuScenes
- 模型下载: 所有模型均托管在HuggingFace模型库
性能评估
开环轨迹预测性能(nuScenes数据集)
- 评估指标: L2误差(m)
- 最佳表现:
- 1s: 0.13m (3B/7B Base+Impromptu+nuScenes)
- 2s: 0.27m (3B/7B Base+Impromptu+nuScenes)
- 3s: 0.48m (DriveVLM-Dual)
- 平均: 0.29m (EMMA+)
NeuroNCAP评估
- 评估指标:
- NeuroNCAP评分(越高越好)
- 碰撞率(%)(越低越好)
- 最佳表现:
- NeuroNCAP平均分: 2.15 (Base+Impromptu+nuScenes)
- 平均碰撞率: 65.5% (Base+Impromptu+nuScenes)
使用工具
- 主要依赖库:
- sglang: 高效大语言模型服务
- LLaMA-Factory: 大语言模型微调框架
- vLLM: 高吞吐量推理库
- 1Impromptu VLA: Open Weights and Open Data for Driving Vision-Language-Action Models清华大学 · 2025年
OMIM (Online Mendelian Inheritance in Man)
OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。
www.omim.org 收录
Google Scholar
Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。
scholar.google.com 收录
TM-Senti
TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。
arXiv 收录
CosyVoice 2
CosyVoice 2是由阿里巴巴集团开发的多语言语音合成数据集,旨在通过大规模多语言数据集训练,实现高质量的流式语音合成。数据集通过有限标量量化技术改进语音令牌的利用率,并结合预训练的大型语言模型作为骨干,支持流式和非流式合成。数据集的创建过程包括文本令牌化、监督语义语音令牌化、统一文本-语音语言模型和块感知流匹配模型等步骤。该数据集主要应用于语音合成领域,旨在解决高延迟和低自然度的问题,提供接近人类水平的语音合成质量。
arXiv 收录
OpenSonarDatasets
OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。
github 收录