found-rl_dataset
收藏Found-RL 数据集概述
数据集简介
该数据集包含从CARLA模拟器收集的大规模演示数据,旨在为自动驾驶任务微调视觉语言模型。它作为论文**“Found-RL: Foundation Model-Enhanced Reinforcement Learning for Autonomous Driving”的数据基础。数据集包含使用专家策略在三个不同基准上收集的约137.4万次状态-动作转移**。
关键信息
- 许可证: apache-2.0
- 标签: autonomous-driving, carla, imitation-learning, vlm, found-rl
- 规模分类: 10G-100G
- 数据格式: 压缩的
.tar.gz存档文件 - 论文: Found-RL: foundation model-enhanced reinforcement learning for autonomous driving
- 代码仓库: https://github.com/ys-qu/found-rl
数据集统计与构成
数据集在三个主要基准上收集,以确保驾驶场景的多样性。总数据集包含约137.4万次转移。
| 基准 | 专家策略 | 回合数 | 状态-动作转移次数 |
|---|---|---|---|
| CARLA排行榜 | Roach PPO专家 (Zhang et al., 2021) | 160 | 约457k |
| NoCrash基准 | 自动驾驶漫游专家 | 80 | 约235k |
| CARLA挑战赛 | 自动驾驶漫游专家 | 240 | 约682k |
| 总计 | - | 480 | 约137.4万 |
数据收集方法
1. 专家策略
- 排行榜基准: 使用Roach PPO专家策略 (Zhang et al., 2021) 收集数据。
- NoCrash与挑战赛基准: 使用自动驾驶漫游专家策略收集数据。
2. 约束与过滤
为确保VLM微调的高质量训练数据,在收集过程中应用了以下约束:
- 最大持续时间: 每个回合的最大持续时间设置为300秒。
- 碰撞过滤: 应用了终端步骤过滤规则。碰撞事件发生前的一小段步骤被丢弃,确保数据集仅包含每个回合有效、安全的部分。
3. 用途
该数据旨在与开源框架(例如,open_clip、LLaVA代码库)一起使用,以微调VLM,为其提供专家级的驾驶理解。
引用
如果研究中使用此数据集,请引用论文: bibtex @misc{qu2026foundrl, title={Found-RL: foundation model-enhanced reinforcement learning for autonomous driving}, author={Yansong Qu and Zihao Sheng and Zilin Huang and Jiancong Chen and Yuhao Luo and Tianyi Wang and Yiheng Feng and Samuel Labi and Sikai Chen}, year={2026}, eprint={2602.10458}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2602.10458}, }




