found-rl_dataset

Hugging Face2026-02-14 更新2026-02-15 收录

下载链接：

https://huggingface.co/datasets/ys-qu/found-rl_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Found-RL数据集是一个大规模演示数据集，采集自CARLA模拟器，旨在用于微调视觉语言模型（VLMs）以完成自动驾驶任务。该数据集为论文《Found-RL: Foundation Model-Enhanced Reinforcement Learning for Autonomous Driving》提供了数据基础。数据集包含约137.4万次状态-动作转换，覆盖了三个不同的基准测试，使用了专家策略进行数据采集。具体包括CARLA Leaderboard、NoCrash Benchmark和CARLA Challenge三个基准测试，分别采用了Roach PPO专家策略和Autopilot roaming专家策略。数据收集过程中应用了最大持续时间和碰撞过滤等约束条件，以确保数据质量。该数据集适用于自动驾驶领域的强化学习和视觉语言模型微调任务。

创建时间：

2026-02-13

原始信息汇总

Found-RL 数据集概述

数据集简介

该数据集包含从CARLA模拟器收集的大规模演示数据，旨在为自动驾驶任务微调视觉语言模型。它作为论文**“Found-RL: Foundation Model-Enhanced Reinforcement Learning for Autonomous Driving”的数据基础。数据集包含使用专家策略在三个不同基准上收集的约137.4万次状态-动作转移**。

关键信息

许可证: apache-2.0
标签: autonomous-driving, carla, imitation-learning, vlm, found-rl
规模分类: 10G-100G
数据格式: 压缩的.tar.gz存档文件
论文: Found-RL: foundation model-enhanced reinforcement learning for autonomous driving
代码仓库: https://github.com/ys-qu/found-rl

数据集统计与构成

数据集在三个主要基准上收集，以确保驾驶场景的多样性。总数据集包含约137.4万次转移。

基准	专家策略	回合数	状态-动作转移次数
CARLA排行榜	Roach PPO专家 (Zhang et al., 2021)	160	约457k
NoCrash基准	自动驾驶漫游专家	80	约235k
CARLA挑战赛	自动驾驶漫游专家	240	约682k
总计	-	480	约137.4万

数据收集方法

1. 专家策略

排行榜基准: 使用Roach PPO专家策略 (Zhang et al., 2021) 收集数据。
NoCrash与挑战赛基准: 使用自动驾驶漫游专家策略收集数据。

2. 约束与过滤

为确保VLM微调的高质量训练数据，在收集过程中应用了以下约束：

最大持续时间: 每个回合的最大持续时间设置为300秒。
碰撞过滤: 应用了终端步骤过滤规则。碰撞事件发生前的一小段步骤被丢弃，确保数据集仅包含每个回合有效、安全的部分。

3. 用途

该数据旨在与开源框架（例如，open_clip、LLaVA代码库）一起使用，以微调VLM，为其提供专家级的驾驶理解。

引用

如果研究中使用此数据集，请引用论文： bibtex @misc{qu2026foundrl, title={Found-RL: foundation model-enhanced reinforcement learning for autonomous driving}, author={Yansong Qu and Zihao Sheng and Zilin Huang and Jiancong Chen and Yuhao Luo and Tianyi Wang and Yiheng Feng and Samuel Labi and Sikai Chen}, year={2026}, eprint={2602.10458}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2602.10458}, }

搜集汇总

数据集介绍

构建方式

在自动驾驶研究领域，高质量示范数据的构建对于模型训练至关重要。Found-RL数据集依托CARLA仿真环境，通过集成多种专家策略系统性地采集了大规模的状态-动作转移数据。具体而言，研究团队在CARLA排行榜、NoCrash以及CARLA挑战赛三大基准场景中，分别采用了Roach PPO专家策略和自动驾驶漫游专家策略进行数据收集。为确保数据质量，每条轨迹的最大持续时间被限制在300秒以内，并应用了终端步骤过滤规则，剔除了碰撞事件发生前的短片段，从而保证了数据集中仅包含安全有效的驾驶行为片段。

使用方法

Found-RL数据集主要服务于基于视觉语言模型的自动驾驶策略学习。研究人员可利用该数据集，结合开源框架如open_clip或LLaVA的代码库，对预训练的视觉语言模型进行监督微调。通过输入数据集中的环境观测序列与对应的专家动作，模型能够学习将复杂的视觉场景映射到合理的控制指令，从而获得专家级的驾驶理解与决策能力。该数据集直接支撑了Found-RL方法的研究，为探索基础模型增强的强化学习在自动驾驶领域的应用提供了关键的数据基础。

背景与挑战

背景概述

自动驾驶领域长期致力于通过强化学习与模仿学习提升智能体的决策能力，然而传统方法在复杂开放场景中的泛化性能与样本效率面临瓶颈。Found-RL数据集应运而生，由研究团队于2026年基于CARLA仿真平台构建，旨在为视觉语言模型提供大规模专家示范数据，以支撑基础模型增强的强化学习框架。该数据集汇集了约137.4万条状态-动作转移样本，覆盖领导者板、无碰撞与挑战赛三大基准场景，通过Roach PPO专家策略与自动驾驶漫游专家策略采集，为自动驾驶任务中视觉-语言对齐与策略优化提供了关键数据基础。

当前挑战

在自动驾驶决策研究中，如何使视觉语言模型准确理解动态交通场景并生成可靠控制指令，构成了核心领域挑战。Found-RL数据集针对此问题，需处理多模态信息融合、长时序依赖建模以及跨场景策略迁移等难题。在构建过程中，研究团队面临高质量专家轨迹筛选的困难，例如需设计碰撞前片段过滤机制以剔除不安全数据，同时需在有限仿真时长内平衡场景多样性与数据完整性，确保采集的示范数据兼具规模性与可靠性，以支持后续模型的精细化微调。

常用场景

经典使用场景

在自动驾驶领域，Found-RL数据集作为大规模仿真演示数据的典范，其经典使用场景聚焦于视觉语言模型的微调过程。通过整合CARLA模拟器中由专家策略生成的约137万条状态-动作转换记录，该数据集为模型提供了丰富的驾驶行为范例，使得研究者能够基于这些高质量的轨迹数据，训练模型理解复杂驾驶场景中的视觉信息与决策逻辑之间的关联，从而提升自动驾驶系统的感知与规划能力。

解决学术问题

该数据集有效解决了自动驾驶研究中专家演示数据稀缺与质量不均的学术难题。通过精心设计的收集与过滤机制，如碰撞事件前的片段剔除与时间限制，确保了数据的可靠性与安全性，为强化学习与模仿学习算法提供了稳定的训练基础。其意义在于推动了基础模型与强化学习的融合，为构建更通用、高效的自动驾驶智能体奠定了数据支撑，显著促进了领域内从仿真到现实的知识迁移研究。

实际应用

在实际应用层面，Found-RL数据集可直接用于开发与优化自动驾驶系统的决策模块。基于该数据微调的视觉语言模型能够嵌入到车载计算平台中，实时解析道路环境、交通参与者动态及驾驶指令，辅助车辆完成车道保持、避障、导航等任务。此外，数据集涵盖的多样基准场景（如CARLA排行榜、无碰撞挑战）确保了模型在复杂城市路况下的泛化性能，为商业化自动驾驶技术的安全部署提供了关键数据验证。

数据集最近研究