easycarla_offline_dataset.hdf5

github2025-05-09 更新2025-05-10 收录

下载链接：

https://github.com/silverwingsbot/EasyCarla-RL

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含超过7,000条轨迹和110万个时间步长，由专家和随机策略混合收集（专家与随机的比例为8:2）。数据以HDF5格式存储，每个观察结果存储为一个307维的扁平向量，包含自我状态、车道信息、LiDAR扫描、附近车辆信息和路径点。

This dataset contains over 7,000 trajectories and 1.1 million time steps, collected using a mixed strategy of expert and random policies with an 8:2 expert-to-random ratio. The data is stored in HDF5 format, where each observation is saved as a 307-dimensional flattened vector including ego state, lane information, LiDAR scans, nearby vehicle information, and waypoints.

创建时间：

2025-04-26

原始信息汇总

EasyCarla-RL 数据集概述

数据集基本信息

名称: EasyCarla-RL 离线数据集
格式: HDF5
大小: ~2.76 GB
文件名称: easycarla_offline_dataset.hdf5
下载来源:
- Hugging Face (直接链接)
- 百度网盘 (提取码: 2049)

数据集内容

轨迹数量: 超过 7,000 条
时间步数: 超过 1.1 百万
数据来源: 专家策略与随机策略混合 (专家策略占比 80%，随机策略占比 20%)

观察数据格式

维度: 307 维
组成:
- ego_state: 9 维
- lane_info: 2 维
- lidar: 240 维
- nearby_vehicles: 20 维
- waypoints: 36 维
数据类型: np.float32

数据集用途

用于在 EasyCarla-RL 环境中训练和评估强化学习 (RL) 代理
支持高效神经网络训练，同时保留关键空间和语义信息

许可证

许可证类型: Apache License 2.0

搜集汇总

数据集介绍

构建方式

在自动驾驶研究领域，高质量的数据集是算法验证与性能提升的关键基石。easycarla_offline_dataset.hdf5数据集通过精心设计的采集流程构建而成，其数据来源于CARLA仿真环境中混合策略（专家策略与随机策略按8:2比例）驱动的智能体交互。采用HDF5高效存储格式，数据集收录了超过7,000条轨迹和110万时间步长的多维观测数据，每个观测点通过特征拼接技术整合了9维自我状态、2维车道信息、240维激光雷达点云、20维周边车辆数据及36维路径点信息，最终形成307维标准化向量。

使用方法

研究者可通过Hugging Face或百度网盘获取该数据集后，利用标准HDF5接口进行数据读取与处理。典型应用场景包括：使用PyTorch或TensorFlow构建的神经网络可直接消费307维观测向量进行端到端训练；通过解析原始数据结构可复现CARLA环境中的多传感器融合逻辑；示例脚本run_dql_in_carla.py演示了如何加载预训练模型进行离线强化学习验证。数据集与EasyCarla-RL环境的无缝对接，支持从仿真训练到算法评估的全流程开发。

背景与挑战

背景概述

EasyCarla-RL数据集由SilverWings团队开发，旨在为基于CARLA模拟器的强化学习研究提供一个轻量级且易于使用的Gym兼容环境。该数据集创建于2023年，包含超过7,000条轨迹和110万时间步长的离线数据，采用专家策略与随机策略8:2的比例混合采集。数据集以HDF5格式存储，每个观测数据被编码为307维的扁平向量，整合了自我车辆状态、车道信息、激光雷达扫描、附近车辆信息和路径点等关键驾驶要素。这一资源的推出显著降低了自动驾驶领域强化学习研究的工程门槛，为算法开发与验证提供了标准化基准。

当前挑战

在领域问题层面，该数据集致力于解决自动驾驶中复杂场景下的决策规划挑战，包括多模态传感器数据融合、动态交通参与者交互建模以及安全约束下的策略优化等核心难题。数据构建过程中面临三大技术挑战：真实驾驶行为模拟需要平衡专家策略的准确性与随机策略的探索性；多源异构传感器数据需实现时空对齐与维度压缩；大规模轨迹数据存储需兼顾HDF5格式的I/O效率与神经网络训练需求。这些挑战的突破为离线强化学习在自动驾驶中的应用提供了重要技术参考。

常用场景

经典使用场景

在自动驾驶研究领域，easycarla_offline_dataset.hdf5数据集为强化学习算法的训练与验证提供了标准化平台。该数据集通过整合激光雷达扫描、自车状态、周边车辆信息及路径点等多模态观测数据，构建了307维的扁平化向量表示，使得研究者能够高效地开展深度强化学习模型的离线训练。其经典应用场景包括基于值函数的Q-learning算法验证、策略梯度方法优化以及安全感知强化学习框架的评估，特别适合用于模拟复杂城市交通环境下的决策控制研究。

解决学术问题

该数据集有效解决了自动驾驶研究中真实场景数据获取成本高、实验可重复性差等核心问题。通过提供包含7000条轨迹、110万时间步的专家与随机策略混合数据，支持了离线强化学习领域的关键技术验证，如分布偏移校正、行为克隆优化等。其结构化观测空间设计为多传感器数据融合、时空特征提取等算法研究提供了基准，显著降低了自动驾驶算法开发的门槛，推动了安全感知强化学习理论的发展。

实际应用

在实际工程应用中，该数据集可直接服务于自动驾驶系统的决策模块开发。汽车制造商可利用其进行变道决策、交叉路口通行等场景的算法预训练；科研机构则基于该数据集构建数字孪生测试平台，验证紧急制动、防碰撞等安全策略的有效性。数据集提供的标准化接口与CARLA仿真器的无缝对接特性，大幅缩短了从算法研发到实车部署的迭代周期。

数据集最近研究