conglu/vd4rl
收藏V-D4RL 数据集概述
数据集描述
V-D4RL 提供了基于像素的 D4RL 基准测试任务的类似物,源自 dm_control 套件,以及两种最先进的在线像素连续控制算法的自然扩展,DrQ-v2 和 DreamerV2,到离线设置。
数据集结构
数据集存储在 vd4rl_data 目录下,文件结构如下:
vd4rl_data └───main │ └───walker_walk │ │ └───random │ │ │ └───64px │ │ │ └───84px │ │ └───medium_replay │ │ │ ... │ └───cheetah_run │ │ ... │ └───humanoid_walk │ │ ... └───distracting │ ... └───multitask │ ...
基准测试
环境设置
环境要求在每个文件夹中的 conda_env.yml 文件中提供。创建环境的命令是:
conda env create -f conda_env.yml
另外,Dockerfile 位于 dockerfiles 目录下,需将 <<USER_ID>> 替换为您的用户 ID。
评估命令示例
以下是一些示例运行命令,给定环境类型和数据集标识符:
ENVNAME=walker_walk # 选择 [walker_walk, cheetah_run, humanoid_walk] TYPE=random # 选择 [random, medium_replay, medium, medium_expert, expert]
Offline DV2
python offlinedv2/train_offline.py --configs dmc_vision --task dmc_${ENVNAME} --offline_dir vd4rl_data/main/${ENV_NAME}/${TYPE}/64px --offline_penalty_type meandis --offline_lmbd_cons 10 --seed 0
DrQ+BC
python drqbc/train.py task_name=offline_${ENVNAME}_${TYPE} offline_dir=vd4rl_data/main/${ENV_NAME}/${TYPE}/84px nstep=3 seed=0
DrQ+CQL
python drqbc/train.py task_name=offline_${ENVNAME}_${TYPE} offline_dir=vd4rl_data/main/${ENV_NAME}/${TYPE}/84px algo=cql cql_importance_sample=false min_q_weight=10 seed=0
BC
python drqbc/train.py task_name=offline_${ENVNAME}_${TYPE} offline_dir=vd4rl_data/main/${ENV_NAME}/${TYPE}/84px algo=bc seed=0
分散注意力和多任务实验
运行分散注意力和多任务实验,只需更改上述命令中的离线目录。
数据收集和格式
数据收集过程详见论文附录 B,并提供了转换脚本在 conversion_scripts 目录下。
- Offline DV2 使用
*.npz文件和 64px 图像存储离线数据。 - DrQ+BC 使用
*.hdf5文件和 84px 图像。
致谢
V-D4RL 建立在许多离线强化学习和在线像素连续控制的开源代码库之上。特别感谢以下作者:
联系方式
如有任何疑问,请联系 Cong Lu 或 Philip Ball。欢迎任何建议或贡献!




