conglu/vd4rl

Name: conglu/vd4rl
Creator: conglu
Published: 2024-06-04 06:46:14
License: 暂无描述

Hugging Face2024-06-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/conglu/vd4rl

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit thumbnail: "https://github.com/conglu1997/v-d4rl/raw/main/figs/envs.png" tags: - Reinforcement Learning - Offline Reinforcement Learning - Reinforcement Learning from Pixels - DreamerV2 - DrQ+BC datasets: - V-D4RL --- # V-D4RL V-D4RL provides pixel-based analogues of the popular D4RL benchmarking tasks, derived from the **`dm_control`** suite, along with natural extensions of two state-of-the-art online pixel-based continuous control algorithms, DrQ-v2 and DreamerV2, to the offline setting. For further details, please see the paper: **_Challenges and Opportunities in Offline Reinforcement Learning from Visual Observations_**; Cong Lu*, Philip J. Ball*, Tim G. J. Rudner, Jack Parker-Holder, Michael A. Osborne, Yee Whye Teh. <p align="center"> <a href=https://arxiv.org/abs/2206.04779>View on arXiv</a> </p> ## Benchmarks The V-D4RL datasets can be found in this repository under `vd4rl`. They may also be found on [Google Drive](https://drive.google.com/drive/folders/15HpW6nlJexJP5A4ygGk-1plqt9XdcWGI?usp=sharing). **These must be downloaded before running the code.** Assuming the data is stored under `vd4rl_data`, the file structure is: ``` vd4rl_data └───main │ └───walker_walk │ │ └───random │ │ │ └───64px │ │ │ └───84px │ │ └───medium_replay │ │ │ ... │ └───cheetah_run │ │ ... │ └───humanoid_walk │ │ ... └───distracting │ ... └───multitask │ ... ``` ## Baselines ### Environment Setup Requirements are presented in conda environment files named `conda_env.yml` within each folder. The command to create the environment is: ``` conda env create -f conda_env.yml ``` Alternatively, dockerfiles are located under `dockerfiles`, replace `<<USER_ID>>` in the files with your own user ID from the command `id -u`. ### V-D4RL Main Evaluation Example run commands are given below, given an environment type and dataset identifier: ``` ENVNAME=walker_walk # choice in ['walker_walk', 'cheetah_run', 'humanoid_walk'] TYPE=random # choice in ['random', 'medium_replay', 'medium', 'medium_expert', 'expert'] ``` #### Offline DV2 ``` python offlinedv2/train_offline.py --configs dmc_vision --task dmc_${ENVNAME} --offline_dir vd4rl_data/main/${ENV_NAME}/${TYPE}/64px --offline_penalty_type meandis --offline_lmbd_cons 10 --seed 0 ``` #### DrQ+BC ``` python drqbc/train.py task_name=offline_${ENVNAME}_${TYPE} offline_dir=vd4rl_data/main/${ENV_NAME}/${TYPE}/84px nstep=3 seed=0 ``` #### DrQ+CQL ``` python drqbc/train.py task_name=offline_${ENVNAME}_${TYPE} offline_dir=vd4rl_data/main/${ENV_NAME}/${TYPE}/84px algo=cql cql_importance_sample=false min_q_weight=10 seed=0 ``` #### BC ``` python drqbc/train.py task_name=offline_${ENVNAME}_${TYPE} offline_dir=vd4rl_data/main/${ENV_NAME}/${TYPE}/84px algo=bc seed=0 ``` ### Distracted and Multitask Experiments To run the distracted and multitask experiments, it suffices to change the offline directory passed to the commands above. ## Note on data collection and format We follow the image sizes and dataset format of each algorithm's native codebase. The means that Offline DV2 uses `*.npz` files with 64px images to store the offline data, whereas DrQ+BC uses `*.hdf5` with 84px images. The data collection procedure is detailed in Appendix B of our paper, and we provide conversion scripts in `conversion_scripts`. For the original SAC policies to generate the data see [here](https://github.com/philipjball/SAC_PyTorch/blob/dmc_branch/train_agent.py). See [here](https://github.com/philipjball/SAC_PyTorch/blob/dmc_branch/gather_offline_data.py) for distracted/multitask variants. We used `seed=0` for all data generation. ## Acknowledgements V-D4RL builds upon many works and open-source codebases in both offline reinforcement learning and online pixel-based continuous control. We would like to particularly thank the authors of: - [D4RL](https://github.com/rail-berkeley/d4rl) - [DMControl](https://github.com/deepmind/dm_control) - [DreamerV2](https://github.com/danijar/dreamerv2) - [DrQ-v2](https://github.com/facebookresearch/drqv2) - [LOMPO](https://github.com/rmrafailov/LOMPO) ## Contact Please contact [Cong Lu](mailto:cong.lu@stats.ox.ac.uk) or [Philip Ball](mailto:ball@robots.ox.ac.uk) for any queries. We welcome any suggestions or contributions!

license: MIT许可证 thumbnail: "https://github.com/conglu1997/v-d4rl/raw/main/figs/envs.png" tags: - 强化学习 - 离线强化学习 - 像素输入强化学习 - DreamerV2 - DrQ+BC datasets: - V-D4RL --- # V-D4RL V-D4RL 提供了基于像素输入的经典D4RL基准测试任务的等效复刻版本，这些任务源自**`dm_control`**（DeepMind控制套件），同时还将两种前沿的在线像素输入连续控制算法——DrQ-v2与DreamerV2——自然扩展到了离线设置场景中。如需了解更多细节，请参阅论文： **_《视觉观测下离线强化学习的挑战与机遇》_**；Cong Lu*, Philip J. Ball*, Tim G. J. Rudner, Jack Parker-Holder, Michael A. Osborne, Yee Whye Teh. <p align="center"> <a href=https://arxiv.org/abs/2206.04779>在arXiv上查看</a> </p> ## 基准测试集 V-D4RL 数据集可在本仓库的`vd4rl`目录下获取，也可通过[Google Drive](https://drive.google.com/drive/folders/15HpW6nlJexJP5A4ygGk-1plqt9XdcWGI?usp=sharing)下载。**运行代码前必须先下载该数据集。** 假设数据存储于`vd4rl_data`路径下，其文件结构如下： vd4rl_data └───main │ └───walker_walk │ │ └───random │ │ │ └───64px │ │ │ └───84px │ │ └───medium_replay │ │ │ ... │ └───cheetah_run │ │ ... │ └───humanoid_walk │ │ ... └───distracting │ ... └───multitask │ ... ## 基线算法 ### 环境配置各文件夹下的`conda_env.yml`文件已列出所需依赖。创建环境的命令为： conda env create -f conda_env.yml 或者也可使用`dockerfiles`目录下的Docker镜像，需将文件中的`<<USER_ID>>`替换为通过命令`id -u`获取的当前用户ID。 ### V-D4RL 主评估任务以下给出示例运行命令，需指定环境类型与数据集标识符： ENVNAME=walker_walk # 可选值：['walker_walk', 'cheetah_run', 'humanoid_walk'] TYPE=random # 可选值：['random', 'medium_replay', 'medium', 'medium_expert', 'expert'] #### 离线DreamerV2 python offlinedv2/train_offline.py --configs dmc_vision --task dmc_${ENVNAME} --offline_dir vd4rl_data/main/${ENV_NAME}/${TYPE}/64px --offline_penalty_type meandis --offline_lmbd_cons 10 --seed 0 #### DrQ+BC python drqbc/train.py task_name=offline_${ENVNAME}_${TYPE} offline_dir=vd4rl_data/main/${ENV_NAME}/${TYPE}/84px nstep=3 seed=0 #### DrQ+CQL python drqbc/train.py task_name=offline_${ENVNAME}_${TYPE} offline_dir=vd4rl_data/main/${ENV_NAME}/${TYPE}/84px algo=cql cql_importance_sample=false min_q_weight=10 seed=0 #### BC python drqbc/train.py task_name=offline_${ENVNAME}_${TYPE} offline_dir=vd4rl_data/main/${ENV_NAME}/${TYPE}/84px algo=bc seed=0 ### 干扰环境与多任务实验运行干扰环境与多任务实验时，仅需修改上述命令中传入的离线数据集目录即可。 ## 数据收集与格式说明我们遵循各算法原生代码库所采用的图像尺寸与数据集格式。这意味着离线DreamerV2使用存储为`*.npz`格式的64px图像来保存离线数据集，而DrQ+BC则使用`*.hdf5`格式的84px图像。数据收集流程的详细说明请参见论文附录B，我们在`conversion_scripts`目录中提供了格式转换脚本。如需使用原始SAC策略生成数据集，请参阅[此处](https://github.com/philipjball/SAC_PyTorch/blob/dmc_branch/train_agent.py)。干扰环境与多任务变体的数据生成脚本请参阅[此处](https://github.com/philipjball/SAC_PyTorch/blob/dmc_branch/gather_offline_data.py)。我们在所有数据生成过程中均使用`seed=0`。 ## 致谢 V-D4RL 的构建离不开众多离线强化学习与在线像素输入连续控制领域的研究成果与开源代码库。我们特别感谢以下项目的作者： - [D4RL](https://github.com/rail-berkeley/d4rl) - [DMControl](https://github.com/deepmind/dm_control) - [DreamerV2](https://github.com/danijar/dreamerv2) - [DrQ-v2](https://github.com/facebookresearch/drqv2) - [LOMPO](https://github.com/rmrafailov/LOMPO) ## 联系方式如有任何疑问，请联系[Cong Lu](mailto:cong.lu@stats.ox.ac.uk)或[Philip Ball](mailto:ball@robots.ox.ac.uk)。我们欢迎任何建议与贡献！

提供机构：

conglu

原始信息汇总

V-D4RL 数据集概述

数据集描述

V-D4RL 提供了基于像素的 D4RL 基准测试任务的类似物，源自 dm_control 套件，以及两种最先进的在线像素连续控制算法的自然扩展，DrQ-v2 和 DreamerV2，到离线设置。

数据集结构

数据集存储在 vd4rl_data 目录下，文件结构如下：

vd4rl_data └───main │ └───walker_walk │ │ └───random │ │ │ └───64px │ │ │ └───84px │ │ └───medium_replay │ │ │ ... │ └───cheetah_run │ │ ... │ └───humanoid_walk │ │ ... └───distracting │ ... └───multitask │ ...

基准测试

环境设置

环境要求在每个文件夹中的 conda_env.yml 文件中提供。创建环境的命令是：

conda env create -f conda_env.yml

另外，Dockerfile 位于 dockerfiles 目录下，需将 <<USER_ID>> 替换为您的用户 ID。

评估命令示例

以下是一些示例运行命令，给定环境类型和数据集标识符：

ENVNAME=walker_walk # 选择 [walker_walk, cheetah_run, humanoid_walk] TYPE=random # 选择 [random, medium_replay, medium, medium_expert, expert]

Offline DV2

python offlinedv2/train_offline.py --configs dmc_vision --task dmc_${ENVNAME} --offline_dir vd4rl_data/main/${ENV_NAME}/${TYPE}/64px --offline_penalty_type meandis --offline_lmbd_cons 10 --seed 0

DrQ+BC

python drqbc/train.py task_name=offline_${ENVNAME}_${TYPE} offline_dir=vd4rl_data/main/${ENV_NAME}/${TYPE}/84px nstep=3 seed=0

DrQ+CQL

python drqbc/train.py task_name=offline_${ENVNAME}_${TYPE} offline_dir=vd4rl_data/main/${ENV_NAME}/${TYPE}/84px algo=cql cql_importance_sample=false min_q_weight=10 seed=0

BC

python drqbc/train.py task_name=offline_${ENVNAME}_${TYPE} offline_dir=vd4rl_data/main/${ENV_NAME}/${TYPE}/84px algo=bc seed=0

分散注意力和多任务实验

运行分散注意力和多任务实验，只需更改上述命令中的离线目录。

数据收集和格式

数据收集过程详见论文附录 B，并提供了转换脚本在 conversion_scripts 目录下。

Offline DV2 使用 *.npz 文件和 64px 图像存储离线数据。
DrQ+BC 使用 *.hdf5 文件和 84px 图像。

致谢

V-D4RL 建立在许多离线强化学习和在线像素连续控制的开源代码库之上。特别感谢以下作者：

联系方式

如有任何疑问，请联系 Cong Lu 或 Philip Ball。欢迎任何建议或贡献！

搜集汇总

数据集介绍

构建方式

V-D4RL数据集是在强化学习领域，特别是离线强化学习背景下构建的。该数据集基于`dm_control`套件，提供了流行D4RL基准任务的像素级模拟，并将两种最先进的在线像素级连续控制算法DrQ-v2和DreamerV2扩展到离线设置。数据集的构建遵循了算法的原始数据收集流程，详细描述于论文的附录B中，并提供了数据转换脚本以适配不同算法的需求。

特点

V-D4RL数据集的特点在于其提供了多种环境设置和任务类型，如walker_walk、cheetah_run和humanoid_walk等，并包含随机、中等重放和专家级别等不同难度的数据。数据集采用了与算法原代码库一致的图像大小和格式，Offline DV2使用64px的`*.npz`文件存储数据，而DrQ+BC使用84px的`*.hdf5`文件。这种格式的一致性确保了数据集与现有算法的兼容性。

使用方法

使用V-D4RL数据集时，用户需先从提供的链接中下载数据，并根据所使用的算法在相应文件夹中创建环境。数据集的使用涉及设置环境类型和数据标识符，并通过提供的示例运行命令进行离线训练。用户可以根据需要调整环境类型、数据集标识符以及训练参数，以适应不同的实验设置和算法要求。

背景与挑战

背景概述

V-D4RL数据集是在2022年，由 Cong Lu、Philip J. Ball 等研究人员在强化学习领域提出的一项重要成果。该数据集旨在提供基于像素的D4RL基准任务的模拟，以及将两种最先进的在线像素基连续控制算法DrQ-v2和DreamerV2扩展到离线设置。V-D4RL的构建不仅推动了视觉观察的离线强化学习领域的发展，而且对算法研究和评估提供了重要的影响。

当前挑战

该数据集面临的挑战主要包括：如何在离线环境中有效模拟在线像素基连续控制算法，以及如何确保数据集在视觉观察的离线强化学习任务中具有足够的多样性和挑战性。在构建过程中，研究团队还必须处理数据收集、存储格式以及与现有算法代码库的兼容性问题。

常用场景

经典使用场景

在强化学习领域，V-D4RL数据集的典型应用场景在于提供一个基于像素的离线强化学习环境，它模拟了D4RL基准任务，并扩展了DrQ-v2和DreamerV2算法至离线设置，使得研究者能够在无需实时环境交互的情况下，对算法的性能进行评估和比较。

实际应用

实际应用中，V-D4RL数据集可用于开发和测试那些需要在视觉输入上进行决策的自动化系统，如机器人控制、自动驾驶车辆等，它为这些系统在现实世界中的部署提供了实验基础。

衍生相关工作

基于V-D4RL数据集，研究者们已经衍生出一系列相关工作，包括对现有算法的改进、新算法的提出，以及对不同类型视觉输入的适应性研究，这些工作进一步推动了离线强化学习领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集