OpenDILabCommunity/Pong-v4-expert-MCTS

Name: OpenDILabCommunity/Pong-v4-expert-MCTS
Creator: OpenDILabCommunity
Published: 2023-04-21 09:21:34
License: 暂无描述

Hugging Face2023-04-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/OpenDILabCommunity/Pong-v4-expert-MCTS

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含8个pong-v4环境的片段。专家策略是EfficientZero，能够生成MCTS隐藏状态。由于每个观察值都包含隐藏状态，该数据集适用于从序列中学习的模仿学习方法，如Procedure Cloning (PC)。数据字段包括观察值（obs）、动作（actions）和隐藏状态（hidden_state）。观察值是一个包含8个轨迹的Array3D，数据类型为uint8，每个值在0到255之间，形状为[96, 96, 3]。动作是一个整数，表示8个轨迹中的动作，值在0到5之间。隐藏状态是一个Array3D，包含由EfficientZero生成的隐藏状态，数据类型为float32。数据集仅包含训练集，评估通过与模拟器交互进行。数据收集由EfficientZero策略完成，专家数据的标准是每个8个片段的回报超过20。未应用标准化，即每个观察值的值是一个uint8标量，范围在0到255之间。

提供机构：

OpenDILabCommunity

原始信息汇总

数据集概述

数据集名称

Pong-v4-expert-MCTS

支持的任务和基准

任务：支持Procedure Cloning (PC)算法的训练。
基准：
- 决策序列长度为0时：
  - 训练损失：
  - 测试准确率：0.90
  - 奖励：20
- 决策序列长度为4时：
  - 训练动作损失：
  - 训练隐藏状态损失：
  - 训练准确率（自回归模式）：
  - 奖励：-21

数据使用

数据描述：包含8个pong-v4环境下的剧集，专家策略为EfficientZero，能生成MCTS隐藏状态，适用于序列型模仿学习方法。
数据字段：
- obs：uint8类型，形状为[96, 96, 3]的Array3D，包含8个评估代理的观察数据。
- actions：整数类型，范围0到5，来自8个评估代理的动作数据。
- hidden_state：float32类型，形状为Array3D，包含8个评估代理的隐藏状态数据。
数据分割：仅包含训练集，评估通过与模拟器交互进行。
数据收集和标准化：
- 数据由EfficientZero策略收集。
- 专家数据标准为每8个剧集的回报超过20。
- 未进行预先标准化处理。

附加信息

数据源生产者：@kxzxvbk
社会影响：可用于模仿学习，尤其是序列学习算法的研究。
已知限制：仅限于学术研究使用。
许可证：Apache License 2.0
引用信息：

@misc{Pong-v4-expert-MCTS, title={{Pong-v4-expert-MCTS: OpenDILab} A dataset for Procedure Cloning algorithm using Pong-v4.}, author={Pong-v4-expert-MCTS Contributors}, publisher = {huggingface}, howpublished = {url{https://huggingface.co/datasets/OpenDILabCommunity/Pong-v4-expert-MCTS}}, year={2023}, }
贡献：部分基于opendilab/DI-engine和opendilab/LightZero。

搜集汇总

数据集介绍

构建方式

在强化学习领域，高质量专家轨迹的构建对于模仿学习算法的性能至关重要。Pong-v4-expert-MCTS数据集通过EfficientZero策略在Pong-v4环境中采集专家数据，该策略基于蒙特卡洛树搜索（MCTS）生成隐藏状态。数据收集标准严格，要求每条轨迹的回报超过20分，确保数据代表高水平专家行为。观测数据以uint8格式存储，数值范围在0至255之间，未进行归一化处理，保留了原始环境输入的完整性。数据集包含8条完整轨迹，每条轨迹均包含观测、动作及对应的隐藏状态，为序列学习提供了结构化支持。

特点

该数据集的核心特点在于其融合了观测、动作与隐藏状态的多维信息，特别适用于需要序列建模的模仿学习方法。隐藏状态由EfficientZero策略生成，蕴含了策略决策过程中的内部表征，为算法提供了超越表面观测的深层语义信息。数据格式规范，观测为96x96x3的RGB图像，动作为0至5的离散值，隐藏状态为float32类型的张量，确保了计算效率与兼容性。数据集专注于学术研究，填补了基于MCTS策略的开放数据稀缺的空白，为序列模仿学习算法的探索与验证提供了宝贵资源。

使用方法

使用该数据集时，研究者可通过safetensors库加载数据，利用提供的Python代码示例迭代访问每条轨迹的观测、动作和隐藏状态。数据集仅包含训练集，评估需通过与模拟器交互完成，适用于Procedure Cloning等序列模仿学习算法的训练。在应用过程中，用户可直接利用原始uint8格式的观测数据，或根据需求进行预处理。该数据集遵循Apache 2.0许可，鼓励学术用途，商业合作需联系指定机构，确保了数据使用的合规性与透明度。

背景与挑战

背景概述

在强化学习领域，模仿学习作为从专家示范中获取策略的关键方法，其发展依赖于高质量的数据集。OpenDILabCommunity/Pong-v4-expert-MCTS数据集于2023年由OpenDILab社区发布，核心研究人员包括贡献者kxzxvbk及相关机构。该数据集专注于Atari Pong-v4环境，通过集成EfficientZero策略生成的蒙特卡洛树搜索隐藏状态，旨在支持序列式模仿学习算法如过程克隆的训练。其创建不仅填补了基于MCTS策略开源数据的空白，还推动了序列学习在复杂决策任务中的应用，对强化学习与模仿学习的交叉研究具有显著影响力。

当前挑战

该数据集旨在解决模仿学习中从专家序列中学习策略的挑战，特别是在高维观察空间如Atari游戏环境下，如何有效捕捉时间依赖性和隐藏状态信息以提升策略泛化能力。构建过程中，挑战主要体现在数据收集的复杂性：专家策略EfficientZero需在Pong-v4环境中生成超过20回报的8个轨迹，确保数据质量；同时，整合隐藏状态作为额外特征，增加了数据处理的维度与存储需求，且未进行归一化处理可能影响模型训练的稳定性。这些挑战共同凸显了在动态环境中构建可靠模仿学习数据集的难度。

常用场景

经典使用场景

在强化学习与模仿学习领域，该数据集为序列式模仿学习算法提供了宝贵的训练资源。其核心价值在于整合了专家策略生成的蒙特卡洛树搜索隐藏状态，使得研究者能够基于观测序列与隐藏状态进行深度模仿。经典应用场景聚焦于Procedure Cloning等算法，通过利用序列化的专家决策轨迹，模型能够学习到复杂的策略表示，从而在Atari Pong-v4环境中实现高效的行为克隆与策略优化。

解决学术问题

该数据集有效应对了模仿学习中专家数据稀缺的挑战，特别是针对基于蒙特卡洛树搜索的策略生成。它为解决序列依赖的决策问题提供了结构化数据支持，促进了隐藏状态表示学习的发展。在学术层面，该数据集推动了模仿学习从单步决策向序列化决策的范式转变，为理解复杂环境中的策略泛化与迁移奠定了实证基础，显著提升了算法在稀疏奖励环境下的样本效率与稳定性。

衍生相关工作

围绕该数据集，一系列经典研究工作得以衍生，其中最具代表性的是基于Procedure Cloning算法的扩展与改进。这些工作深入探索了隐藏状态在序列模仿中的关键作用，并推动了如EfficientZero等高效强化学习算法的进一步优化。同时，该数据集也激励了跨领域研究，例如将序列学习范式迁移至其他Atari游戏或连续控制任务，为模仿学习与元学习方法的融合提供了新的实验基准与理论洞见。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集