OpenDILabCommunity/Pong-v4-expert-MCTS
收藏Hugging Face2023-04-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/OpenDILabCommunity/Pong-v4-expert-MCTS
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含8个pong-v4环境的片段。专家策略是EfficientZero,能够生成MCTS隐藏状态。由于每个观察值都包含隐藏状态,该数据集适用于从序列中学习的模仿学习方法,如Procedure Cloning (PC)。数据字段包括观察值(obs)、动作(actions)和隐藏状态(hidden_state)。观察值是一个包含8个轨迹的Array3D,数据类型为uint8,每个值在0到255之间,形状为[96, 96, 3]。动作是一个整数,表示8个轨迹中的动作,值在0到5之间。隐藏状态是一个Array3D,包含由EfficientZero生成的隐藏状态,数据类型为float32。数据集仅包含训练集,评估通过与模拟器交互进行。数据收集由EfficientZero策略完成,专家数据的标准是每个8个片段的回报超过20。未应用标准化,即每个观察值的值是一个uint8标量,范围在0到255之间。
该数据集包含8个pong-v4环境的片段。专家策略是EfficientZero,能够生成MCTS隐藏状态。由于每个观察值都包含隐藏状态,该数据集适用于从序列中学习的模仿学习方法,如Procedure Cloning (PC)。数据字段包括观察值(obs)、动作(actions)和隐藏状态(hidden_state)。观察值是一个包含8个轨迹的Array3D,数据类型为uint8,每个值在0到255之间,形状为[96, 96, 3]。动作是一个整数,表示8个轨迹中的动作,值在0到5之间。隐藏状态是一个Array3D,包含由EfficientZero生成的隐藏状态,数据类型为float32。数据集仅包含训练集,评估通过与模拟器交互进行。数据收集由EfficientZero策略完成,专家数据的标准是每个8个片段的回报超过20。未应用标准化,即每个观察值的值是一个uint8标量,范围在0到255之间。
提供机构:
OpenDILabCommunity
原始信息汇总
数据集概述
数据集名称
- Pong-v4-expert-MCTS
支持的任务和基准
- 任务:支持Procedure Cloning (PC)算法的训练。
- 基准:
- 决策序列长度为0时:
- 训练损失:

- 测试准确率:0.90
- 奖励:20
- 训练损失:
- 决策序列长度为4时:
- 训练动作损失:

- 训练隐藏状态损失:

- 训练准确率(自回归模式):

- 奖励:-21
- 训练动作损失:
- 决策序列长度为0时:
数据使用
- 数据描述:包含8个pong-v4环境下的剧集,专家策略为EfficientZero,能生成MCTS隐藏状态,适用于序列型模仿学习方法。
- 数据字段:
obs:uint8类型,形状为[96, 96, 3]的Array3D,包含8个评估代理的观察数据。actions:整数类型,范围0到5,来自8个评估代理的动作数据。hidden_state:float32类型,形状为Array3D,包含8个评估代理的隐藏状态数据。
- 数据分割:仅包含训练集,评估通过与模拟器交互进行。
- 数据收集和标准化:
- 数据由EfficientZero策略收集。
- 专家数据标准为每8个剧集的回报超过20。
- 未进行预先标准化处理。
附加信息
-
数据源生产者:@kxzxvbk
-
社会影响:可用于模仿学习,尤其是序列学习算法的研究。
-
已知限制:仅限于学术研究使用。
-
引用信息:
@misc{Pong-v4-expert-MCTS, title={{Pong-v4-expert-MCTS: OpenDILab} A dataset for Procedure Cloning algorithm using Pong-v4.}, author={Pong-v4-expert-MCTS Contributors}, publisher = {huggingface}, howpublished = {url{https://huggingface.co/datasets/OpenDILabCommunity/Pong-v4-expert-MCTS}}, year={2023}, }
搜集汇总
数据集介绍

构建方式
在强化学习领域,高质量专家轨迹的构建对于模仿学习算法的性能至关重要。Pong-v4-expert-MCTS数据集通过EfficientZero策略在Pong-v4环境中采集专家数据,该策略基于蒙特卡洛树搜索(MCTS)生成隐藏状态。数据收集标准严格,要求每条轨迹的回报超过20分,确保数据代表高水平专家行为。观测数据以uint8格式存储,数值范围在0至255之间,未进行归一化处理,保留了原始环境输入的完整性。数据集包含8条完整轨迹,每条轨迹均包含观测、动作及对应的隐藏状态,为序列学习提供了结构化支持。
特点
该数据集的核心特点在于其融合了观测、动作与隐藏状态的多维信息,特别适用于需要序列建模的模仿学习方法。隐藏状态由EfficientZero策略生成,蕴含了策略决策过程中的内部表征,为算法提供了超越表面观测的深层语义信息。数据格式规范,观测为96x96x3的RGB图像,动作为0至5的离散值,隐藏状态为float32类型的张量,确保了计算效率与兼容性。数据集专注于学术研究,填补了基于MCTS策略的开放数据稀缺的空白,为序列模仿学习算法的探索与验证提供了宝贵资源。
使用方法
使用该数据集时,研究者可通过safetensors库加载数据,利用提供的Python代码示例迭代访问每条轨迹的观测、动作和隐藏状态。数据集仅包含训练集,评估需通过与模拟器交互完成,适用于Procedure Cloning等序列模仿学习算法的训练。在应用过程中,用户可直接利用原始uint8格式的观测数据,或根据需求进行预处理。该数据集遵循Apache 2.0许可,鼓励学术用途,商业合作需联系指定机构,确保了数据使用的合规性与透明度。
背景与挑战
背景概述
在强化学习领域,模仿学习作为从专家示范中获取策略的关键方法,其发展依赖于高质量的数据集。OpenDILabCommunity/Pong-v4-expert-MCTS数据集于2023年由OpenDILab社区发布,核心研究人员包括贡献者kxzxvbk及相关机构。该数据集专注于Atari Pong-v4环境,通过集成EfficientZero策略生成的蒙特卡洛树搜索隐藏状态,旨在支持序列式模仿学习算法如过程克隆的训练。其创建不仅填补了基于MCTS策略开源数据的空白,还推动了序列学习在复杂决策任务中的应用,对强化学习与模仿学习的交叉研究具有显著影响力。
当前挑战
该数据集旨在解决模仿学习中从专家序列中学习策略的挑战,特别是在高维观察空间如Atari游戏环境下,如何有效捕捉时间依赖性和隐藏状态信息以提升策略泛化能力。构建过程中,挑战主要体现在数据收集的复杂性:专家策略EfficientZero需在Pong-v4环境中生成超过20回报的8个轨迹,确保数据质量;同时,整合隐藏状态作为额外特征,增加了数据处理的维度与存储需求,且未进行归一化处理可能影响模型训练的稳定性。这些挑战共同凸显了在动态环境中构建可靠模仿学习数据集的难度。
常用场景
经典使用场景
在强化学习与模仿学习领域,该数据集为序列式模仿学习算法提供了宝贵的训练资源。其核心价值在于整合了专家策略生成的蒙特卡洛树搜索隐藏状态,使得研究者能够基于观测序列与隐藏状态进行深度模仿。经典应用场景聚焦于Procedure Cloning等算法,通过利用序列化的专家决策轨迹,模型能够学习到复杂的策略表示,从而在Atari Pong-v4环境中实现高效的行为克隆与策略优化。
解决学术问题
该数据集有效应对了模仿学习中专家数据稀缺的挑战,特别是针对基于蒙特卡洛树搜索的策略生成。它为解决序列依赖的决策问题提供了结构化数据支持,促进了隐藏状态表示学习的发展。在学术层面,该数据集推动了模仿学习从单步决策向序列化决策的范式转变,为理解复杂环境中的策略泛化与迁移奠定了实证基础,显著提升了算法在稀疏奖励环境下的样本效率与稳定性。
衍生相关工作
围绕该数据集,一系列经典研究工作得以衍生,其中最具代表性的是基于Procedure Cloning算法的扩展与改进。这些工作深入探索了隐藏状态在序列模仿中的关键作用,并推动了如EfficientZero等高效强化学习算法的进一步优化。同时,该数据集也激励了跨领域研究,例如将序列学习范式迁移至其他Atari游戏或连续控制任务,为模仿学习与元学习方法的融合提供了新的实验基准与理论洞见。
以上内容由遇见数据集搜集并总结生成



