novastar111/pacman_v0
收藏Hugging Face2026-04-25 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/novastar111/pacman_v0
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含用于自定义VisGym Pacman2D环境的行为克隆轨迹。每条记录代表一个成功的oracle episode,包含`image_prev`、`image`和`image_next`等历史条目,图像为JPEG base64字符串,源自greyblue9/pacman-python的视觉资源。环境设置包括:网格大小限制在7x7至12x12之间,easy难度使用9x9,hard难度使用11x11;实体包括Pacman、稀疏食物、墙壁和一个确定性幽灵。幽灵通过BFS距离追逐Pacman,动作空间为四个方向。数据集分为easy和hard两个难度级别,每个级别有训练和测试集,初始状态通过`init_state_hash`确保不重叠。
This dataset contains behavior-cloning trajectories for the custom VisGym Pacman2D environment. Each row is one successful oracle episode. The history entries include `image_prev`, `image`, and `image_next`; images are JPEG base64 strings rendered from the greyblue9/pacman-python visual assets used by the environment. Environment summary: Grid size is constrained to 7x7 through 12x12; Easy uses the 9x9 setting; hard uses the 11x11 setting; Entities are Pacman, sparse food, walls, and exactly one deterministic ghost. The ghost chases Pacman by BFS distance with fixed tie-break order up, down, left, right. The movement action space is four directions. Splits include easy and hard difficulty levels, each with train and test sets, and initial states are checked to be disjoint by `init_state_hash`.
提供机构:
novastar111
搜集汇总
数据集介绍

构建方式
该数据集为VisGym Pacman2D确定性轨迹数据集,专为行为克隆任务设计。其构建基于自定义的Pacman2D环境,通过记录成功完成一局游戏的智能体轨迹生成。每条数据包含连续的图像帧(image_prev、image、image_next),以JPEG base64编码形式存储,均源自greyblue9/pacman-python视觉资源库。环境网格尺寸介于7x7至12x12之间,其中简单模式采用9x9布局,困难模式采用11x11布局。实体构成包括吃豆人、稀疏食物、墙壁及一个具有确定性行为模式的幽灵,该幽灵依赖BFS算法并遵循固定优先级(上、下、左、右)追逐吃豆人。动作空间涵盖四个移动方向,且VisGym记录中可能出现终止动作('stop', 'stop')。
特点
数据集的核心特征在于其结构化划分与状态唯一性保障。数据按难度分为简单与困难两档,每档均包含训练与测试子集,并以JSONL.GZ压缩格式存储于对应路径下。训练与测试的初始状态通过init_state_hash进行去重校验,确保二者无交集,相关审计信息存于metadata/init_state_hash_audit.json文件中。这种设计有效避免了数据泄露风险,提升了模型泛化评估的可靠性。此外,数据不包含合成思维链,仅保留原始轨迹信息,忠实反映了环境交互的真实性。
使用方法
该数据集适用于基于图像序列的行为克隆或模仿学习任务。用户可通过HuggingFace Datasets库加载,目标仓库地址为https://huggingface.co/datasets/novastar111/pacman_v0。使用时需解压缩JSONL.GZ文件,解析其中base64编码的图像字段并还原为视觉输入。为适配强化学习场景,建议将连续帧(image_prev、image、image_next)作为状态序列,结合动作标签进行监督学习训练。研究者可根据难度设定分别训练简单与困难模式下的策略模型,或混合数据以提升泛化能力。
背景与挑战
背景概述
VisGym Pacman2D确定性轨迹数据集由研究人员于近期创建,旨在为强化学习与图像到文本的交叉领域提供标准化的行为克隆训练资源。该数据集聚焦于经典的Pacman游戏环境,核心研究问题在于如何通过视觉状态序列学习智能体在确定性幽灵追逐策略下的最优路径规划。其独特之处在于约束网格尺寸(7x7至12x12)并区分简易(9x9)与困难(11x11)两个子集,为评估算法泛化能力提供了可控的难度分级。作为VisGym框架的组成部分,该数据集推动了视觉强化学习中行为克隆方法的可复现性研究,尤其在稀疏奖励与确定性环境下的决策建模方面具有重要参考价值。
当前挑战
该数据集面临的挑战体现在领域问题与构建过程两个层面。在领域问题层面,其解决的Pacman路径规划任务需要在局部视觉观察下应对确定性幽灵的BFS追击,这要求算法同时兼顾食物收集效率与安全避障,而稀疏的食物分布与4方向离散动作空间进一步加剧了策略学习的难度。构建过程中,研究者需确保初始状态在训练集与测试集中不重叠(通过init_state_hash审计),避免数据泄露;同时需对成功轨迹的完整性进行严格校验,防止因幽灵路径的固定平局规则导致的轨迹歧义。此外,将环境渲染图像编码为JPEG base64字符串存储,虽节约空间却引入了有损压缩噪声,可能影响视觉表征的鲁棒性。
常用场景
经典使用场景
在强化学习与行为克隆的交叉研究领域,pacman_v0数据集为探索基于视觉输入的决策策略学习提供了理想的基准平台。其核心应用场景在于利用专家轨迹数据,训练智能体在确定性幽灵追逐的Pacman2D环境中学得近乎最优的控制策略。每个轨迹样本包含连续的帧图像与前向运动指令,支持研究人员开展从像素到动作的直接映射学习,从而无需手工设计的奖励信号即可复现专家级游戏表现。
衍生相关工作
围绕pacman_v0数据集已衍生出多项具有影响力的后续工作。在模仿学习领域,研究者通过引入对抗性逆强化学习框架,在相同轨迹基础上重建出更鲁棒的奖励函数;在视觉表示学习方向,该数据集被用于验证自监督时空卷积编码器在有限状态空间中的迁移性能;此外,基于该环境确定性的幽灵追逐规则,有工作构建了混合规划-学习体系,将BFS路径搜索作为先验知识注入策略网络,显著提升了少样本条件下的决策准确率。这些衍生研究共同拓展了视觉模仿学习的理论工具集与实用方法库。
数据集最近研究
最新研究方向
pacman_v0数据集聚焦于利用行为克隆轨迹研究视觉强化学习中的模仿学习范式,尤其关注确定性环境下的决策可复现性。该数据集的独特之处在于其基于VisGym Pacman2D环境的定制化设计,整合了网格尺寸约束(7x7至12x12)与基于BFS的幽灵追逐机制,为探索多智能体交互中的状态表征学习提供了标准化基准。当前的前沿研究方向包括:利用该数据集验证视觉编码器在稀疏奖励场景下的泛化能力,以及通过轨迹哈希验证的互斥初始状态分布来评估离线强化学习算法的外推性能。该工作与2024年视觉控制领域关于低维状态抽象的热点议题紧密呼应,为从像素到策略的直接映射研究提供了可控的测试床,对推动游戏智能体在结构化环境中的可解释性发展具有关键意义。
以上内容由遇见数据集搜集并总结生成



