novastar112/pacman_2d_ultrahard_remap_imagined_rollout_5000

Name: novastar112/pacman_2d_ultrahard_remap_imagined_rollout_5000
Creator: novastar112
Published: 2026-04-30 08:24:12
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/novastar112/pacman_2d_ultrahard_remap_imagined_rollout_5000

下载链接

链接失效反馈

官方服务：

资源简介：

Pacman Ultrahard基于源数据的想象展开轨迹数据集是一个包含5,000条记录的游戏数据集，专注于Pacman游戏的超难版本。数据集主要包括轨迹记录、转换数据、训练数据和预览数据。其独特之处在于保留了成功的源轨迹，并在选定的移动步骤中添加了第一人称的交替试验推理，涵盖了当前帧和上下左右想象的下一帧。训练数据中的图像以JPEG格式内联存储，不包含路径引用、占位符或外部API调用。

The Pacman Ultrahard Source-Based Imagined Rollout Dataset is a collection of 5,000 records focused on an ultrahard version of the Pacman game. It includes trajectory records, transition data, training data, and previews. The dataset uniquely preserves successful source trajectories and adds first-person interleaved trial reasoning at selected move steps, covering the current frame and imagined next frames in up, down, left, and right directions. Training data images are inline JPEG items without path references, placeholders, or external API calls.

提供机构：

novastar112

搜集汇总

数据集介绍

构建方式

该数据集名为pacman_2d_ultrahard_remap_imagined_rollout_5000，源于novastar112/visgym_pacman_2d_remap源，任务为pacman_2d_ultrahard_v0，共包含5000条记录。构建过程中，数据集保留了成功的源轨迹，并仅在一个选定的移动步骤中，嵌入基于当前帧及上、下、左、右四个方向想象下一帧的第一人称交错试推理。核心文件trajectories/pacman_imagined_rollout.jsonl.gz记录了包含四个想象单步侧向展开的源轨迹，而transitions/pacman_imagined_rollout_transitions.jsonl.gz则将其实与想象转换展平，用于世界模型训练。

使用方法

使用者可直接加载training/pacman_interleaved_cot.jsonl.gz文件，该文件包含已格式化的交错链式思考对话，适用于视觉语言模型的微调或评估。由于图像以base64编码内嵌，无需外部图像目录映射，简化了数据管道。对于世界模型训练，可解压transitions/pacman_imagined_rollout_transitions.jsonl.gz获取展平的转移数据。同时，预览文件提供了无base64载荷的轻量级轨迹与对话内容预览，便于快速验证数据结构与质量。

背景与挑战

背景概述

该数据集由novastar112/visgym_pacman_2d_remap项目衍生而来，专门针对强化学习与视觉推理交叉领域中的极端困难任务——'pacman_2d_ultrahard_v0'而设计，共包含5000条轨迹记录。研究团队通过引入源基想象展开（Source-Based Imagined Rollout）机制，在每一关键决策步骤中嵌入四个方向的单步侧向想象（上、下、左、右），从而模拟智能体对未来状态的预判能力。该数据集旨在为世界模型训练与视觉问答式推理提供高质、结构化的轨迹数据，推动智能体在复杂动态环境下的空间认知与因果推理研究。其独特之处在于，所有训练数据以内联base64 JPEG图像形式存储，去除了外部文件路径依赖与模型调用，确保了数据集的独立性与可复现性，为后续多步推理与想象型强化学习奠定了坚实的数据基础。

当前挑战

该数据集面临的核心挑战在于，极端困难任务('ultrahard')要求智能体在高度动态、部分可观的迷宫中同时应对多个幽灵追击与有限视野，传统基于即时奖励的策略极易陷入局部最优。为此，数据集引入想象展开机制，但如何让模型有效整合真实轨迹与四个方向的想象未来帧，避免想象漂移或时序混淆，仍是一大难点。构建过程中，挑战更为显著：需要设计精准的轨迹筛选策略，保证5000条成功轨迹既覆盖多样性场景又避免冗余；同时，将想象帧的生成与原始视觉观测无缝融合，并压缩为内联base64格式，对数据存储与加载效率提出了极高要求。此外，移除外部图片路径与推理API依赖，虽提升了数据集独立性，但也增加了数据预处理与验证的复杂度。

常用场景

经典使用场景

在强化学习与视觉语言模型交叉领域，pacman_2d_ultrahard_remap_imagined_rollout_5000数据集主要用于训练智能体在复杂二维迷宫环境中进行基于想象推演的决策。该数据集的独特之处在于，它不仅记录了完整的成功轨迹，还在关键决策步骤中嵌入了对当前帧及上下左右四个想象下一帧的第一人称交互式试错推理，使得模型能够学习到在危险动态环境中通过内心模拟来规避风险、优化路径的能力。这一设计突破了传统仅依赖历史经验或实时感知的局限，为构建具有前瞻性规划能力的智能体提供了关键训练资源。

解决学术问题

该数据集直接回应了强化学习中稀疏奖励与长程信用分配这一经典难题。在极困难的Pacman环境下，传统算法常因探索效率低下而无法收敛至有效策略。通过提供包含想象推演轨迹的多模态训练数据，研究者能够训练模型掌握状态空间的内在因果关系，从而在不依赖外部奖励信号的情况下，预判动作后果并形成高效的决策逻辑。该数据集的推出促进了世界模型学习、想象规划与轨迹语言化表征等方向的深度融合，为构建可解释、低样本依赖的通用智能体奠定了数据基础。

实际应用

在实际应用中，该数据集训练的模型可被部署至各类需要快速适应复杂动态环境的自主系统中。例如，在机器人自主导航场景中，智能体能够利用内心想象机制预先模拟不同运动方向可能遭遇的障碍或陷阱，从而在狭窄通道或拥挤空间中作出更安全的移动决策。此外，其蕴含的视觉问答式轨迹交互能力，也为游戏AI、虚拟现实中的非玩家角色行为设计提供了新的范式，使得虚拟角色能够像人类玩家一样在行动前进行“思考演练”，显著提升交互的自然感与策略深度。

数据集最近研究