novastar112/sokoban_easy_remap_imagined_rollout_5000

Name: novastar112/sokoban_easy_remap_imagined_rollout_5000
Creator: novastar112
Published: 2026-04-30 07:09:53
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/novastar112/sokoban_easy_remap_imagined_rollout_5000

下载链接

链接失效反馈

官方服务：

资源简介：

Sokoban简易基于源的想象推出数据集包含成功的源轨迹以及在选定移动步骤上添加的四个侧面推出。推理摘要使用种子`4292026`选择的本地模板，未使用外部推理或模型API。训练视图采用`sokoban_interleaved_trajectory_cot_v1`模式，每条记录都是一个完整的成功源轨迹，以`messages`格式呈现：普通步骤保持为`user(prompt + current image_b64)`后跟`assistant(action)`，只有选定步骤的助手回合会在四个生成的试验图像之间插入`<think>`文本。训练行将JPEG图像内联存储为`image_b64`；预览文件省略了这些负载以供审查。选定步骤的推理以第一人称书写，比较当前状态与左/右/上/下想象的一步结果，然后发出源动作。

The Sokoban Easy Source-Based Imagined Rollout Dataset contains successful source trajectories with four side rollouts added on one selected move step. Reasoning summaries are local templates selected with seed `4292026`; no external reasoning/model API is used. The training view uses schema `sokoban_interleaved_trajectory_cot_v1`. Each row is a full successful source trajectory in `messages` format: normal steps stay as `user(prompt + current image_b64)` followed by `assistant(action)`, and only the selected step assistant turn interleaves `<think>` text with four generated trial images. Training rows store JPEG images inline as `image_b64`; the preview file omits those payloads for review. The selected-step reasoning is written in first person and compares the current state with left/right/up/down imagined one-step outcomes before emitting the source action.

提供机构：

novastar112

搜集汇总

数据集介绍

构建方式

本数据集基于推箱子游戏的成功通关轨迹构建，通过在特定行动步骤上扩展四次侧向模拟推演，形成融合了状态推理的增强轨迹。每条记录保留了原始成功轨迹，并在选定的移动步骤处插入基于本地模板的推理摘要，未依赖外部推理模型或API，确保了数据生成的自主性与可复现性。数据集以JSONL格式存储完整轨迹、过渡状态及交错式思维链训练视图，便于后续分析与建模。

特点

数据集的核心特色在于将推理过程与行动序列交织呈现，每条训练样本采用`sokoban_interleaved_trajectory_cot_v1`架构，在关键步骤的助手回复中嵌入`<think>`标签，包含四个方向模拟结果的第一人称比较式推理文本。训练视图以JPEG内嵌图像（base64编码）保存状态，而预览文件为减轻体积则省略了图像负载，兼顾了训练效率与审阅便利性。此外，推理摘要由固定随机种子生成，确保了数据的一致性。

使用方法

数据集适用于训练具备中间推理能力的智能体模型，特别是在需要评估多方向后果后做出决策的推箱子场景中。使用时可加载JSONL文件，提取`messages`字段中的`user`和`assistant`轮次进行监督学习；对于交错思维链格式，需解析`<think>`标签内的推理文本及对应的模拟图像，将其作为额外的状态-动作对输入。建议先使用预览文件验证数据结构，再通过完整轨迹文件进行模型微调或强化学习评估。

背景与挑战

背景概述

该数据集由研究者于近期构建，旨在探索推箱子（Sokoban）这一经典规划问题中的推理与决策过程。核心研究问题聚焦于如何通过模拟未来状态（即“想象 rollout”）来增强智能体在复杂环境中的行动选择能力。数据集以简单难度的推箱子任务为基础，记录了成功轨迹，并在关键决策步骤上添加了四个方向的侧支展开，从而提供了一种结构化的推理训练视角。其影响力在于为规划与推理领域的语言模型（如CoT训练）提供了可复现的基准数据，推动了基于轨迹的思维链学习研究。

当前挑战

该数据集面临的挑战包括：1) 在领域问题层面，推箱子任务要求模型具备长程规划与状态空间搜索能力，而当前数据仅聚焦于单步骤的局部想象展开，难以全面评估模型在复杂多步规划中的推理连贯性与泛化能力。2) 构建过程中，数据生成依赖于预设的模板化推理摘要，未引入外部推理或模型API，这虽然保证了数据的可控性与可复现性，但也限制了推理多样性和真实决策场景的丰富性，可能导致训练后的模型在应对未见过状态时表现欠佳。

常用场景

经典使用场景

在推箱子（Sokoban）这一经典规划与推理任务中，该数据集以源轨迹为基础，针对单个移动步骤扩展出四个侧向推演路径，形成交织式的推理轨迹。研究者可将其用于训练语言模型在视觉观察基础上进行多步空间推理与行动选择，尤其适合构建具有‘思考-行动’交替结构的智能体系统。数据集中以用户-助手消息格式保存完整的成功轨迹，并在特定步骤插入带有第一人称推理文本与四个推演图像的交织链式思维（CoT）训练视图，为模型提供从当前状态到行动决策的推演范例。

解决学术问题

该数据集聚焦于解决规划型任务中模型‘盲目执行’而缺乏中间推理的困境。传统方法往往直接映射状态到动作，忽略了任务求解过程中的因果探索与错误回溯。通过引入局部推演轨迹与第一人称推理总结，数据集为模型学习如何基于当前状态想像多个候选动作的未来后果提供了基准，从而推动从‘状态-动作’映射向‘状态-推演-动作’认知链的转变。这一设计有助于揭示推理模型在规划任务中的机制，并为评估模型的空间想象与反事实推理能力提供标准测试平台。

衍生相关工作

该数据集衍生出的重要工作之一是将链式思维（CoT）推理与多步视觉推演相结合的训练范式。类似思路在后续研究中被推广至‘在线推理-规划’框架，如基于世界模型的想象推理算法。数据集采用的本地化推理模板（种子4292026）也启发了对模板化推理泛化能力的研究，推动了无需外部API即可生成结构化推理数据的方法。此外，交织式推理轨迹格式被进一步用于构建多任务规划基准，例如在迷官导航和3D物体操作等任务中嵌入类似推演步骤。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集