fruit-box

Hugging Face2025-10-24 更新2025-10-25 收录

下载链接：

https://huggingface.co/datasets/djdumpling/fruit-box

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个关于水果箱游戏的轨迹数据集。游戏中，一个智能体在固定的10x17数字板上重复选择轴对齐的矩形区域，使得矩形内数字之和等于10。选中的单元格将被清除（设置为0）。游戏没有重力或重填机制。每一步的奖励等于清除的非零单元格数量。当没有合法移动时，游戏结束。数据集包含每个步骤的ID、步数、游戏板状态、动作、合法动作数量、是否合法、奖励、是否结束等信息。

This is a trajectory dataset for the Fruit Box Game. In the game, an AI Agent repeatedly selects axis-aligned rectangular regions on a fixed 10×17 digital board such that the sum of the numbers within the rectangle equals 10. The selected cells will be cleared (set to 0). The game does not include gravity or cell refilling mechanics. The reward for each step is equal to the number of cleared non-zero cells. The game terminates when no valid moves are available. The dataset includes information such as step ID, step number, game board state, action, number of valid actions, action validity, reward, and game termination status.

创建时间：

2025-10-12

原始信息汇总

数据集概述

基本信息

数据集名称: fruit-box
标签: agent
数据规模: 10万到100万条之间

数据来源

数据来自游戏"fruit box"的轨迹记录
游戏平台: https://en.gamesaien.com/game/fruit_box/

游戏规则

游戏板固定为10×17网格
网格中包含数字1-9
智能体重复选择轴对齐矩形区域
矩形内数字总和必须等于10
被选中的单元格被清除（设为0）
无重力机制和重新填充机制
每步奖励=清除的非零单元格数量
当无合法移动时回合结束

数据结构

json { "episode_id": "字符串", "step": "整数", "grid": "10×17数组", "action": { "c1": "整数", "c2": "整数", "r1": "整数", "r2": "整数" }, "num_legal_actions": "整数", "legal": "布尔值", "reward": "整数", "done": "布尔值", "agent_tag": "字符串", "rng_seed": "整数" }

字段说明

episode_id: 回合标识符
step: 步骤编号
grid: 10行17列的游戏状态网格
action: 动作坐标（c1,c2为列范围，r1,r2为行范围）
num_legal_actions: 当前合法动作数量
legal: 动作是否合法
reward: 当前步骤奖励
done: 回合是否结束
agent_tag: 智能体标签
rng_seed: 随机数种子

搜集汇总

数据集介绍

构建方式

在智能体决策研究领域，fruit-box数据集通过脚本化策略在固定10×17数字棋盘上生成轨迹数据。构建过程中，智能体反复选择轴对齐矩形区域，其内数字之和需恰好等于10，随后清除该区域单元格并置零。每步奖励以清除的非零单元格数量计算，回合终止于无合法移动时，最终形成包含完整状态-动作序列的结构化记录。

特点

该数据集以离散空间决策任务为特色，其网格状态由1至9数字构成，动作空间限定为二维坐标框选操作。独特之处在于动态变化的合法动作数量与无重力、无补充的静态环境设定，为研究稀疏奖励与组合优化问题提供理想场景。数据涵盖回合标识、步骤索引及随机种子等元信息，支持对智能体行为模式的细粒度分析。

使用方法

研究者可借助该数据集训练强化学习模型解决约束满足问题，通过解析网格状态与动作坐标的映射关系学习最优选择策略。具体实施时，应以网格数组为输入特征，动作坐标作为预测目标，利用回合终止标志构建时序训练样本。此外，随机种子机制支持环境确定性重置，便于进行策略评估与对比实验。

背景与挑战

背景概述

在强化学习与智能体决策研究领域，fruit-box数据集由匿名研究团队于2023年构建，聚焦于离散空间中的组合优化问题。该数据集通过记录智能体在10×17数字矩阵中选取矩形区域的完整决策轨迹，旨在探索受限环境下的序列决策机制。其核心研究在于解决非重构网格中动态子集求和问题，为序列决策模型与奖励机制设计提供了标准化评估基准，对游戏AI与自动化决策领域具有重要推动作用。

当前挑战

该数据集针对的领域挑战在于高维动作空间中的长期规划难题，智能体需在10^4量级的潜在矩形区域中持续寻找和为10的有效组合，同时应对网格状态随决策步骤指数级变化的复杂性。构建过程中面临轨迹完整性与噪声控制的挑战，既要保证脚本策略生成的数十万条轨迹符合马尔可夫性，又需通过RNG种子实现严格可复现性，且需在无重力重构的静态网格中维持奖励函数与终止条件的数学严谨性。

常用场景

经典使用场景

在强化学习领域，fruit-box数据集常被用于训练智能体进行空间推理与决策优化。该数据集模拟了一个10×17的数字网格环境，智能体需反复选择轴对齐矩形区域，使其数字总和恰好为10，从而清除对应单元格。这一过程要求智能体在无重力干扰和补充机制的静态环境中，逐步探索最优动作序列，以最大化累计奖励。该场景为研究序列决策问题提供了高度结构化的实验平台，尤其适合验证策略网络在离散动作空间中的泛化能力。

解决学术问题

该数据集有效解决了部分可观测环境中长期规划与奖励稀疏性的学术难题。通过提供精确的网格状态与动作轨迹记录，研究者能够深入分析智能体在约束条件下的探索-利用权衡机制。其固定尺寸的棋盘设计与确定性规则，为研究动作价值函数估计、状态表征学习等核心问题提供了可控实验环境。该数据集的意义在于推动了基于模型的强化学习方法发展，尤其在处理组合优化类任务时展现出独特的理论价值。

衍生相关工作

基于该数据集衍生的经典工作主要集中在分层强化学习架构的创新。研究者通过解析动作序列的时空特征，开发了多尺度注意力机制以提升矩形选择的效率。部分研究则利用其确定性环境特性，构建了结合蒙特卡洛树搜索的混合决策模型。这些工作不仅拓展了数据集中网格状态编码技术的应用边界，更为后续的课程学习策略设计提供了重要的方法论参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集