boxoban-astar-solutions

Name: boxoban-astar-solutions
Creator: FAR AI
Published: 2024-07-25 17:59:56
License: 暂无描述

Hugging Face2024-07-25 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/AlignmentResearch/boxoban-astar-solutions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含使用A*算法解决Boxoban级别的结果，包括不同难度级别的文件，如'unfiltered_train.csv.gz'和'medium_valid.csv.gz'。对于某些级别，由于A*预算限制，未能找到解决方案，标记为'Unsolved levels'。搜索预算根据难度级别不同，分别为100万节点和500万节点。解决方案格式为一系列动作，包括上、右、下、左。

提供机构：

FAR AI

创建时间：

2024-07-15

原始信息汇总

A* solutions to Boxoban levels

数据集概述

名称: A* solutions to Boxoban levels
许可证: Apache-2.0
任务类别: 强化学习
标签: sokoban, planning
大小类别: 1M<n<10M

数据集详情

搜索预算:
- 中等难度级别: 500万节点
- 未过滤难度级别: 100万节点
启发式方法: 每个箱子到其最近目标的曼哈顿距离之和

数据文件概览

文件名	总大小	未解决级别数量	搜索预算
`unfiltered_train.csv.gz`	900,000	495	1M nodes
`unfiltered_valid.csv.gz`	100,000	623	1M nodes
`unfiltered_test.csv.gz`	1,000	11	1M nodes
`medium_valid.csv.gz`	50,000	1	5M nodes

解决方案格式

编号	动作
0	上
1	右
2	下
3	左

搜集汇总

数据集介绍

构建方式

boxoban-astar-solutions数据集是通过A*搜索算法在Boxoban游戏关卡中寻找解决方案而构建的。该算法采用了曼哈顿距离作为启发式函数，计算每个箱子到其最近目标的距离总和。对于不同难度的关卡，搜索预算也有所不同：中等难度关卡允许扩展500万个节点，而未过滤难度关卡则限制为100万个节点。未能找到解决方案的关卡被标记为`SEARCH_STATE_FAILED`或`NOT_FOUND`。

特点

该数据集包含了Boxoban游戏关卡的解决方案序列，每个解决方案由一系列动作组成，动作包括上、右、下、左四个方向。数据集分为训练集、验证集和测试集，分别包含900,000、100,000和1,000个关卡。其中，未过滤难度关卡中有部分关卡未能找到解决方案，中等难度关卡中仅有极少数未解关卡。数据集的总规模在100万到1000万之间，适用于强化学习和规划任务的研究。

使用方法

使用该数据集时，可以通过Hugging Face Hub下载数据文件，并使用Pandas库加载CSV格式的数据。加载时需指定`dtype=str`以确保解决方案的动作序列以字符串形式保留，避免被转换为数字。数据文件的索引由文件名和关卡号组成，便于进一步分析和处理。该数据集可用于研究A*算法在规划任务中的表现，或作为强化学习模型的训练和评估数据。

背景与挑战

背景概述

Boxoban-astar-solutions数据集由Adrià Garriga-Alonso、Mohammad Taufeeque和Adam Gleave等研究人员于2024年创建，旨在为Sokoban游戏中的关卡提供A*算法的解决方案。该数据集主要用于强化学习和规划领域的研究，特别是通过A*算法解决Sokoban游戏中的复杂路径规划问题。Sokoban作为一种经典的推箱子游戏，其关卡设计具有高度的复杂性和挑战性，因此该数据集的构建为研究智能体在复杂环境中的规划行为提供了重要的实验基础。该数据集的研究成果已在ICML 2024 Workshop on Mechanistic Interpretability上发表，对推动强化学习和规划算法的研究具有重要意义。

当前挑战

Boxoban-astar-solutions数据集在构建过程中面临多重挑战。首先，Sokoban关卡的复杂性导致部分关卡在给定的A*搜索预算内无法找到解决方案，这些关卡被标记为“未解决”。其次，数据集的构建需要平衡搜索预算与计算资源，例如中等难度关卡允许扩展500万个节点，而未过滤难度关卡仅允许扩展100万个节点。这种资源限制可能导致部分关卡无法被充分探索，从而影响数据集的完整性。此外，数据集的解决方案以动作序列的形式存储，如何高效地解析和利用这些序列也是研究中的一个技术难点。这些挑战不仅反映了Sokoban游戏本身的复杂性，也为未来研究提供了改进的方向。

常用场景

经典使用场景

在强化学习领域，boxoban-astar-solutions数据集被广泛应用于解决Sokoban游戏中的路径规划问题。通过A*算法生成的解决方案，研究者可以深入分析智能体在复杂环境中的决策过程，进而优化算法性能。该数据集为智能体提供了丰富的训练样本，帮助其在面对类似问题时能够快速找到最优解。

实际应用

在实际应用中，boxoban-astar-solutions数据集被用于训练智能体在物流、仓储管理等领域的路径规划能力。通过模拟Sokoban游戏中的复杂环境，智能体可以学习如何在有限的空间内高效地移动物体，从而在实际场景中实现自动化操作。该数据集的应用不仅提高了智能体的决策效率，还为相关行业的自动化发展提供了技术支持。

衍生相关工作

基于boxoban-astar-solutions数据集，研究者们开展了多项经典工作。例如，Garriga-Alonso等人利用该数据集研究了递归神经网络在Sokoban游戏中的规划行为，揭示了智能体在复杂环境中的决策机制。此外，该数据集还被用于开发新的强化学习算法，进一步推动了智能体在复杂环境中的应用研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集