Plancraft
收藏arXiv2024-12-30 更新2025-01-01 收录
下载链接:
https://github.com/gautierdag/plancraft
下载链接
链接失效反馈官方服务:
资源简介:
Plancraft是由爱丁堡大学创建的多模态评估数据集,旨在测试LLM代理在Minecraft合成环境中的规划能力。该数据集包含文本和多模态接口,基于Minecraft的合成GUI,并集成了Minecraft Wiki作为知识库,用于评估工具使用和检索增强生成(RAG)能力。数据集包含1145个训练样本、570个验证样本和580个测试样本,总共有2295条数据,涵盖了从简单到复杂的合成任务。数据集的创建过程包括从Minecraft Wiki中提取合成配方,并通过Python实现合成逻辑和视觉表示。Plancraft的应用领域主要集中在LLM代理的规划能力评估,旨在解决代理在复杂环境中的决策和任务可行性判断问题。
Plancraft is a multimodal evaluation dataset developed by the University of Edinburgh, designed to test the planning capabilities of LLM agents in the synthetic Minecraft crafting environment. This dataset features textual and multimodal interfaces, is built upon Minecraft's crafting GUI, and integrates the Minecraft Wiki as a knowledge base to evaluate tool usage and Retrieval-Augmented Generation (RAG) capabilities. The dataset comprises 1,145 training samples, 570 validation samples, and 580 test samples, totaling 2,295 data entries, covering crafting tasks ranging from simple to complex. The development of Plancraft involves extracting crafting recipes from the Minecraft Wiki, and implementing crafting logic and visual representations using Python. The primary application scenarios of Plancraft focus on evaluating the planning capabilities of LLM agents, aiming to address issues related to agent decision-making and task feasibility judgment in complex environments.
提供机构:
爱丁堡大学
创建时间:
2024-12-30
原始信息汇总
Plancraft 数据集概述
数据集简介
Plancraft 是一个 Minecraft 环境和代理,专注于通过检索器进行规划的大型语言模型(LLM)代理的创新。
数据集内容
- 环境类:
PlancraftEnvironment类用于与环境交互,支持对库存进行操作,如移动物品和熔炼矿石。 - 评估器类:
Evaluator类用于评估代理在特定数据集上的性能,处理环境循环和模型交互,并保存评估结果和生成的图像。
数据集使用
- 安装:可以通过
pip install plancraft安装该包。 - 示例代码:提供了如何使用
PlancraftEnvironment和Evaluator类的示例代码。
数据集开发状态
- 开发状态:代码仍在积极开发和重构中,预计在 2025 年 1 月底发布正式版本。
数据集引用
bibtex @misc{dagan2024plancraftevaluationdatasetplanning, title={Plancraft: an evaluation dataset for planning with LLM agents}, author={Gautier Dagan and Frank Keller and Alex Lascarides}, year={2024}, eprint={2412.21033}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2412.21033}, }
Docker 支持
- Docker 镜像:提供了包含最新代码及其依赖的 Docker 镜像,可通过 Docker Hub 获取。
搜集汇总
数据集介绍

构建方式
Plancraft数据集的构建基于《我的世界》的合成界面,通过Python实现了合成逻辑和视觉表示。数据集包含文本和多模态接口,利用《我的世界》Wiki作为知识库,评估工具使用和检索增强生成(RAG)能力。此外,数据集还包含一个手工设计的规划器和一个RAG信息提取器,以消融现代代理架构的不同组件。为了评估决策能力,Plancraft还包含一部分故意无法解决的任务,要求代理不仅完成任务,还需判断任务是否可解。
特点
Plancraft数据集的特点在于其多模态接口和复杂的任务设计。数据集不仅包含文本描述,还提供高分辨率的图像输入,模拟真实的《我的世界》合成界面。任务设计涵盖了从简单到复杂的多种合成路径,并引入了无法解决的任务,以评估代理的决策能力。此外,数据集还提供了手工设计的规划器作为基准,用于评估代理生成的计划的质量和效率。
使用方法
Plancraft数据集的使用方法包括对开源和闭源大语言模型(LLM)的基准测试。用户可以通过文本或多模态接口与数据集交互,评估模型在合成任务中的表现。数据集支持多种工具使用,如搜索和思考步骤,以增强模型的规划能力。此外,用户还可以通过数据集提供的规划器基准,比较模型生成的计划与手工设计计划的效率。数据集还提供了无法解决的任务,用于评估模型在判断任务可行性方面的能力。
背景与挑战
背景概述
Plancraft是由爱丁堡大学的Gautier Dagan、Frank Keller和Alex Lascarides于2024年提出的一种多模态评估数据集,旨在评估基于大语言模型(LLM)的智能体在规划任务中的表现。该数据集基于Minecraft的合成界面,提供了纯文本和多模态两种交互方式,并结合了Minecraft Wiki作为知识库,以评估工具使用和检索增强生成(RAG)能力。Plancraft的核心研究问题在于如何通过多模态输入和外部知识库,提升LLM智能体在复杂规划任务中的决策能力。该数据集的推出为LLM智能体的规划能力评估提供了新的基准,尤其是在多模态环境和任务可行性判断方面,填补了现有评估工具的空白。
当前挑战
Plancraft面临的挑战主要体现在两个方面。首先,在解决领域问题方面,LLM智能体在处理复杂的多步规划任务时,往往表现出幻觉、输入脆弱性和上下文窗口有限等问题,导致其在规划效率和任务成功率上表现不佳。其次,在数据集构建过程中,如何设计出既包含可解任务又包含故意不可解任务的多样化数据集,以评估智能体在任务可行性判断上的能力,是一个技术难点。此外,如何将多模态输入与外部知识库有效结合,进一步提升智能体的规划能力,也是构建Plancraft时面临的主要挑战。
常用场景
经典使用场景
Plancraft数据集主要用于评估基于大语言模型(LLM)的智能体在复杂规划任务中的表现。其核心场景是模拟Minecraft中的合成任务,要求智能体通过多步规划完成特定物品的合成。数据集提供了文本和多模态接口,智能体需要根据观察(文本或图像)生成下一步动作,并判断任务是否可解。这种设置不仅测试了智能体的规划能力,还考察了其在面对不可解任务时的决策能力。
实际应用
Plancraft数据集的实际应用场景主要集中在智能体开发和评估领域。通过模拟Minecraft中的合成任务,该数据集为研究人员提供了一个可控的环境,用于测试和改进智能体的规划、决策和工具使用能力。这种能力在现实世界的自动化系统中至关重要,例如在物流、制造和家庭自动化等领域,智能体需要高效地规划任务并判断其可行性。此外,Plancraft的多模态接口也为研究智能体在视觉和文本信息整合方面的表现提供了平台,推动了多模态智能体的发展。
衍生相关工作
Plancraft数据集的推出催生了一系列相关研究工作,特别是在LLM智能体规划和多模态任务处理领域。例如,基于Plancraft的研究探索了如何通过检索增强生成(RAG)机制提升智能体的知识整合能力,以及如何通过多模态输入(如文本和图像)优化智能体的决策过程。此外,Plancraft的不可解任务设计也启发了其他研究者在评估智能体时引入任务可行性判断的指标,进一步推动了智能体评估方法的完善。这些工作不仅扩展了Plancraft的应用范围,也为LLM智能体的未来发展提供了新的研究方向。
以上内容由遇见数据集搜集并总结生成



