AUTOPLANBENCH

Name: AUTOPLANBENCH
Creator: 萨尔兰大学计算机科学研究所
Published: 2024-02-09 17:48:41
License: 暂无描述

arXiv2024-02-09 更新2024-06-21 收录

下载链接：

https://github.com/minecraft-saar/autoplanbench/tree/main

下载链接

链接失效反馈

官方服务：

资源简介：

AUTOPLANBENCH是一个由萨尔兰大学计算机科学研究所开发的数据集，旨在自动从PDDL生成LLM规划器的基准。该数据集包含12个PDDL域的自然语言转换，用于评估不同LLM规划器在各种规划任务上的表现。数据集的创建过程涉及自动将PDDL规范转换为自然语言，确保了研究的可扩展性和公平性。该数据集的应用领域主要集中在人工智能规划和推理能力的研究，特别是在大型语言模型（LLM）的规划和推理能力评估上。

AUTOPLANBENCH is a dataset developed by the Institute of Computer Science at Saarland University, designed to automatically generate benchmarks for large language model (LLM) planners from PDDL. This dataset comprises natural language translations of 12 PDDL domains, which serve to evaluate the performance of various LLM planners across a wide range of planning tasks. The construction of this dataset involves automatically converting PDDL specifications into natural language, thereby ensuring the scalability and fairness of relevant research. The primary application scope of this dataset focuses on research in artificial intelligence planning and reasoning capabilities, particularly for evaluating the planning and reasoning abilities of large language models (LLMs).

提供机构：

萨尔兰大学计算机科学研究所

创建时间：

2023-11-16

搜集汇总

数据集介绍

构建方式

在自动规划评估领域，AUTOPLANBENCH 提出了一种创新的方法，通过大语言模型（LLM）自动将规划领域定义语言（PDDL）描述的经典规划问题转换为自然语言基准。该方法首先利用领域无关的提示策略，让 APB-LLM 分别将 PDDL 中的谓词和动作独立翻译为自然语言模板，其中动作的翻译会结合其前置条件和效果信息，以确保参数语义角色的准确捕捉。随后，基于这些生成的片段，通过规则化方法组合成完整的自然语言领域描述和问题描述，领域描述涵盖可用动作、其前置条件与效果以及类型层次结构，问题描述则包括目标状态、可用对象和初始状态的具体说明。整个过程无需人工干预，实现了从形式化规划定义到可理解文本任务的大规模、自动化转换。

特点

该数据集的核心特征在于其完全自动化的生成流程与广泛的领域覆盖能力。它首次实现了无需人工标注即可将 PDDL 规划基准大规模转换为自然语言任务，消除了人工转换可能引入的领域知识偏差，保证了评估的公平性与系统性。生成的自然语言编码严格忠实于原始 PDDL 定义，同时通过启发式方法为对象生成更具语义关联的名称（如“truck_0”），并采用结构化的表述方式来平衡句子长度与信息完整性。此外，数据集支持对多种 LLM 规划范式（如基础规划、思维链、交互式规划）的评估，并提供了与手动编码结果可比性的验证，为系统性地探究大语言模型在组合复杂性任务上的推理与规划能力提供了可靠且可扩展的基准平台。

使用方法

研究人员可利用 AUTOPLANBENCH 生成的自然语言编码，系统评估不同大语言模型在经典规划任务上的性能。典型的使用方法涉及设定非交互式或交互式两种实验框架。在非交互式框架中，规划大语言模型（P-LLM）接收完整的自然语言领域描述、问题描述及少量示例，直接生成完整的规划序列；而在交互式框架中，P-LLM 与一个模拟 PDDL 世界模型的领域引擎进行交互，逐步生成单个动作并根据环境反馈（如动作是否可执行）进行调整。生成的规划由另一个翻译大语言模型（T-LLM）转换回 PDDL 动作，最终通过规划验证器进行正确性评估。该方法支持对基础规划、思维链、纯动作交互以及思维链结合交互等多种规划策略进行对比分析，从而深入探究模型在应对不同领域特性（如规划长度、死锁状态）时的能力边界。

背景与挑战

背景概述

在人工智能规划领域，评估大型语言模型（LLMs）的推理与规划能力已成为前沿研究热点。AUTOPLANBENCH 数据集由德国萨尔大学的研究团队于2024年2月正式提出，其核心目标是通过自动化方法，将经典的规划领域定义语言（PDDL）基准任务转化为自然语言描述，从而构建一个标准化、可扩展的评测框架。该数据集旨在系统性地探究LLMs在组合复杂性任务中的实际表现，弥补传统评测仅覆盖简单推理片段的不足，为深入理解LLMs的符号推理与规划能力提供了关键基础设施。

当前挑战

AUTOPLANBENCH 面临的挑战主要体现在两个方面：其一，在领域问题层面，LLMs 在解决传统规划问题时，难以保证生成正确且可直接执行的计划，尤其在处理长序列规划、避免死锁状态以及泛化到未见过的动作前提条件等方面存在显著局限；其二，在构建过程中，需确保从PDDL到自然语言的自动转换能准确捕捉动作与参数之间的语义关系，并处理PDDL对象类型的显式表达，同时避免人工标注可能引入的额外领域知识，以维持评测的公平性与系统性。

常用场景

经典使用场景

在人工智能规划领域，AUTOPLANBENCH数据集主要用于系统评估大型语言模型在经典规划任务中的推理与规划能力。该数据集通过自动转换机制，将PDDL（规划领域定义语言）描述的符号化规划问题转化为自然语言任务，为研究者提供了一个标准化、可扩展的测试平台。其经典使用场景包括对比不同LLM规划策略（如Basic、CoT、Act、ReAct）在多样化规划领域（如物流运输、积木世界、卫星调度等）中的表现，从而深入探究模型在组合复杂性任务上的实际效能。

衍生相关工作

AUTOPLANBENCH的推出直接启发了多项围绕LLM规划评估与增强的后续研究。其构建方法为PlanBench等基准框架的扩展提供了自动化范例，促进了更大规模规划能力评测体系的建立。在技术路径上，该工作推动了如LLM+P等神经符号结合模型的发展，这些模型利用LLM将自然语言目标转换为PDDL描述，再调用经典规划器求解，从而弥补纯LLM规划在可靠性与组合搜索上的不足。同时，其在交互式规划（ReAct）上的实验设计也影响了后续关于环境反馈与逐步推理的研究方向。

数据集最近研究