AutoPlanBench
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/karthikv792/LLMs-Planning/tree/main/plan-bench
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个由自动将PDDL语言编写的规划基准转换为文本描述而创建的基准数据集。它包含了Valmeekam等人(2023a年)以及PlanBench仓库手动创建的编码。此外,数据集还使用了Fast Downward规划器生成了最优的金标准计划。该数据集涵盖了12个PDDL领域,每个领域包含21个问题。其任务是评估大型语言模型在经典规划领域的规划方法。
This benchmark dataset is created by automatically converting planning benchmarks written in the PDDL language into textual descriptions. It includes manually constructed encodings developed by Valmeekam et al. (2023a) and those curated in the PlanBench repository. Additionally, the dataset uses the Fast Downward planner to generate optimal gold-standard plans. This dataset covers 12 PDDL domains, with 21 problems per domain. The task of this dataset is to evaluate planning methods of large language models in the classical planning domain.
搜集汇总
数据集介绍

背景与挑战
背景概述
PlanBench是一个可扩展的基准测试数据集,专门用于评估大语言模型在规划与变化推理任务上的性能。它包含多种规划任务,如计划生成、最优规划和计划验证,并支持集成不同的LLM引擎(如OpenAI和BLOOM)。数据集提供了问题生成器、领域混淆功能以及灵活的配置选项,便于用户定制和扩展新领域。
以上内容由遇见数据集搜集并总结生成



