PlanBench

arXiv2023-11-26 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2206.10498v4

下载链接

链接失效反馈

官方服务：

资源简介：

PlanBench是一个基于自动化规划社区，特别是国际规划竞赛中使用的领域构建的可扩展基准套件，用于测试大型语言模型在规划或推理行动和变化方面的能力。它提供了任务领域和特定规划能力的充分多样性。

PlanBench is a scalable benchmark suite built on the domains used by the automated planning community, particularly those adopted in the International Planning Competition (IPC). It is developed to test the ability of large language models (LLMs) to conduct planning or reason about actions and changes, and provides sufficient diversity in terms of both task domains and specific planning capabilities.

创建时间：

2022-06-22

搜集汇总

数据集介绍

构建方式

PlanBench 数据集构建于自动化规划社区的领域，特别是国际规划竞赛 (IPC) 中使用的领域。该数据集旨在测试大型语言模型 (LLM) 在规划或推理行动和变化方面的能力。PlanBench 提供了任务领域和特定规划能力方面的充分多样性。

特点

PlanBench 数据集的特点在于其可扩展性、多样性和系统性。它涵盖了各种任务领域，包括 BlocksWorld 和 Logistics，并针对 LLM 的规划能力进行了多种测试。此外，PlanBench 还提供了对域的混淆版本，以测试 LLM 是否能够根据域模型而不是背景知识进行规划。

使用方法

使用 PlanBench 数据集的方法包括：1. 确定要测试的 LLM 模型。2. 选择要使用的任务领域和测试案例。3. 运行测试并记录 LLM 的输出。4. 使用 PlanBench 提供的工具验证 LLM 的输出是否正确。5. 分析 LLM 的性能并与其他模型进行比较。

背景与挑战

背景概述

PlanBench 是一个可扩展的基准测试套件，旨在评估大型语言模型（LLMs）在规划和推理方面的能力。该数据集由亚利桑那州立大学计算与人工智能学院的 Karthik Valmeekam、Alberto Olmo、Matthew Marquez 和 Subbarao Kambhampati 以及科罗拉多州立大学计算机科学系的 Sarath Sreedharan 于 2023 年创建。该数据集的核心研究问题是评估 LLMs 的规划和推理能力，特别是在自动规划社区中使用的领域，特别是在国际规划竞赛中。PlanBench 的创建旨在填补现有基准测试在评估 LLMs 规划能力方面的不足，并提供足够的多样性来评估 LLMs 是否具有固有的规划能力。该数据集已在多个研究领域产生了广泛的影响，包括自然语言处理、人工智能和机器学习。

当前挑战

PlanBench 面临的主要挑战包括：1) 评估 LLMs 在规划和推理方面的能力；2) 构建过程中遇到的挑战，例如数据集的创建、基准测试套件的开发和评估指标的确定。

常用场景

经典使用场景

PlanBench 数据集主要用于评估大型语言模型（LLM）在规划和推理方面的能力。它基于自动化规划社区中使用的领域类型，特别是国际规划竞赛（IPC）中使用的领域，来测试 LLM 在规划或推理行动和变化方面的能力。PlanBench 提供了足够的任务领域和特定规划能力的多样性。

解决学术问题

PlanBench 数据集解决了评估 LLM 规划能力的难题。现有的 LLM 规划能力评估主要基于常识任务，这使得难以区分 LLM 是在规划还是在从其庞大的世界知识中检索信息。PlanBench 通过提供系统且可扩展的规划基准，具有足够的多样性，能够评估 LLM 是否具有固有的规划能力。

衍生相关工作

PlanBench 数据集衍生了多项相关工作。例如，一些研究使用了 PlanBench 来评估 LLM 在特定领域的规划能力，例如自动驾驶汽车或智能家居。此外，一些研究还使用了 PlanBench 来开发新的 LLM 规划算法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集