BlocksWorld, Logistics, Mini-Grid, Trip Planning, Calendar Scheduling

Name: BlocksWorld, Logistics, Mini-Grid, Trip Planning, Calendar Scheduling
Creator: 谷歌深度思维
Published: 2024-06-19 06:57:06
License: 暂无描述

arXiv2024-06-19 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2406.13094v1

下载链接

链接失效反馈

官方服务：

资源简介：

本研究构建了包括BlocksWorld、Logistics、Mini-Grid等在内的多个数据集，用于评估大型语言模型（LLMs）的规划能力。这些数据集涵盖了从简单的积木世界到复杂的物流规划等多种场景，通过PDDL和自然语言两种形式描述问题。数据集的创建过程遵循严格的步骤，包括初始状态和目标状态的设定、问题在PDDL中的表达以及使用经典规划器解决问题的过程。这些数据集不仅用于评估LLMs的规划性能，还用于研究模型在不同复杂度问题上的泛化能力，旨在提升LLMs在实际应用中如会议安排和旅行规划等任务的规划能力。

This study develops multiple datasets including BlocksWorld, Logistics, Mini-Grid, and others, to evaluate the planning capabilities of Large Language Models (LLMs). These datasets cover diverse scenarios, ranging from simple block-based environments such as BlocksWorld to complex logistics planning tasks, with problems described in both PDDL and natural language formats. The construction of these datasets follows a rigorous procedure, which encompasses the specification of initial and goal states, the formalization of problems in PDDL, and the solution process via classical planners. These datasets serve not only to assess the planning performance of LLMs, but also to explore the generalization ability of models across problems of different complexities, with the ultimate goal of enhancing the planning capabilities of LLMs in real-world applications like meeting scheduling and travel planning.

提供机构：

谷歌深度思维

创建时间：

2024-06-19

搜集汇总

数据集介绍

构建方式

该数据集的构建基于经典的规划领域定义语言（PDDL）和自然语言场景，涵盖了BlocksWorld、Logistics、Mini-Grid、Trip Planning和Calendar Scheduling等多个任务。首先，通过生成不同难度的实例，构建了一个全面的基准测试套件。其次，使用PDDL描述初始状态、目标和动作，并通过经典规划器Fast-Downward生成解决方案。最后，通过槽填充技术将PDDL问题映射到自然语言，生成相应的自然语言任务。这一过程确保了数据集的多样性和可扩展性，能够适应不同复杂度的规划任务。

使用方法

该数据集的使用方法主要包括通过上下文学习（ICL）、监督微调（SFT）和基于搜索的规划方法来评估大语言模型的规划能力。在ICL中，模型通过少量示例学习生成规划方案；在SFT中，模型通过微调优化规划路径；在基于搜索的规划中，模型结合蒙特卡洛树搜索（MCTS）和树状思维（ToT）等策略提升规划性能。此外，数据集还支持对模型在分布外场景中的泛化能力进行评估，确保模型能够应对未见过的规划挑战。

背景与挑战

背景概述

BlocksWorld、Logistics、Mini-Grid、Trip Planning和Calendar Scheduling数据集是由Google DeepMind的研究团队在2024年创建的，旨在评估大型语言模型（LLMs）在规划任务中的能力。这些数据集涵盖了经典规划领域和自然语言场景，通过生成不同难度的实例，系统性地评估LLM在规划任务中的表现。研究团队探索了上下文学习（ICL）、微调（SFT）以及结合搜索策略（如MCTS和ToT）的方法，以提升LLM的规划能力。该研究不仅重新审视了经典规划问题，还通过自然语言规范探索了现实世界中的模糊性和不确定性，为LLM在任务规划、文本规划和现实世界任务中的应用提供了新的视角。

当前挑战

该数据集面临的主要挑战包括：1) LLM在规划任务中的表现不稳定，即使在简单场景中也可能生成无效或错误的计划；2) 上下文学习（ICL）的局限性，模型需要在有限的示例中理解任务并生成计划，且无法逐步验证每一步的正确性；3) 数据集构建过程中，如何将规划问题从形式化的PDDL语言映射到自然语言，并确保生成的计划能够通过验证工具的检验；4) 规划任务的泛化能力，模型需要在未见过的环境中生成有效的计划，这对模型的泛化能力提出了更高的要求。此外，如何在多步规划任务中优化搜索策略，进一步提升模型的规划效率，也是当前研究中的一大挑战。

常用场景

经典使用场景

BlocksWorld、Logistics、Mini-Grid、Trip Planning和Calendar Scheduling数据集在评估大型语言模型（LLMs）的规划能力方面具有经典应用场景。这些数据集通过提供不同复杂度的规划问题，帮助研究人员系统地评估LLMs在生成有效规划路径方面的表现。特别是在自然语言和形式化语言（如PDDL）之间的映射中，这些数据集能够揭示LLMs在处理复杂规划任务时的潜力与局限性。

解决学术问题

这些数据集解决了LLMs在规划任务中表现不佳的学术问题。通过提供多样化的规划场景，研究人员能够深入探讨LLMs在上下文学习（ICL）、监督微调（SFT）以及搜索策略（如MCTS和ToT）下的表现。研究表明，LLMs在规划任务中的表现可以通过增加上下文长度、微调模型以及结合搜索策略得到显著提升，从而为LLMs在复杂规划任务中的应用提供了理论支持。

实际应用

在实际应用中，这些数据集为LLMs在现实世界中的规划任务提供了重要参考。例如，Trip Planning数据集可以用于优化旅行路线的生成，Calendar Scheduling数据集则可用于自动化会议安排。通过结合自然语言和形式化规划语言，LLMs能够在物流调度、机器人路径规划以及日常任务规划等领域发挥重要作用，提升自动化系统的效率和智能化水平。

数据集最近研究