five

NATURAL PLAN

收藏
arXiv2024-06-07 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2406.04520v1
下载链接
链接失效反馈
官方服务:
资源简介:
NATURAL PLAN是由Google DeepMind创建的一个自然语言规划基准数据集,包含三个主要任务:旅行规划、会议规划和日历调度。该数据集通过使用Google Flights、Google Maps和Google Calendar等工具的真实数据,构建了多种约束条件,以评估大型语言模型(LLMs)在自然语言规划任务中的表现。数据集的创建过程涉及随机生成城市、时间和地点等参数,并添加特定约束以确保任务的唯一解。NATURAL PLAN的应用领域主要集中在提升LLMs在复杂任务规划中的能力,特别是在处理多城市、多人和多日程的复杂场景中。

NATURAL PLAN is a natural language planning benchmark dataset created by Google DeepMind. It comprises three core tasks: travel planning, meeting planning, and calendar scheduling. The dataset builds diverse constraint conditions using real-world data from tools including Google Flights, Google Maps, and Google Calendar, to evaluate the performance of Large Language Models (LLMs) in natural language planning tasks. The dataset creation process involves randomly generating parameters such as cities, times and locations, and adding specific constraints to ensure a unique solution for each task. The application scope of NATURAL PLAN primarily focuses on enhancing the capabilities of LLMs in complex task planning, especially when handling complex scenarios involving multiple cities, multiple participants and multiple schedules.
提供机构:
Google DeepMind
创建时间:
2024-06-07
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言规划领域,NATURAL PLAN数据集的构建采用了系统性合成方法,以模拟真实世界的规划场景。该数据集涵盖旅行规划、会议安排和日历调度三大任务,每个任务均基于实际工具数据生成。例如,旅行规划任务从欧洲热门城市中随机抽取目的地,结合谷歌航班API提供的直飞航线信息,并引入时间约束与特定日期会面要求,确保每个问题仅存在唯一解。会议规划任务则通过谷歌地图API获取真实地点间的行驶时间,随机生成人员可用时间窗口,构建多目标优化场景。日历调度任务通过随机生成与会者日程安排,并施加最早可用时间等约束,形成具有明确解的会议时间协调问题。
使用方法
该数据集的使用主要围绕大语言模型的规划能力评估展开。研究者可采用少样本提示策略,为每个任务提供五个示例以激活模型的上下文学习能力。评估时需解析模型生成的规划方案,与标准答案进行精确匹配计算准确率。数据集支持复杂度分析实验,通过调整城市数量、参与人数等变量探究模型性能变化规律。同时,该数据集适用于泛化能力研究,可进行从易到难或从难到易的示例迁移实验。此外,长上下文规划实验可利用该数据集测试模型处理大量上下文示例的能力,自我修正实验则可检验模型对规划错误的识别与纠正机制。
背景与挑战
背景概述
自然语言规划作为人工智能领域的关键能力,旨在使智能体能够理解并执行以自然语言描述的任务序列。尽管大型语言模型在诸多复杂任务中展现出卓越潜力,但其在自然语言规划方面的表现仍远逊于人类。为此,Google DeepMind的研究团队于2024年6月推出了NATURAL PLAN基准数据集,专注于评估模型在真实场景下的规划能力。该数据集涵盖旅行规划、会议安排与日历调度三大核心任务,并整合了Google Flights、Google Maps等工具的实际数据作为上下文,从而剥离了工具使用环境对评估的干扰,直指模型在信息完备条件下的自然语言规划效能。
当前挑战
NATURAL PLAN所针对的自然语言规划问题本身即蕴含多重挑战:模型需在复杂约束下进行多步推理与序列决策,例如在旅行规划中协调航班连通性、时间窗口与城市访问顺序,其表现随问题复杂度增加而急剧下降,当涉及10个城市时,所有先进模型的解决率均低于5%。在数据集构建过程中,研究者面临合成真实且多样化的规划实例的难题,需确保每个任务仅存在单一解以简化评估,同时通过API查询整合实时工具数据以模拟现实场景,并在保持任务自然语言表述的同时,避免引入领域特定语言(如PDDL),从而维持评估的普适性与真实性。
常用场景
经典使用场景
在自然语言处理与人工智能规划交叉领域,NATURAL PLAN数据集为评估大型语言模型在自然语言描述的现实世界规划任务中的能力提供了基准。该数据集聚焦于旅行规划、会议安排和日历调度三大核心场景,通过整合来自谷歌航班、谷歌地图和谷歌日历等真实工具的数据作为上下文,模拟了人类日常面临的复杂决策环境。其经典使用场景在于系统性地测试模型在多重约束条件下进行逻辑推理与序列生成的表现,例如在给定航班连通性、时间窗口和地点偏好等限制下,为多城市旅行制定最优行程。
解决学术问题
NATURAL PLAN数据集旨在解决当前大型语言模型在自然语言规划任务中表现不足的核心学术问题。传统规划研究多依赖于形式化语言如PDDL,缺乏对自然语言理解与推理能力的直接评估。该数据集通过提供完全信息化的工具输出上下文,剥离了工具使用环境对评估的干扰,从而精准衡量模型在复杂约束下的纯规划能力。它揭示了即使是最先进的模型如GPT-4和Gemini 1.5 Pro,在面临城市数量增加或参与者增多等复杂度提升时,性能会出现显著下降,这突显了自然语言规划仍是当前人工智能亟待攻克的关键挑战。
实际应用
该数据集的实际应用场景紧密贴合现代智能助理与自动化决策系统的需求。在旅行规划领域,它可助力开发能够理解用户偏好、协调航班与住宿的个性化行程推荐引擎。在商业环境中,其会议规划与日历调度任务为开发智能会议协调系统提供了测试基础,这类系统需综合考虑多方时间冲突、地点距离与持续时间约束。此外,数据集所模拟的基于真实API数据的上下文,为构建无需频繁调用外部工具、仅凭给定信息就能做出高效规划的轻量级AI代理指明了可行路径。
数据集最近研究
最新研究方向
在自然语言处理领域,NATURAL PLAN数据集的推出标志着对大型语言模型规划能力评估的重要进展。该数据集聚焦于旅行规划、会议安排和日历调度三大现实任务,通过整合Google Flights、Maps和Calendar等工具的真实数据,构建了无需工具调用环境的纯自然语言规划基准。前沿研究揭示,即使如GPT-4和Gemini 1.5 Pro等顶尖模型,在复杂约束下的规划准确率仍不足50%,尤其在任务复杂度增加时性能急剧下降。当前热点探索方向包括长上下文情境下的规划学习、少样本泛化机制以及自我修正策略的有效性,这些研究不仅凸显了自然语言规划的现实挑战,也为智能代理的自主决策能力提供了关键评估框架。
相关研究论文
  • 1
    NATURAL PLAN: Benchmarking LLMs on Natural Language PlanningGoogle DeepMind · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作