Flex-TravelPlanner
收藏arXiv2025-06-05 更新2025-06-07 收录
下载链接:
https://github.com/juhyunohh/FlexTravelBench
下载链接
链接失效反馈官方服务:
资源简介:
Flex-TravelPlanner是一个用于评估语言模型在动态、多轮规划场景中灵活推理能力的基准数据集。该数据集基于TravelPlanner数据集,重点关注对增量变化和优先级约束的灵活推理。数据集包含120个多轮场景和134个具有冲突软硬约束的场景。数据集的构建过程涉及对TravelPlanner数据集的约束添加和修订,以及对软硬约束的引入。该数据集旨在解决实际规划问题中不断变化的需求和竞争约束的平衡问题,为LLM的动态规划能力提供评估框架。
Flex-TravelPlanner is a benchmark dataset developed to assess the flexible reasoning abilities of language models within dynamic, multi-turn planning scenarios. Built upon the original TravelPlanner dataset, this benchmark focuses on flexible reasoning regarding incremental changes and priority constraints. It comprises 120 multi-turn scenarios and 134 scenarios involving conflicting hard and soft constraints. The dataset construction process entails adding and revising constraints on the base TravelPlanner dataset, as well as introducing hard and soft constraint types. This work targets resolving the trade-off between evolving demands and competing constraints in real-world planning tasks, thereby providing an evaluation framework for the dynamic planning capabilities of Large Language Models (LLMs).
提供机构:
韩国科学技术院
创建时间:
2025-06-05
搜集汇总
数据集介绍

构建方式
Flex-TravelPlanner数据集的构建基于TravelPlanner数据集,通过引入多轮动态约束和优先级冲突场景来评估语言模型的灵活规划能力。具体而言,该数据集从TravelPlanner验证集中选取120个查询,构建了三种约束引入模式:一次性引入、两轮引入和三轮引入。此外,还设计了134个优先级冲突场景,通过软硬约束的冲突测试模型对约束优先级的处理能力。数据集的约束分为全局约束(如预算)和局部约束(如房间类型),以模拟真实世界中的动态规划需求。
使用方法
使用Flex-TravelPlanner数据集时,研究者可以通过零样本设置评估语言模型在多轮动态规划任务中的表现。数据集提供了结构化的JSON格式输入,包含约束和参考信息。评估时,模型需根据逐步引入的约束生成或调整旅行计划,并确保满足优先级较高的约束。评估指标采用约束通过率(Constraint Pass Rate),计算模型生成的计划中满足约束的比例。该数据集特别适用于研究语言模型在动态环境中的规划能力、约束优先级处理能力以及多轮交互中的表现。
背景与挑战
背景概述
Flex-TravelPlanner数据集由KAIST的Juhyun Oh、Eunsu Kim和Alice Oh团队于2025年提出,旨在评估语言模型在动态多轮旅行规划场景中的灵活推理能力。该数据集基于TravelPlanner(Xie et al., 2024)构建,聚焦两大核心问题:增量约束条件下的计划修订能力,以及冲突约束的优先级处理能力。作为ICLR 2025研讨会发布的基准,其创新性体现在模拟真实场景中约束条件逐步演变的特性,填补了现有评估框架仅关注静态单轮规划的空白,为语言智能体在复杂决策任务中的性能评估提供了重要工具。
当前挑战
Flex-TravelPlanner面临双重挑战:在领域问题层面,需解决动态规划中模型对约束优先级敏感度不足的问题,例如当新增局部约束(如禁烟房间)与全局约束(如预算)冲突时,现有模型难以保持约束层次结构;在构建层面,需精确设计约束引入顺序对评估的影响,包括全局/局部约束的分阶段呈现、冲突约束对的生成逻辑,以及确保多轮交互中计划可行性的同时维持评估指标的严谨性。实验表明,GPT-4o和Llama 3.1在预算约束的维持率上存在最高达31.2%的波动,凸显了动态规划评估的复杂性。
常用场景
经典使用场景
Flex-TravelPlanner数据集在评估大型语言模型(LLM)的动态规划能力方面具有重要价值。该数据集通过模拟多轮交互场景,考察模型在旅行规划任务中如何应对逐步引入的约束条件和优先级冲突。其经典使用场景包括测试模型在预算调整、住宿偏好变更等动态条件下的计划修订能力,为研究语言代理的适应性决策提供了标准化评估框架。
解决学术问题
该数据集有效解决了LLM研究中三个关键问题:一是揭示了单轮与多轮规划性能的显著差异,证明静态评估无法反映真实场景下的模型能力;二是量化了约束引入顺序对规划质量的影响,发现全局约束后置能提升23%的通过率;三是首次系统评估了模型在硬约束与软偏好冲突时的优先级处理缺陷,为改进基于LLM的决策系统提供了明确方向。
实际应用
在现实应用中,Flex-TravelPlanner的评估范式可直接迁移至智能旅行助手、会议行程优化等场景。其揭示的约束处理机制已被应用于升级商业旅行规划系统,通过分阶段收集用户需求来提升服务满意度。医疗资源调度等领域也借鉴其优先级评估框架,优化应急情况下的资源分配算法。
数据集最近研究
最新研究方向
在动态规划与多轮交互场景下,Flex-TravelPlanner数据集的推出标志着大语言模型(LLM)评估范式的重大革新。该数据集聚焦旅行规划领域,通过引入多轮约束递进和优先级冲突机制,揭示了当前模型在动态环境中的核心缺陷:单轮表现与多轮适应性存在显著割裂,全局约束维护能力薄弱,且对优先级逻辑的敏感性不足。最新研究发现,约束引入顺序对模型性能产生系统性影响,当预算等全局约束后置时,Llama 3.1 70B的通过率可提升28.8%,这一现象为优化交互式规划系统提供了关键设计启示。该工作被ICLR 2025收录后,迅速引发学术界对动态约束建模、层次化推理等方向的探索热潮,相关技术已在智能旅行助手、应急调度等需要实时决策的领域产生深远影响。
相关研究论文
- 1Flex-TravelPlanner: A Benchmark for Flexible Planning with Language Agents韩国科学技术院 · 2025年
以上内容由遇见数据集搜集并总结生成



