five

TravelPlanner

收藏
arXiv2024-02-05 更新2024-06-21 收录
下载链接:
https://osu-nlp-group.github.io/TravelPlanner
下载链接
链接失效反馈
官方服务:
资源简介:
TravelPlanner是一个专注于旅行规划的实际场景的新型规划基准数据集,由复旦大学等机构创建。该数据集包含1225个精心策划的规划意图和参考计划,提供了丰富的沙盒环境,以及访问近四百万数据记录的各种工具。数据集旨在评估语言代理在复杂规划任务中的能力,特别是在多约束环境下的表现。TravelPlanner不仅是一个挑战性的测试平台,也是一个有意义的工具,用于推动未来语言代理向人类级认知能力的发展。

TravelPlanner is a novel planning benchmark dataset focused on real-world travel planning scenarios, developed by institutions including Fudan University. This dataset contains 1,225 carefully curated planning intentions and reference plans, providing a rich sandbox environment alongside various tools that grant access to nearly four million data records. The dataset is designed to evaluate the capabilities of language agents in complex planning tasks, especially their performance in multi-constraint environments. TravelPlanner serves not only as a challenging testbed but also a meaningful tool for advancing future language agents toward human-level cognitive abilities.
提供机构:
复旦大学
创建时间:
2024-02-03
搜集汇总
数据集介绍
main_image_url
构建方式
TravelPlanner 数据集的构建采用了基于真实世界场景的方法,旨在模拟人类在旅行规划中的复杂决策过程。该数据集提供了一个丰富的沙盒环境,包含从互联网爬取的约四百万条数据记录,以及六个工具供语言代理访问。此外,TravelPlanner 还精心策划了 1,225 个多样化的用户查询和参考计划,每个查询都施加了不同的约束组合。数据集的构建过程包括环境设置、查询构建、参考计划标注和质量管理等步骤,确保了数据集的多样性和可靠性。
特点
TravelPlanner 数据集的特点在于其真实性和复杂性。它模拟了旅行规划中的各种约束,包括用户需求、常识约束和硬约束,如预算、房间规则、房间类型、菜系和交通方式等。此外,TravelPlanner 还提供了丰富的沙盒环境,包括六个工具,允许语言代理通过调用工具来收集信息。数据集的复杂性体现在其长周期的决策过程、多城市访问和多约束满足等方面,这些特性使得 TravelPlanner 成为评估语言代理规划能力的理想基准。
使用方法
使用 TravelPlanner 数据集时,研究者可以评估语言代理在多约束规划和工具使用方面的能力。数据集提供了两种评估模式:两阶段模式和单阶段模式。在两阶段模式中,语言代理需要通过调用工具来收集信息,并根据收集到的信息制定旅行计划。在单阶段模式中,研究者可以预先确定目的地城市,并提供详细的必要信息,以评估语言代理的规划能力。评估指标包括交付率、常识约束通过率、硬约束通过率和最终通过率等。研究者可以通过这些指标来评估语言代理在 TravelPlanner 中的表现,并进一步改进语言代理的规划能力。
背景与挑战
背景概述
TravelPlanner数据集是针对语言代理在现实世界规划能力的一项基准测试。该数据集由复旦大学、俄亥俄州立大学、宾夕法尼亚州立大学以及Meta AI的研究人员于2024年提出,旨在评估语言代理在复杂且真实的旅行规划场景中的能力。TravelPlanner提供了一个丰富的沙盒环境,包含近四百万条数据记录,以及1,225个精心策划的规划意图和参考计划。该数据集的提出,推动了人工智能在规划领域的研究,为语言代理的发展提供了新的方向和挑战。
当前挑战
TravelPlanner数据集相关的挑战主要包括:1) 所解决的领域问题:旅行规划是一个复杂且耗时的任务,涉及多个相互依赖的决策,如地点、住宿、交通、餐饮等。此外,旅行规划还需要考虑许多约束条件,包括明确的用户需求和隐含的常识约束。2) 构建过程中所遇到的挑战:TravelPlanner数据集需要构建一个动态且真实的旅行规划环境,并设计出能够满足各种约束条件的旅行计划。这要求研究人员必须考虑环境约束、常识约束和硬约束等多种因素,确保数据集的全面性和实用性。
常用场景
经典使用场景
TravelPlanner 数据集提供了一个丰富的沙盒环境,包括各种工具来访问近四百万条数据记录,以及 1,225 个精心策划的规划意图和参考计划。该数据集的经典使用场景是评估语言代理在复杂现实世界规划任务中的能力,如旅行规划。语言代理被要求使用各种搜索工具来收集信息,并根据收集到的信息制定一个计划,该计划不仅要满足用户的需求,还要符合常识约束。例如,一个用户可能需要从西雅图到加利福尼亚的旅行计划,预算为 6,000 美元,要求住宿为宠物友好型。语言代理需要使用工具搜索航班、餐厅、住宿等信息,并制定一个符合用户需求和预算的计划。
实际应用
TravelPlanner 数据集的实际应用场景包括旅行规划、日程安排和活动组织。例如,旅游公司可以使用该数据集来开发智能旅行规划工具,为用户提供个性化的旅行建议。此外,会议组织者可以使用该数据集来规划会议日程,确保会议安排既满足参会者的需求,又符合常识约束。TravelPlanner 数据集还可以用于教育和培训,帮助学生和专业人士学习如何进行有效的规划和决策。
衍生相关工作
TravelPlanner 数据集衍生了许多相关工作,旨在提高语言代理在复杂规划任务中的能力。例如,一些研究尝试开发新的规划策略和模型,以更好地处理多约束任务。其他研究则关注于提高语言代理的工具使用能力和推理能力,以便它们可以更有效地收集信息和制定计划。此外,还有一些研究探索了如何将 TravelPlanner 数据集与其他数据集和工具相结合,以创建更全面和强大的规划系统。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作