five

TravelPlanner|旅行规划数据集|语言代理评估数据集

收藏
arXiv2024-02-05 更新2024-06-21 收录
旅行规划
语言代理评估
下载链接:
https://osu-nlp-group.github.io/TravelPlanner
下载链接
链接失效反馈
资源简介:
TravelPlanner是一个专注于旅行规划的实际场景的新型规划基准数据集,由复旦大学等机构创建。该数据集包含1225个精心策划的规划意图和参考计划,提供了丰富的沙盒环境,以及访问近四百万数据记录的各种工具。数据集旨在评估语言代理在复杂规划任务中的能力,特别是在多约束环境下的表现。TravelPlanner不仅是一个挑战性的测试平台,也是一个有意义的工具,用于推动未来语言代理向人类级认知能力的发展。
提供机构:
复旦大学
创建时间:
2024-02-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
TravelPlanner 数据集的构建采用了基于真实世界场景的方法,旨在模拟人类在旅行规划中的复杂决策过程。该数据集提供了一个丰富的沙盒环境,包含从互联网爬取的约四百万条数据记录,以及六个工具供语言代理访问。此外,TravelPlanner 还精心策划了 1,225 个多样化的用户查询和参考计划,每个查询都施加了不同的约束组合。数据集的构建过程包括环境设置、查询构建、参考计划标注和质量管理等步骤,确保了数据集的多样性和可靠性。
特点
TravelPlanner 数据集的特点在于其真实性和复杂性。它模拟了旅行规划中的各种约束,包括用户需求、常识约束和硬约束,如预算、房间规则、房间类型、菜系和交通方式等。此外,TravelPlanner 还提供了丰富的沙盒环境,包括六个工具,允许语言代理通过调用工具来收集信息。数据集的复杂性体现在其长周期的决策过程、多城市访问和多约束满足等方面,这些特性使得 TravelPlanner 成为评估语言代理规划能力的理想基准。
使用方法
使用 TravelPlanner 数据集时,研究者可以评估语言代理在多约束规划和工具使用方面的能力。数据集提供了两种评估模式:两阶段模式和单阶段模式。在两阶段模式中,语言代理需要通过调用工具来收集信息,并根据收集到的信息制定旅行计划。在单阶段模式中,研究者可以预先确定目的地城市,并提供详细的必要信息,以评估语言代理的规划能力。评估指标包括交付率、常识约束通过率、硬约束通过率和最终通过率等。研究者可以通过这些指标来评估语言代理在 TravelPlanner 中的表现,并进一步改进语言代理的规划能力。
背景与挑战
背景概述
TravelPlanner数据集是针对语言代理在现实世界规划能力的一项基准测试。该数据集由复旦大学、俄亥俄州立大学、宾夕法尼亚州立大学以及Meta AI的研究人员于2024年提出,旨在评估语言代理在复杂且真实的旅行规划场景中的能力。TravelPlanner提供了一个丰富的沙盒环境,包含近四百万条数据记录,以及1,225个精心策划的规划意图和参考计划。该数据集的提出,推动了人工智能在规划领域的研究,为语言代理的发展提供了新的方向和挑战。
当前挑战
TravelPlanner数据集相关的挑战主要包括:1) 所解决的领域问题:旅行规划是一个复杂且耗时的任务,涉及多个相互依赖的决策,如地点、住宿、交通、餐饮等。此外,旅行规划还需要考虑许多约束条件,包括明确的用户需求和隐含的常识约束。2) 构建过程中所遇到的挑战:TravelPlanner数据集需要构建一个动态且真实的旅行规划环境,并设计出能够满足各种约束条件的旅行计划。这要求研究人员必须考虑环境约束、常识约束和硬约束等多种因素,确保数据集的全面性和实用性。
常用场景
经典使用场景
TravelPlanner 数据集提供了一个丰富的沙盒环境,包括各种工具来访问近四百万条数据记录,以及 1,225 个精心策划的规划意图和参考计划。该数据集的经典使用场景是评估语言代理在复杂现实世界规划任务中的能力,如旅行规划。语言代理被要求使用各种搜索工具来收集信息,并根据收集到的信息制定一个计划,该计划不仅要满足用户的需求,还要符合常识约束。例如,一个用户可能需要从西雅图到加利福尼亚的旅行计划,预算为 6,000 美元,要求住宿为宠物友好型。语言代理需要使用工具搜索航班、餐厅、住宿等信息,并制定一个符合用户需求和预算的计划。
实际应用
TravelPlanner 数据集的实际应用场景包括旅行规划、日程安排和活动组织。例如,旅游公司可以使用该数据集来开发智能旅行规划工具,为用户提供个性化的旅行建议。此外,会议组织者可以使用该数据集来规划会议日程,确保会议安排既满足参会者的需求,又符合常识约束。TravelPlanner 数据集还可以用于教育和培训,帮助学生和专业人士学习如何进行有效的规划和决策。
衍生相关工作
TravelPlanner 数据集衍生了许多相关工作,旨在提高语言代理在复杂规划任务中的能力。例如,一些研究尝试开发新的规划策略和模型,以更好地处理多约束任务。其他研究则关注于提高语言代理的工具使用能力和推理能力,以便它们可以更有效地收集信息和制定计划。此外,还有一些研究探索了如何将 TravelPlanner 数据集与其他数据集和工具相结合,以创建更全面和强大的规划系统。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Figshare

Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。

figshare.com 收录

YOLO Drone Detection Dataset

为了促进无人机检测模型的开发和评估,我们引入了一个新颖且全面的数据集,专门为训练和测试无人机检测算法而设计。该数据集来源于Kaggle上的公开数据集,包含在各种环境和摄像机视角下捕获的多样化的带注释图像。数据集包括无人机实例以及其他常见对象,以实现强大的检测和分类。

github 收录

烟火数据集

烟火数据集是一个专门用于烟火识别和检测任务的数据集,旨在帮助研究人员开发更加精确和高效的烟火识别算法。包含了大量真实场景下的烟火视频数据,具有广泛的应用前景和重要的研究价值。

阿里云天池 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录