COMPASS

Name: COMPASS
Creator: 哈佛大学、苹果公司
Published: 2025-10-08 22:09:46
License: 暂无描述

arXiv2025-10-08 更新2025-11-19 收录

下载链接：

https://github.com/sunnytqin/compass

下载链接

链接失效反馈

官方服务：

资源简介：

COMPASS是一个用于评估智能体在真实旅行规划场景中战略性地协调工具和优化用户偏好的多轮交互基准。数据集涵盖了20个美国国家公园的交通、住宿和票务等真实旅行数据库，以及一个全面反映商业预订平台的工具生态系统。数据集包含281个任务，分为三个难度级别，包括仅酒店、酒店加航班、酒店航班加许可证，旨在评估智能体在满足硬约束的同时优化用户偏好的能力。数据集适用于解决智能体在实际任务中优化用户偏好的问题。

COMPASS is a multi-turn interaction benchmark for evaluating AI Agents' ability to strategically coordinate tools and optimize user preferences within real-world travel planning scenarios. The dataset includes real travel databases pertaining to transportation, accommodation and ticketing for 20 U.S. National Parks, as well as a comprehensive tool ecosystem that reflects the landscape of commercial booking platforms. It contains 281 tasks divided into three difficulty tiers, with task types covering hotel-only bookings, hotel plus flight bookings, and hotel, flight plus permit bookings. The benchmark aims to evaluate agents' capacity to optimize user preferences while satisfying hard constraints. This dataset is applicable to addressing the problem of optimizing user preferences for AI Agents in practical task settings.

提供机构：

哈佛大学、苹果公司

创建时间：

2025-10-08

搜集汇总

数据集介绍

构建方式

在旅行规划智能体评估领域，COMPASS数据集通过整合真实商业数据与模块化工具生态系统构建而成。该数据集基于20个美国国家公园的旅行信息，涵盖住宿、航班与许可服务，采用RapidAPI接口采集超过10万条酒店房源与6.7万条航班数据，并通过结构化SQL数据库实现多维度数据关联。其工具库模拟商业预订平台功能，包含18个标准化API接口，支持智能体进行条件筛选、时空协调与多服务组合操作。

使用方法

该数据集通过标准化工具调用协议与验证流程支撑智能体评估。研究者需配置包含搜索、验证、工具类函数的交互环境，智能体需在动态对话中逐步获取约束信息，通过工具链协调实现多轮规划。评估阶段采用双重指标：可接受率检测硬性约束满足程度，最优率衡量解决方案在可行解集中的排名百分位。基准测试要求智能体输出结构化JSON格式的行程推荐，并通过专用验证工具确保套餐ID与数据库实体的精确映射，从而保证评估结果的可复现性与可靠性。

背景与挑战

背景概述

COMPASS数据集由哈佛大学与苹果公司联合团队于2025年提出，聚焦于大语言模型在真实场景中的工具调度与用户偏好优化能力评估。该研究将旅行规划建模为约束条件下的偏好优化问题，通过构建覆盖20个国家公园的旅行数据库及模拟商业预订平台的工具生态系统，填补了现有基准在动态交互与多服务协调评估上的空白。其创新性在于首次将硬约束满足与软偏好优化纳入统一评估框架，为智能代理系统的实用化部署提供了重要技术支撑。

当前挑战

该数据集面临双重挑战：在领域问题层面，需解决多服务协调中的时序对齐与预算分配难题，例如航班、酒店与许可证的时空约束耦合导致解空间复杂度指数增长；在构建过程中，需平衡数据库真实性与评估可操作性，既要通过商业API获取百万级动态数据，又需设计可控的用户模拟器以实现渐进式约束揭示。此外，工具生态系统的接口设计需兼顾通用性与领域特异性，避免过度简化导致的评估失真。

常用场景

经典使用场景

在旅行规划领域，COMPASS数据集通过模拟真实的多轮交互场景，为评估大型语言模型代理的约束满足与偏好优化能力提供了标准化测试环境。该数据集构建了覆盖20个美国国家公园的交通、住宿与票务数据库，并配备完整的工具生态系统，使研究人员能够系统性地分析代理在复杂旅行规划任务中的战略推理与多服务协调表现。

解决学术问题

COMPASS通过形式化约束偏好优化问题，揭示了当前智能代理在满足硬性约束与优化软性偏好之间的显著能力差距。其实验结果表明，现有模型普遍存在可接受-最优解鸿沟与计划协调鸿沟，这为研究多轮交互中的工具调用策略、时序推理机制以及跨域约束传播等核心学术问题提供了量化依据。

实际应用

该数据集直接服务于智能旅行助手系统的开发与优化，其多轮对话框架与真实数据库结构可迁移至商业预订平台。通过模拟用户渐进式需求披露与动态反馈机制，COMPASS为构建能处理复杂行程协调、预算分配与偏好对齐的实用型AI助手提供了关键训练与验证基础。

数据集最近研究