τ²-Bench-Verified

github2025-12-01 更新2025-12-03 收录

下载链接：

https://github.com/amazon-agi/tau2-bench-verified

下载链接

链接失效反馈

官方服务：

资源简介：

τ²-Bench-Verified是原始τ²-bench基准的修正和人工验证版本，解决了原始数据集中任务定义、预期操作和评估标准与所述策略或数据库内容不一致的问题。

τ²-Bench-Verified is a corrected and manually verified version of the original τ²-bench benchmark, which resolves the inconsistencies between task definitions, expected operations, evaluation criteria, and the described strategies or database contents in the original dataset.

创建时间：

2025-11-26

原始信息汇总

τ²-Bench-Verified 数据集概述

数据集基本信息

数据集名称：τ²-Bench-Verified
官方地址：https://github.com/amazon-agi/tau2-bench-verified
简介：τ²-Bench-Verified 是原始 τ²-bench 基准的修正和人工验证版本。此版本解决了原始数据集中发现的问题，即任务定义、预期动作和评估标准与所述策略或数据库内容未正确对齐。

核心特点与修正内容

修正类型：
1. 策略合规性问题：预期动作违反所述领域策略的任务（例如，在策略不允许的情况下提供补偿，取消已起飞的航班）。
2. 数据库准确性问题：包含不正确的项目ID、乘客信息或与实际数据库不匹配的支付方式引用的任务。
3. 逻辑一致性问题：包含不可能场景的任务（例如，交换相同物品，这是策略所禁止的）。
4. 评估模糊性问题：指令过于模糊，导致评估结果不一致的任务。
修正文档：所有修复均已仔细记录，并附有证明每次更改合理性的具体策略规则引用。详细列表见 FIXES.md。

数据集构成与领域

框架性质：用于评估跨领域客户服务代理的模拟框架。
包含领域：
- mock
- airline
- retail
- telecom
领域定义内容：每个领域指定代理必须遵循的策略、代理可以使用的工具集、用于评估代理性能的任务集，以及（可选）用户模拟器可以使用的一组工具。

评估与性能

评估设置：在双控制环境中评估对话代理。
排行榜模型性能（平均得分）：
1. Claude Opus 4.5: 81.99%
2. GPT-5 (reasoning: med): 79.92%
3. Gemini Pro 3: 79.39%
4. GPT-5.1 (reasoning: high): 76.82%
5. Claude Sonnet 4.5: 73.32%
评估备注：所有模型均使用 gpt-5.1 作为用户模拟器进行评估。

使用与扩展

实验功能：包含 @experiments/ 目录，用于社区贡献超出核心评估框架的创新方法、原型和新功能。
消融研究：telecom 领域支持运行消融研究，包括“无用户”模式（llm_agent_solo）和“预言计划”模式（llm_agent_gt）。
策略格式测试：为 telecom 领域提供额外的“工作流”策略，可通过 telecom-workflow 域进行测试。

与原始数据集的关系

代码一致性：τ²-Bench-Verified 与原始 τ²-bench 仅在数据集上不同。评估框架、协调器、领域和所有其他代码均与原始 τ²-bench 实现完全相同。
引用：
- τ²-Bench-Verified 论文：PDF（引用信息待定）
- 原始 τ²-Bench 论文：应引用提供的 BibTeX 条目。

搜集汇总

数据集介绍

构建方式

在对话智能体评估领域，τ²-Bench-Verified数据集的构建体现了对基准测试严谨性的不懈追求。该数据集源自原始τ²-bench基准，通过系统化的人工验证与修正流程得以完善。构建团队深入审查了任务定义、预期动作及评估标准，识别出政策合规性、数据库准确性、逻辑一致性及评估模糊性等多类问题。每一处修正均严格参照领域政策文档进行论证，并详细记录于变更日志中，从而确保了数据集与既定政策及数据库内容的高度对齐。

特点

τ²-Bench-Verified数据集的核心特点在于其经过人工验证的精确性与可靠性。相较于原始版本，该数据集彻底解决了任务标注与领域政策及数据库事实之间的错位问题，例如修正了违反交换政策的产品ID重复使用、或在不满足前提条件下发放补偿凭证等错误。数据集覆盖航空、零售、电信等多个客户服务领域，每个领域均定义了代理必须遵循的政策、可使用的工具集以及用于性能评估的任务集合，为评估对话智能体在复杂、受控环境下的表现提供了坚实且可信的基准。

使用方法

该数据集通过一个统一的仿真框架供研究者使用。用户可通过命令行工具便捷地安装环境、配置大型语言模型API密钥，并运行评估流程。评估时，需指定目标领域、代理与用户模拟器所使用的模型，框架将自动执行多轮对话仿真并生成性能指标。此外，数据集支持交互式探索模式，允许用户以代理或用户的视角逐步体验任务场景，便于理解政策、调试策略。对于高级研究，还提供了消融实验模式，例如在无用户模拟或拥有先知计划的情况下测试代理能力，以深入探究不同因素对智能体性能的影响。

背景与挑战

背景概述

τ²-Bench-Verified作为对话智能体评估领域的重要基准，由亚马逊AGI团队于2025年基于原始τ²-bench数据集优化构建而成。该数据集聚焦于多领域对话系统的双重控制环境评估，旨在解决传统基准在策略一致性、数据库准确性和逻辑严谨性方面的不足。通过航空、零售、电信等真实业务场景的模拟，该数据集为评估对话智能体在复杂约束条件下的决策能力提供了标准化测试框架，推动了对话系统从单纯语言生成向策略遵从与工具调用的范式转变。

当前挑战

该数据集致力于解决对话智能体在遵循领域策略与数据库约束条件下的任务执行挑战，其核心在于评估模型在多重约束下的推理与决策能力。构建过程中面临四大挑战：原始数据存在策略违反问题，如补偿操作与策略条款冲突；数据库信息与任务要求存在不一致性，涉及商品ID与用户信息错误；任务逻辑存在矛盾场景，例如禁止操作的重复执行；评估标准存在模糊性，导致结果判定的主观偏差。这些挑战需要通过人工验证与系统修正来确保数据集的严谨性与可靠性。

常用场景

经典使用场景

在对话式人工智能评估领域，τ²-Bench-Verified数据集为研究者提供了一个经过人工验证与修正的双控制环境基准测试平台。该数据集最经典的使用场景在于系统性地评估客户服务对话代理在航空、零售和电信等多个垂直领域的策略遵循与工具调用能力。通过模拟真实的用户交互环境，研究者能够精确测量代理在复杂任务中理解政策、查询数据库并执行正确操作的综合性能，从而为模型优化提供可靠的量化依据。

衍生相关工作

围绕τ²-Bench-Verified数据集，已衍生出多项重要的学术研究与技术改进工作。例如，基于其双控制架构，研究者开发了交互式游戏模式与程序化健身房接口，支持开发者以代理或用户视角进行策略探索与调试。此外，该数据集启发了对政策表达形式影响的探究，如电信领域的工作流政策变体实验，以及针对规划能力的消融研究，这些工作共同深化了对话系统中环境建模与策略学习的前沿探索。

数据集最近研究