Tau2-Bench-Verified-Airline-With-Code-Agents

Name: Tau2-Bench-Verified-Airline-With-Code-Agents
Creator: Snorkel AI
Published: 2025-12-19 02:02:35
License: 暂无描述

Hugging Face2025-12-19 更新2025-12-20 收录

下载链接：

https://huggingface.co/datasets/snorkelai/Tau2-Bench-Verified-Airline-With-Code-Agents

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含代码代理与AI助手之间多轮交互的样本轨迹和相关元数据，以及使用更多定制工具的原始版本任务。数据集基于Sierra.ai的Tau^2 Bench中的Airline环境，并经过Amazon AGI团队验证。主要目的是研究代码代理与使用定制工具的代理之间的差异、优势和劣势。数据集包含50个任务的原始版本和代码代理版本的每次运行结果，涉及多个AI助手模型（如GPT-5.2、Claude Opus 4.5、Gemini 3 Pro等）。数据集结构包括任务ID、模型、版本、用户场景、数据库更新需求、交互轨迹、奖励等多个字段。代码代理版本通过移除环境中的工具并替换为代码解释器来创建。数据集评估采用离线方式进行，并与原始版本的工具使用结果进行比较。数据集基于合成信息开发，不包含敏感数据风险。

提供机构：

Snorkel AI

创建时间：

2025-12-18

原始信息汇总

Tau^2 Bench Verified: Airline With Code Agents 数据集概述

数据集基本信息

数据集名称：Tau^2 Bench Verified: Airline With Code Agents
维护者：Snorkel AI
发布日期：2025年
许可证：Apache-2.0 License
语言：英语 (en)
标签：agent, code
数据来源：基于 Sierra.ai 的 Tau^2 Bench 中已验证的 Airline 环境，验证版本来自 Amazon AGI 团队此处。
相关数据集：此数据集为已验证任务版本。未验证任务的早期版本数据集位于 https://huggingface.co/datasets/snorkelai/Tau2-Bench-Airline-With-Code-Agent。

数据集简介

此数据集包含代码智能体与AI助手之间多轮交互的样本轨迹及相关元数据，以及使用更定制化工具的原始版本任务。主要目的是便于进一步研究代码智能体与使用受定制化工具更严格约束的动作空间的智能体之间的差异、优势和劣势。

数据集构成与规模

配置：默认 (default)
数据拆分：训练集 (train)
训练集样本数量：996
训练集大小：24,078,873 字节
下载大小：6,511,475 字节
数据集总大小：24,078,873 字节

数据特征

数据集包含以下字段：

index (int64): 索引。
task_id (string): 原始 Tau Bench 2 仓库中任务的唯一标识符。
model (string): 用于生成响应的AI助手模型。
version (string): 版本，为 original（原始）或 code-generation（代码智能体版本）。
user_scenario (dict): 来自原始仓库的任务级别信息。
- instructions (struct): 包含 domain, known_info, reason_for_call, task_instructions, unknown_info 字段。
- persona (null)。
db_update_required (bool): 任务是否需要更新数据库（通过差异比较预期哈希值确定）。
trace (list): 包含完整交互轨迹的字典列表（JSON格式），包括初始问题、助手与客户之间交织的推理步骤/问答以及最终答案。
- 每个步骤包含：turn_idx（轮次索引）, role（角色）, content（文本内容）, timestamp（时间戳）, tool_calls（工具使用信息）。
reward (float64): 使用默认评估器计算的总奖励。
reward_breakdown (dict): 奖励细分，包含 COMMUNICATE 和 DB 字段。
db_diff (string): 交互后期望与实际数据库之间差异的简要总结。
db_diff_by_table (dict): 每个表（flights, reservations, users）的数据库差异总结。
db_diff_verbose (string): 当需要更新但更新不正确时，期望与实际数据库之间差异的更详细总结。

数据采集与模型

任务覆盖：包含原始环境中50个任务中每个任务的轨迹，针对每个版本（原始版和代码智能体版）。
采样策略：为最大化数据集信息量，包含了每个模型和任务中可用轨迹的成功和失败示例。
涉及的模型：
- GPT-5.2 (medium)
- GPT-5.1 Codex
- Claude Opus 4.5
- Claude Sonnet 4.5
- Gemini 3 Pro
- Kimi K2 Instruct
- Qwen3-Coder 480B A35B Instruct

代码智能体适配与评估

适配方法：通过移除环境中除一个模拟纯文本动作的工具外的所有工具，并用代码解释器替换它们，创建了代码智能体版本。
代码解释器工具：提供了一个 PythonAstREPLTool，可访问变量 db（代表数据库的Pydantic模型）、data_models（包含相关Pydantic模型的字典）和 airport_codes（机场代码变量）。
评估方法：将评估重构为离线进行，使用从原始工具使用版本生成的预期数据库哈希值。当进行了更新时，使用 GPT-5.2 评估生成的和预期的数据库更新之间的差异。

主要发现摘要

代码生成的影响：启用代码生成对任务奖励的差异影响取决于是否需要数据库更新。
- 当仅需为模拟客户进行推断（无需数据库更新）时，模型作为代码智能体的表现与作为工具导向智能体一样好甚至更好。
- 当需要数据库更新时，模型表现明显更差。
数据库差异类型分布（代码智能体 vs. 原始版本）：
- 数据库更新不正确：26.7% vs. 20.4%
- 需要更新但数据库完全未更新：10.8% vs. 8.3%
- 任务无需更新但数据库被更新：16.5% vs. 12.5%
- 无需更新且完全匹配：34.8% vs. 33.1%
- 需要更新且完全匹配：11.2% vs. 25.7%
初步分析：代码智能体能够进行所需的更新，但与使用具有定制逻辑的工具引导相比，它们更难以完成。在元数据使用方面观察到效率低下的现象。

使用方式

加载数据集的代码示例： python from datasets import load_dataset ds = load_dataset("snorkelai/Tau2-Bench-Verified-Airline-With-Code-Agents")

隐私与安全

数据集基于合成信息开发，不存在敏感数据风险。

引用

@misc{snorkelai2025tau2benchverifiedcodeagents, author = {Snorkel AI}, title = {Tau^2 Bench Verified: Airline With Code Agents}, year = {2025}, howpublished = {url{https://huggingface.co/datasets/snorkelai/Tau2-Bench-Verified-Airline-With-Code-Agents}}, }

搜集汇总

数据集介绍

构建方式

该数据集基于Sierra.ai的Tau²基准测试中已验证的航空环境版本构建，通过对比传统工具导向智能体与代码生成智能体的表现差异，为研究智能体行为提供了丰富样本。其构建过程涉及将原始环境中的专用工具替换为代码解释器，仅保留一个模拟文本操作的占位工具，从而创建出支持代码生成的智能体版本。数据采集覆盖了七种前沿语言模型在五十项任务上的交互轨迹，每种任务均包含原始版本与代码生成版本的双重记录，确保了数据对比的全面性与科学性。

使用方法

研究人员可通过HuggingFace的datasets库直接加载该数据集，利用其结构化的字段进行智能体行为分析、代码生成效能评估或跨模型性能比较。数据集中的交互轨迹、奖励信号及数据库差异信息，尤其适合于探究代码智能体在需数据库更新的任务中表现显著逊色的内在机制。同时，数据集中提供的版本对比字段使得研究者能够深入剖析专用工具与通用代码解释器在引导智能体行为上的差异，为设计更高效的智能体架构提供实证依据。

背景与挑战

背景概述

Tau2-Bench-Verified-Airline-With-Code-Agents数据集由Snorkel AI于2025年构建，其核心研究问题聚焦于评估代码代理（code agents）与传统工具导向代理（tool-oriented agents）在复杂多轮交互任务中的性能差异。该数据集基于Sierra.ai的Tau^2 Bench基准测试框架，并采用亚马逊AGI团队验证的航空环境任务，旨在探究智能体在需要数据库更新与推理的模拟客户服务场景中的行为模式。通过整合多种前沿大语言模型的交互轨迹，该数据集为智能体架构设计与评估提供了关键实证基础，推动了对话系统与自主代理研究领域的发展。

当前挑战

该数据集旨在解决智能体在航空领域多轮对话中执行数据库操作与复杂推理的挑战，其核心问题在于如何准确评估代码代理在开放式代码生成环境下的任务完成效率与可靠性。构建过程中的挑战包括：将原始工具导向任务适配为纯代码解释器环境，确保任务可解性同时保持评估一致性；设计离线评估机制以对比数据库更新差异，避免在线执行带来的偏差；以及从多模型轨迹中采样并标注丰富元数据，以支持对智能体失败模式的深入分析。

常用场景

经典使用场景

在智能体与代码生成技术交叉的研究领域，Tau2-Bench-Verified-Airline-With-Code-Agents数据集为评估代码智能体在复杂多轮交互环境中的表现提供了基准。该数据集模拟了航空订票服务场景，智能体需通过自然语言指令与代码解释器协作，完成客户查询、航班预订及数据库更新等任务。研究者利用该数据集分析智能体在无专用工具引导下，仅依赖通用代码生成能力解决领域特定问题的效能，尤其关注其在需要数据库操作时的推理与执行准确性。

解决学术问题

该数据集旨在探究代码智能体与传统专用工具智能体在任务解决策略与性能上的差异，解决了智能体研究中关于行动空间约束与泛化能力的核心学术问题。通过对比原始工具版本与代码生成版本的任务完成情况，数据集揭示了代码智能体在数据库更新任务中面临的显著挑战，如错误更新或更新缺失，这为理解智能体在开放代码环境下的认知局限提供了实证依据。其意义在于推动了智能体架构设计从依赖领域特定工具向通用代码生成能力的范式转移研究。

实际应用

在实际应用层面，该数据集为开发面向复杂业务逻辑的对话式AI系统提供了训练与评估资源，特别是在航空、旅游等需要实时数据操作的服务领域。系统可基于数据集中多轮交互轨迹学习如何将用户自然语言请求转化为精确的数据库操作代码，从而自动化处理订票、改签、查询等流程。此外，数据集中的失败案例为优化智能体的代码生成鲁棒性与错误恢复机制提供了关键洞察，助力构建更可靠的实际部署系统。

数据集最近研究