Tau-Bench-2-Airline-With-Code-Agents

Name: Tau-Bench-2-Airline-With-Code-Agents
Creator: Snorkel AI
Published: 2025-11-13 22:59:20
License: 暂无描述

Hugging Face2025-11-13 更新2025-11-14 收录

下载链接：

https://huggingface.co/datasets/snorkelai/Tau-Bench-2-Airline-With-Code-Agents

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集包含了基于Airline环境的代码代理和AI助手之间的多轮交互的样本追踪和关联元数据。数据集包含原始版本和代码代理版本的追踪信息，用于探究使用代码代理与使用受限工具空间的代理之间的差异、优势和劣势。

提供机构：

Snorkel AI

创建时间：

2025-11-12

原始信息汇总

Tau-Bench-2-Airline-With-Code-Agents 数据集概述

数据集摘要

该数据集包含代码代理与AI助手之间多轮交互的样本轨迹和相关元数据
基于Tau Bench 2的航空公司环境构建
包含原始版本和使用代码代理解决相同任务的版本（通过version字段区分）
维护者： Snorkel AI
许可证： Apache-2.0 License

数据集结构

数据特征

task_id (string): 原始Tau Bench 2仓库中的任务唯一标识符
model (string): 生成响应的AI助手模型
version (string): 版本标识，original或code-generation
user_scenario (dict): 原始仓库中的任务级别信息
db_update_required (bool): 任务是否需要更新数据库
trace (字典列表): 完整交互轨迹，包含初始问题、推理步骤和最终答案
reward (float): 使用默认评估器计算的总体奖励
reward_breakdown (dict): 奖励细分
db_diff (string): 预期与实际数据库差异的简要总结
db_diff_by_table (dict): 每个表的数据库差异总结
db_diff_verbose (string): 需要更新但更新不正确时的详细差异描述

轨迹步骤结构

turn_idx: 轨迹中的轮次编号
role: 步骤角色 - 用户或助手
content: 步骤的文本内容
timestamp: 时间戳
tool_calls: 工具使用的可选数据

数据划分

训练集: 500个样本，14,972,433字节

数据集结果

主要发现

启用代码生成对任务奖励的影响取决于是否需要数据库更新
模型在仅需推理时表现更好，在写入操作时几乎总是失败
写入操作在某些情况下是可能的，特别是在Claude Sonnet 4.5和GPT-5中

数据库差异分析

总体差异分布

差异类型	代码生成版本(%)	原始版本(%)
数据库错误更新	22.8	22.8
需要更新但未更新	33.6	14.4
不需要更新但更新了	5.6	7.6
达到最大步数会话终止	2.0	0.4
无需要更新的完美匹配	33.2	32.4
有需要更新的完美匹配	2.8	22.4

按表分析差异

代码代理能够进行所需的更新，但经常失败。例如，在更新可用航班座位方面没有正确完成的案例，尝试往往略有偏差。

数据集用途

研究代码代理与受定制工具约束的行动空间代理之间的差异、优势和劣势
支持进一步调查两种方法的性能比较

技术细节

代码代理适配

移除了环境中除模拟纯文本操作外的所有工具
使用代码解释器替换其余工具
确认代码解释器可用于成功更新数据库

评估方法

重构评估以离线方式进行
使用原始工具使用版本生成的预期数据库哈希值
使用GPT-5评估生成的数据库更新与预期更新之间的差异

模型信息

数据集包含以下模型的轨迹：

GPT-5 (medium)
Claude Sonnet 4.5
Gemini 2.5 Pro (默认设置)
Kimi K2 Instruct
Qwen3-Coder 480B A35B Instruct

数据加载

python from datasets import load_dataset ds = load_dataset("snorkelai/Tau-Bench-2-Airline-With-Code-Agents")

搜集汇总

数据集介绍

构建方式

在航空服务智能体研究领域，Tau-Bench-2-Airline-With-Code-Agents数据集的构建采用了双版本并行策略。通过保留原始Tau Bench 2航空环境的核心框架，研究团队将传统工具调用模式与代码智能体模式进行对比实验。数据采集过程覆盖了GPT-5、Claude Sonnet 4.5等五种前沿模型在50项标准任务中的交互轨迹，每个任务均包含完整的多轮对话记录和数据库操作痕迹。特别值得注意的是，代码智能体版本通过PythonAstREPL工具实现数据库的动态更新，这种设计使得模型能够直接执行代码指令来修改数据库状态。

特点

该数据集最显著的特征在于其多维度的评估体系。除了记录完整的对话轨迹和工具调用序列，还包含了精细的奖励分解机制和数据库差异分析。数据结构中特别设计了db_diff_by_table字段，能够按航班、预订、用户三个数据表分别追踪操作差异。代码智能体版本展现出独特的交互模式，当面临数据库更新需求时，模型通过代码解释器直接操作Pydantic数据模型，这种机制既扩展了智能体的操作自由度，也带来了更复杂的错误模式。数据集中保存的异常处理记录和自我修正过程，为研究代码智能体的容错能力提供了珍贵样本。

使用方法

研究人员可通过HuggingFace标准接口加载该数据集进行深入分析。使用时应重点关注version字段以区分传统工具模式与代码生成模式，通过对比两种模式下reward_breakdown的差异可评估代码智能体的效能。对于数据库操作研究，建议联合分析db_update_required标志与db_diff_verbose字段，从而精确识别智能体在数据修改任务中的典型错误模式。数据集中的时间戳序列和工具调用记录支持时序分析，而跨模型的性能对比则可通过筛选model字段实现。值得注意的是，所有数据库操作结果都经过哈希校验和GPT-5辅助评估，确保了质量评估的可靠性。

背景与挑战

背景概述

在人工智能代理系统快速发展的背景下，Snorkel AI研究团队于2025年推出了Tau-Bench-2-Airline-With-Code-Agents数据集，旨在探索代码代理在复杂交互环境中的表现。该数据集基于Tau Bench 2航空订票场景构建，包含原始工具版本与代码代理版本的对比轨迹，通过多轮对话记录模型在航班预订、用户管理等任务中的决策过程。其核心研究价值在于揭示代码生成能力对数据库操作任务的影响，为智能代理系统的架构设计提供了实证依据。

当前挑战

该数据集面临双重挑战：在领域问题层面，航空订票系统需要精确处理数据库读写操作，但代码代理在更新航班座位、修改预订记录等任务中频繁出现逻辑偏差，特别是在需要多表联动的复杂场景下正确率显著下降。在构建过程中，研究团队需重构离线评估框架以兼容代码解释器，同时确保不同版本间数据库状态对比的准确性，这要求对预期哈希值与实际输出进行精细化对齐验证。

常用场景

经典使用场景

在智能代理系统研究领域，该数据集为评估代码代理与结构化工具代理的性能差异提供了标准化测试平台。研究人员通过分析多轮对话轨迹和数据库操作记录，能够系统比较不同模型在航空预订场景中的任务完成质量，特别是对代码生成能力与专用工具使用效果的量化对比。

衍生相关工作

基于该数据集衍生的研究推动了多模态代理架构的创新，例如将代码解释器与领域专用工具结合的混合方案。相关工作进一步拓展到保险核保、金融咨询等垂直领域，形成了以Tau Bench为基准的智能代理评估体系，持续促进对话式AI的技术演进。

数据集最近研究