Tau-Bench-2-Airline-With-Code-Agents
收藏Hugging Face2025-11-13 更新2025-11-14 收录
下载链接:
https://huggingface.co/datasets/snorkelai/Tau-Bench-2-Airline-With-Code-Agents
下载链接
链接失效反馈官方服务:
资源简介:
本数据集包含了基于Airline环境的代码代理和AI助手之间的多轮交互的样本追踪和关联元数据。数据集包含原始版本和代码代理版本的追踪信息,用于探究使用代码代理与使用受限工具空间的代理之间的差异、优势和劣势。
提供机构:
Snorkel AI
创建时间:
2025-11-12
原始信息汇总
Tau-Bench-2-Airline-With-Code-Agents 数据集概述
数据集摘要
- 该数据集包含代码代理与AI助手之间多轮交互的样本轨迹和相关元数据
- 基于Tau Bench 2的航空公司环境构建
- 包含原始版本和使用代码代理解决相同任务的版本(通过
version字段区分) - 维护者: Snorkel AI
- 许可证: Apache-2.0 License
数据集结构
数据特征
task_id(string): 原始Tau Bench 2仓库中的任务唯一标识符model(string): 生成响应的AI助手模型version(string): 版本标识,original或code-generationuser_scenario(dict): 原始仓库中的任务级别信息db_update_required(bool): 任务是否需要更新数据库trace(字典列表): 完整交互轨迹,包含初始问题、推理步骤和最终答案reward(float): 使用默认评估器计算的总体奖励reward_breakdown(dict): 奖励细分db_diff(string): 预期与实际数据库差异的简要总结db_diff_by_table(dict): 每个表的数据库差异总结db_diff_verbose(string): 需要更新但更新不正确时的详细差异描述
轨迹步骤结构
turn_idx: 轨迹中的轮次编号role: 步骤角色 - 用户或助手content: 步骤的文本内容timestamp: 时间戳tool_calls: 工具使用的可选数据
数据划分
- 训练集: 500个样本,14,972,433字节
数据集结果
主要发现
- 启用代码生成对任务奖励的影响取决于是否需要数据库更新
- 模型在仅需推理时表现更好,在写入操作时几乎总是失败
- 写入操作在某些情况下是可能的,特别是在Claude Sonnet 4.5和GPT-5中
数据库差异分析
总体差异分布
| 差异类型 | 代码生成版本(%) | 原始版本(%) |
|---|---|---|
| 数据库错误更新 | 22.8 | 22.8 |
| 需要更新但未更新 | 33.6 | 14.4 |
| 不需要更新但更新了 | 5.6 | 7.6 |
| 达到最大步数会话终止 | 2.0 | 0.4 |
| 无需要更新的完美匹配 | 33.2 | 32.4 |
| 有需要更新的完美匹配 | 2.8 | 22.4 |
按表分析差异
代码代理能够进行所需的更新,但经常失败。例如,在更新可用航班座位方面没有正确完成的案例,尝试往往略有偏差。
数据集用途
- 研究代码代理与受定制工具约束的行动空间代理之间的差异、优势和劣势
- 支持进一步调查两种方法的性能比较
技术细节
代码代理适配
- 移除了环境中除模拟纯文本操作外的所有工具
- 使用代码解释器替换其余工具
- 确认代码解释器可用于成功更新数据库
评估方法
- 重构评估以离线方式进行
- 使用原始工具使用版本生成的预期数据库哈希值
- 使用GPT-5评估生成的数据库更新与预期更新之间的差异
模型信息
数据集包含以下模型的轨迹:
- GPT-5 (medium)
- Claude Sonnet 4.5
- Gemini 2.5 Pro (默认设置)
- Kimi K2 Instruct
- Qwen3-Coder 480B A35B Instruct
数据加载
python from datasets import load_dataset ds = load_dataset("snorkelai/Tau-Bench-2-Airline-With-Code-Agents")
搜集汇总
数据集介绍

构建方式
在航空服务智能体研究领域,Tau-Bench-2-Airline-With-Code-Agents数据集的构建采用了双版本并行策略。通过保留原始Tau Bench 2航空环境的核心框架,研究团队将传统工具调用模式与代码智能体模式进行对比实验。数据采集过程覆盖了GPT-5、Claude Sonnet 4.5等五种前沿模型在50项标准任务中的交互轨迹,每个任务均包含完整的多轮对话记录和数据库操作痕迹。特别值得注意的是,代码智能体版本通过PythonAstREPL工具实现数据库的动态更新,这种设计使得模型能够直接执行代码指令来修改数据库状态。
特点
该数据集最显著的特征在于其多维度的评估体系。除了记录完整的对话轨迹和工具调用序列,还包含了精细的奖励分解机制和数据库差异分析。数据结构中特别设计了db_diff_by_table字段,能够按航班、预订、用户三个数据表分别追踪操作差异。代码智能体版本展现出独特的交互模式,当面临数据库更新需求时,模型通过代码解释器直接操作Pydantic数据模型,这种机制既扩展了智能体的操作自由度,也带来了更复杂的错误模式。数据集中保存的异常处理记录和自我修正过程,为研究代码智能体的容错能力提供了珍贵样本。
使用方法
研究人员可通过HuggingFace标准接口加载该数据集进行深入分析。使用时应重点关注version字段以区分传统工具模式与代码生成模式,通过对比两种模式下reward_breakdown的差异可评估代码智能体的效能。对于数据库操作研究,建议联合分析db_update_required标志与db_diff_verbose字段,从而精确识别智能体在数据修改任务中的典型错误模式。数据集中的时间戳序列和工具调用记录支持时序分析,而跨模型的性能对比则可通过筛选model字段实现。值得注意的是,所有数据库操作结果都经过哈希校验和GPT-5辅助评估,确保了质量评估的可靠性。
背景与挑战
背景概述
在人工智能代理系统快速发展的背景下,Snorkel AI研究团队于2025年推出了Tau-Bench-2-Airline-With-Code-Agents数据集,旨在探索代码代理在复杂交互环境中的表现。该数据集基于Tau Bench 2航空订票场景构建,包含原始工具版本与代码代理版本的对比轨迹,通过多轮对话记录模型在航班预订、用户管理等任务中的决策过程。其核心研究价值在于揭示代码生成能力对数据库操作任务的影响,为智能代理系统的架构设计提供了实证依据。
当前挑战
该数据集面临双重挑战:在领域问题层面,航空订票系统需要精确处理数据库读写操作,但代码代理在更新航班座位、修改预订记录等任务中频繁出现逻辑偏差,特别是在需要多表联动的复杂场景下正确率显著下降。在构建过程中,研究团队需重构离线评估框架以兼容代码解释器,同时确保不同版本间数据库状态对比的准确性,这要求对预期哈希值与实际输出进行精细化对齐验证。
常用场景
经典使用场景
在智能代理系统研究领域,该数据集为评估代码代理与结构化工具代理的性能差异提供了标准化测试平台。研究人员通过分析多轮对话轨迹和数据库操作记录,能够系统比较不同模型在航空预订场景中的任务完成质量,特别是对代码生成能力与专用工具使用效果的量化对比。
衍生相关工作
基于该数据集衍生的研究推动了多模态代理架构的创新,例如将代码解释器与领域专用工具结合的混合方案。相关工作进一步拓展到保险核保、金融咨询等垂直领域,形成了以Tau Bench为基准的智能代理评估体系,持续促进对话式AI的技术演进。
数据集最近研究
最新研究方向
在智能代理与数据库交互领域,Tau-Bench-2-Airline-With-Code-Agents数据集聚焦于代码代理与传统工具约束代理的对比研究。前沿探索揭示代码生成能力对数据库操作任务的差异化影响:模型在仅需推理时表现优异,但在涉及写入操作时成功率显著下降。尤其值得关注的是,尽管代码代理具备执行数据库更新的理论能力,实际应用中却频繁出现未更新或错误更新的现象。这一发现推动了学术界对智能代理结构化动作空间与自由代码生成间平衡机制的深入探讨,为构建更可靠的行业级对话系统提供了关键实证基础。
以上内容由遇见数据集搜集并总结生成



