Tau2-Bench-Airline-With-Code-Agents
收藏Hugging Face2025-11-14 更新2025-11-15 收录
下载链接:
https://huggingface.co/datasets/snorkelai/Tau2-Bench-Airline-With-Code-Agents
下载链接
链接失效反馈官方服务:
资源简介:
这是一个包含代码代理与AI助手之间多轮交互追踪和元数据的数据集,基于Tau^2 Bench的Airline环境。数据集包括原始版本和代码代理版本的追踪信息,提供了任务ID、模型类型、版本、用户场景等信息,以及数据库更新需求、追踪细节、奖励和数据库差异等。
提供机构:
Snorkel AI
创建时间:
2025-11-12
原始信息汇总
Tau2-Bench-Airline-With-Code-Agents 数据集概述
数据集摘要
- 该数据集包含代码代理与AI助手之间多轮交互的样本轨迹及相关元数据
- 基于Tau^2 Bench的航空公司环境构建
- 包含原始版本和使用代码代理解决相同任务的版本(通过
version字段区分) - 维护方: Snorkel AI
- 许可证: Apache-2.0 License
数据集结构
特征字段
task_id(string): 原始Tau Bench 2仓库中任务的唯一标识符model(string): 生成响应的AI助手模型version(string): 版本标识,original或code-generationuser_scenario(dict): 原始仓库中的任务级信息db_update_required(bool): 任务是否需要更新数据库trace(字典列表): 完整交互轨迹turn_idx: 轮次编号role: 角色 - 用户或助手content: 文本内容timestamp: 时间戳tool_calls: 工具使用数据(可选)
reward(float): 总体奖励分数reward_breakdown(dict): 奖励细分db_diff(string): 预期与实际数据库差异简要总结db_diff_by_table(dict): 各表数据库差异总结db_diff_verbose(string): 数据库差异详细描述
数据规模
- 训练集样本数: 500
- 数据集大小: 14,972,433字节
- 下载大小: 4,452,463字节
模型覆盖
- GPT-5 (medium)
- Claude Sonnet 4.5
- Gemini 2.5 Pro (默认设置)
- Kimi K2 Instruct
- Qwen3-Coder 480B A35B Instruct
关键发现
数据库更新性能对比
| 数据库差异类型 | 代码生成版本(%) | 原始版本(%) |
|---|---|---|
| 数据库错误更新 | 22.8 | 22.8 |
| 需要更新但未更新 | 33.6 | 14.4 |
| 无需更新但更新 | 5.6 | 7.6 |
| 达到最大步数终止 | 2.0 | 0.4 |
| 无更新需求完美匹配 | 33.2 | 32.4 |
| 有更新需求完美匹配 | 2.8 | 22.4 |
分表性能分析
代码代理能够进行所需的数据库更新,但经常失败。特别是在航班座位可用性更新方面,没有正确更新的案例。
数据集用途
用于深入研究代码代理与使用定制工具约束动作空间的代理之间的差异、优势和劣势。
代码代理适配
- 移除环境中除模拟纯文本动作外的所有工具
- 替换为代码解释器,确认可用于成功更新数据库
- 使用PythonAstREPLTool执行Python表达式
评估方法
- 重构为离线评估,使用原始工具使用版本生成的预期数据库哈希
- 使用GPT-5评估生成的数据库更新与预期更新之间的差异
数据安全
基于合成信息开发,无敏感数据风险。
搜集汇总
数据集介绍

构建方式
在航空领域智能体研究框架下,该数据集通过重构Tau² Bench航空环境构建而成。原始工具集被替换为单一代码解释器,保留数据库操作能力,同时采集了GPT-5、Claude Sonnet 4.5等主流模型的交互轨迹。每个任务均包含原始版本与代码智能体版本的并行数据,通过离线哈希比对机制确保数据库更新评估的准确性,最终形成包含500条样本的多轮对话追踪记录。
使用方法
研究者可通过HuggingFace标准接口加载数据集,利用任务标识符筛选特定场景,通过版本字段对比不同智能体架构的表现。数据库差异字段支持分析代码智能体的操作准确性,奖励分解指标可用于评估沟通与数据库更新的独立表现。该数据集特别适用于研究代码生成技术在航空业务自动化中的适用边界,以及智能体在读写混合任务中的能力演进。
背景与挑战
背景概述
在人工智能代理系统快速发展的背景下,Tau2-Bench-Airline-With-Code-Agents数据集由Snorkel AI于2025年构建,旨在探索代码代理与传统工具约束代理在复杂任务处理中的性能差异。该数据集基于Tau² Bench航空环境,收录了多轮人机交互轨迹与元数据,聚焦于代码生成技术在数据库操作任务中的有效性评估。通过对比原始工具版本与代码代理版本的执行效果,该研究为智能代理系统的架构优化提供了实证基础,推动了对话式AI在动态环境中的适应性研究。
当前挑战
该数据集核心挑战体现在两个维度:领域问题层面,智能代理需精准处理航空订票系统的多表数据库更新任务,涉及航班座位动态调整与用户预订状态同步等复杂操作;构建过程层面,代码代理需克服无预设工具约束下的程序化推理难题,同时面临数据库更新验证的离线评估重构。具体表现为代码代理在写入操作中频繁出现逻辑偏差,例如航班座位更新正确率趋近于零,而原始工具版本因硬编码逻辑具备更高稳定性,这揭示了自由代码生成与结构化工具执行间的效能鸿沟。
常用场景
经典使用场景
在智能代理系统研究领域,该数据集为评估代码生成型代理与工具约束型代理的性能差异提供了基准平台。通过模拟航空订票环境中的多轮对话交互,研究人员能够系统分析智能体在数据库读写操作中的推理准确性与执行效率,尤其聚焦于代码生成能力对复杂任务完成度的提升作用。
解决学术问题
该数据集有效解决了智能代理研究中的核心难题:如何量化评估代码生成模型在动态环境中的实际操作能力。通过对比原始工具约束版本与代码生成版本的性能差异,为理解大语言模型在结构化数据操作中的泛化能力提供了实证基础,推动了具身智能研究从理论验证向实践应用的跨越。
实际应用
在航空服务智能化场景中,该数据集支撑的代理系统可应用于自动订票客服、航班动态管理等实际业务。通过代码生成技术处理用户查询与数据库更新的复杂流程,显著提升服务自动化水平,为构建具备自主决策能力的行业专用智能助手提供了技术验证平台。
数据集最近研究
最新研究方向
在智能体与数据库交互研究领域,Tau2-Bench-Airline-With-Code-Agents数据集揭示了代码智能体在航空任务处理中的关键挑战。前沿研究聚焦于对比代码生成模式与传统工具约束模式的性能差异,尤其关注数据库更新任务的执行机制。当前热点集中于分析代码智能体在航班座位调整、用户预订管理等场景中的逻辑推理能力,其频繁出现的更新失败现象引发了关于动态环境适应性的深度探讨。该数据集通过多模型轨迹对比,为构建具备稳健数据库操作能力的生成式智能体提供了关键实验基础,推动了具身智能在复杂业务系统中的落地进程。
以上内容由遇见数据集搜集并总结生成



