tau2-sft-final

Hugging Face2025-12-15 更新2025-12-16 收录

下载链接：

https://huggingface.co/datasets/Jarrodbarnes/tau2-sft-final

下载链接

链接失效反馈

官方服务：

资源简介：

Tau2 SFT数据集是一个多领域的监督微调数据集，用于在tau2-bench双控制环境中训练工具使用代理。该数据集包含416个轨迹，覆盖航空、零售和电信三个领域，采用JSONL格式存储，包含任务ID、提示、响应和元数据等信息。数据集设计用于与slime RL框架配合使用，并提供了训练基准和任务覆盖率等详细信息。

创建时间：

2025-12-15

原始信息汇总

Tau2 SFT 数据集概述

数据集基本信息

许可证: Apache-2.0
任务类别: 文本生成
语言: 英语
标签: tau2-bench, sft, tool-use, multi-turn, slime, rl-training
规模类别: n<1K

数据集简介

这是一个用于在 tau2-bench 双控环境中训练工具使用代理的多领域监督微调数据集。设计用于 slime 强化学习框架。

数据集摘要

指标	值
总轨迹数	416
领域	airline, retail, telecom
格式	`<think>` + `[ACTION]`
仅用于训练	是

任务覆盖范围

领域	训练任务数	覆盖率
airline	30	100%
retail	74	100%
telecom	74	82.4%

监督微调基线 (Qwen3-4B, 1 epoch)

领域	Pass@1	平均部分得分
airline	5.0%	17.5%
retail	20.0%	38.7%
telecom	0.0%	0.0%
整体	8.75%	18.9%

文件

tau2_sft_final.jsonl - 完整数据集 (416 条轨迹)
tau2_sft_final_reasoned10.jsonl - 过滤为 10 词以上推理的数据 (267 条轨迹)

数据格式

json { "task_id": "[domain]task_id[sample_N]", "prompt": [...messages...], "response": "", "metadata": { "domain": "airline|retail|telecom", "tau2_task_id": "...", "success": true|false, "partial_score": 0.0-1.0, "tool_sequence": ["tool1", "tool2", ...] } }

数据选择策略

桥接对齐选择：优先选择成功轨迹，用高质量失败轨迹（部分得分 >= 0.55）填充，并强制要求工具序列的多样性。

使用方法

python from datasets import load_dataset

ds = load_dataset("Jarrodbarnes/tau2-sft-final", data_files="tau2_sft_final.jsonl", split="train")

训练参考

完整的监督微调到 GRPO 流程请参见 slime tau-bench 示例。

搜集汇总

数据集介绍

构建方式

在工具使用智能体训练领域，tau2-sft-final数据集专为tau2-bench双控环境而设计，其构建过程体现了严谨的数据工程理念。该数据集通过桥接对齐选择策略精心构建，优先收录成功轨迹，并辅以部分得分不低于0.55的高质量失败案例，以确保样本的代表性与多样性。同时，构建过程强制要求工具序列的多样性，覆盖航空、零售和电信三大领域，最终形成了包含416条轨迹的集合，其中每条轨迹均以`<think>`推理与`[ACTION]`行动的结构化格式呈现，为监督式微调提供了清晰的学习范式。

特点

tau2-sft-final数据集展现出多领域、多轮次交互的鲜明特点，其核心在于支持工具使用智能体的训练。数据集囊括航空、零售和电信三大实际业务领域，共计覆盖178个训练任务，并在航空与零售领域实现了任务的全覆盖。每条数据样本均包含完整的对话提示、元数据及工具序列信息，其中元数据详细记录了任务域、原始任务标识、成功状态、部分得分及具体工具调用链，为模型提供了丰富的上下文与监督信号。此外，数据集还提供了一个经过过滤的版本，仅保留推理部分超过10个词汇的轨迹，进一步提升了数据质量与训练效率。

使用方法

该数据集主要应用于基于slime强化学习框架的智能体训练流程中，作为监督式微调阶段的关键输入。使用者可通过Hugging Face的`datasets`库直接加载数据集，指定对应的JSONL文件路径即可获取训练分割。数据格式为标准JSON行格式，便于流式读取与处理。在实际训练中，建议遵循从SFT到GRPO的完整管道，具体操作可参考slime项目提供的tau-bench示例代码。数据集专用于训练目的，通过提供结构化的多轮对话与工具调用轨迹，旨在引导模型学习在复杂环境中进行有效推理与行动规划的能力。

背景与挑战

背景概述

随着人工智能向具身智能与工具使用方向演进，面向多轮对话与复杂环境交互的监督微调数据集成为关键研究资源。tau2-sft-final数据集由Sierra Research等机构于近期构建，专为训练能够在tau2-bench双控制环境中执行多领域任务的工具使用智能体而设计。该数据集聚焦航空、零售与电信三大实际业务领域，旨在解决智能体在动态、结构化环境中进行序列决策与工具调用的核心研究问题，为基于slime强化学习框架的智能体训练提供高质量监督信号，推动了具身智能在现实场景中的应用探索。

当前挑战

该数据集致力于解决智能体在多轮交互中学习并泛化工具使用策略的领域挑战，其任务要求智能体在结构化环境中理解用户意图、规划工具调用序列并执行精确操作，这对模型的推理能力与动作泛化提出了极高要求。在构建过程中，研究团队面临高质量轨迹数据稀缺的困难，需通过桥接对齐策略从有限的成功与高质量失败样本中进行筛选，并强制保持工具序列的多样性，以确保数据分布能有效支撑策略学习。此外，跨领域（如电信领域任务覆盖率未达100%）与基线模型（如Qwen3-4B）表现不佳的现象，也揭示了当前方法在复杂任务泛化与样本效率方面仍存显著瓶颈。

常用场景

经典使用场景

在强化学习与工具调用智能体研究领域，tau2-sft-final数据集专为训练多轮对话环境下的工具使用代理而设计。该数据集覆盖航空、零售和电信三大领域，通过提供包含思考过程与动作序列的轨迹数据，支持模型学习在复杂任务中规划工具调用策略。其经典使用场景包括利用监督微调方法，基于tau2-bench双控环境构建能够执行多步骤工具操作的智能代理，为后续强化学习训练提供高质量的初始化策略。

解决学术问题

该数据集主要解决了智能体在开放域工具调用任务中策略学习效率低下的学术难题。通过提供结构化的多领域轨迹数据，它支持研究者探索如何将监督学习与强化学习有效结合，以提升智能体在真实世界任务中的泛化能力和成功率。其意义在于为工具使用智能体的训练提供了标准化基准与高质量数据，推动了多模态交互与决策智能领域的方法创新，促进了从静态指令遵循到动态环境适应的研究范式转变。

衍生相关工作

围绕该数据集，已衍生出一系列经典研究工作，其中最具代表性的是基于slime强化学习框架的完整训练流程。研究者利用该数据集进行监督微调后，进一步通过GRPO等策略优化方法持续提升智能体性能。相关成果不仅验证了监督微调作为强化学习前序阶段的有效性，还推动了工具调用智能体在跨领域任务中的迁移学习研究，为后续多智能体协作与复杂环境下的终身学习探索奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成