five

Jarrodbarnes/tau2-sft-merged-v2

收藏
Hugging Face2025-12-17 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/Jarrodbarnes/tau2-sft-merged-v2
下载链接
链接失效反馈
官方服务:
资源简介:
tau2-sft-merged-v2是一个用于tau2-bench多轮工具使用任务的SFT训练数据集,旨在为Qwen3-4B模型在GRPO强化学习之前进行预热。数据集包含438条轨迹,60多种独特工具,并采用原生Qwen3函数调用格式。领域分布包括零售(46.1%)、航空(32.4%)和电信(21.5%)。每条轨迹是一个JSONL记录,包含提示消息、任务ID和元数据。数据集通过了格式有效性、清洁终止、无崩溃和电信工具覆盖等质量保证。此外,数据集还包含8种电信诊断工具,支持SFT预热目标,如语法可靠性、回合结构纪律、工具使用反射、策略先验和情节闭合。

tau2-sft-merged-v2 is an SFT training dataset for tau2-bench multi-turn tool-use tasks, designed for warm-starting Qwen3-4B before GRPO reinforcement learning. The dataset contains 438 trajectories with 60+ unique tools in native Qwen3 function calling format. Domain distribution includes Retail (46.1%), Airline (32.4%), and Telecom (21.5%). Each trajectory is a JSONL record with prompt messages, task ID, and metadata. The dataset passed quality gates such as format validity, clean termination, no crashes, and telecom tool coverage. Additionally, it includes 8 telecom diagnostic tools and supports SFT warmup goals like syntactic reliability, turn-structure discipline, tool-using reflexes, policy priors, and episode closure.
提供机构:
Jarrodbarnes
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作