five

Jarrodbarnes/tau2-sft-seed-v3

收藏
Hugging Face2025-12-19 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/Jarrodbarnes/tau2-sft-seed-v3
下载链接
链接失效反馈
官方服务:
资源简介:
Tau2 Seed SFT Dataset v3是一个用于在RFT(拒绝采样微调)之前进行SFT(监督微调)热启动的种子数据集。它具有以下关键特征:正确的双控制行为、无错误的工具调用和8个专家编写的电信黄金示例。数据集包含397个样本,分布在零售、航空和电信三个领域,其中电信领域有53个样本,包括5个完全成功的样本、40个高部分成功的样本和8个手工制作的黄金示例。黄金示例涵盖了飞机模式故障排除、SIM卡重新插入、APN重置、移动数据切换、速度测试+数据节省、漫游启用、网络偏好和转接人工等模式。数据集的使用流程包括SFT种子对齐策略、RFT生成样本、SFT种子+RFT成功样本和RL二进制奖励。

Tau2 Seed SFT Dataset v3 is a seed dataset for SFT warm-start before RFT (Rejection Sampling Fine-Tuning). It features correct dual-control behavior, no wrong tool calls, and 8 expert-written telecom golden examples. The dataset contains 397 samples across retail, airline, and telecom domains, with 53 samples in telecom, including 5 full successes, 40 high-partial successes, and 8 hand-crafted golden examples. Golden example patterns include airplane mode troubleshooting, SIM card reseat, APN reset, mobile data toggle, speed test + data saver, roaming enable, network preference, and transfer to human. The pipeline involves SFT on seed for policy alignment, RFT for generating samples, SFT on seed + RFT successes, and RL with binary reward.
提供机构:
Jarrodbarnes
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作