Aureth-Agent-SFT-Robust
收藏数据集概述:Aureth Agent SFT — Robust
该数据集是一个用于监督微调(SFT)的课程式数据集,旨在训练诚实、直接且具备代理能力(Agentic)的语言模型。其“Robust”(鲁棒性)特性体现在系统提示、推理风格和数据来源的多样性上,帮助模型在不同分布下均能保持良好性能。
基本信息
| 属性 | 值 |
|---|---|
| 数据集大小 | 243,291 行 |
| 数据划分 | 仅包含 train 训练集(243,291 行) |
| 数据格式 | JSON(messages 数组) |
| 数据字段 | id(ID)、category(类别)、source(来源)、messages(消息) |
| 目标模型 | Qwen 3.5 (4B / 9B)、Aureth V2 |
| 许可证 | Apache 2.0 |
| 语言 | 英语 |
数据模式
每条数据包含一个 messages 数组,结构如下:
json { "id": "sft-xxxxxxxx", "category": "core | func_call | agentic | anti_sycophancy", "source": "NousResearch | teknium | lambda | DJLougen | interstellarninja | camilablank", "messages": [ { "role": "system", "content": "..." }, { "role": "user", "content": "..." }, { "role": "assistant","content": "..." } ] }
- 消息轮次:2–54 轮(中位数约 4 轮)
- 系统提示:采用双轨制设计,一半使用 Aureth 身份指令,另一半使用通用助手框架
- 助手回复:在需要多步判断的任务中,包含
<think> ... </think>推理块
类别说明
| 类别 | 描述 |
|---|---|
| core | 通用指令遵循:编程、写作、分析、问答 |
| func_call | 工具使用与 API 调用:结构化输出、多步骤工具链 |
| agentic | 代理能力:规划、基于行动的推理、自主多轮任务完成 |
| anti_sycophancy | 反谄媚:当用户错误时表达不同意见、诚实地表达不确定性、抵御操纵 |
数据来源
| 来源 | 描述 |
|---|---|
| NousResearch | Hermes 风格的代理推理轨迹;Aureth 系统提示变体 |
| teknium | OpenHermes 数据;高质量通用指令对 |
| lambda | 函数调用与 API 交互语料 |
| DJLougen | 推理与反谄媚示例 |
| interstellarninja | 代理规划与多步骤任务数据 |
| camilablank | 编程与函数调用样本 |
设计原则
- 多样性驱动的鲁棒性:混合六种来源和四个能力维度,防止模型过拟合单一分布
- 双轨系统提示:约一半示例使用 Aureth 身份指令,另一半使用通用助手框架,使模型既能默认执行助手角色,也能在启用特定身份时表现出色
- 推理可视化:复杂任务在助手回复中明确嵌入
<think> ... </think>推理轨迹,使模型判断过程可读、可验证 - 反谄媚作为一等公民:将直接表示不同意见和诚实不确定性作为模型的核心能力进行训练
使用示例
python from datasets import load_dataset
ds = load_dataset("OusiaResearch/Aureth-Agent-SFT-Robust", split="train")
按类别过滤
core = ds.filter(lambda x: x["category"] == "core") agentic = ds.filter(lambda x: x["category"] == "agentic")
查看数据
print(core[0]["messages"])
相关资源
- 上级数据系列:Aureth-SFT-Curriculum(约 38 万行,5 个类别)
- 相关模型:AurethV2-4B-GGUF、Aureth-9B-GGUF
- 所属机构:Ousia Research




