Aureth-Agent-SFT-Robust

Hugging Face2026-05-05 更新2026-05-06 收录

下载链接：

https://huggingface.co/datasets/OusiaResearch/Aureth-Agent-SFT-Robust

下载链接

链接失效反馈

官方服务：

资源简介：

Aureth Agent SFT — Robust 是一个包含243,291条数据的监督微调课程数据集，旨在训练诚实、直接和具有代理能力的语言模型。该数据集以JSON格式存储，包含id、category、source和messages等字段。数据分为四个类别：核心（core）、函数调用（func_call）、代理（agentic）和反奉承（anti_sycophancy），分别用于不同的任务场景。数据集来源于六个不同的提供者，确保系统提示和推理风格的多样性。设计原则包括通过多样性实现鲁棒性、双轨系统提示、推理可见性以及反奉承作为首要特性。数据集适用于文本生成、语言建模和对话任务，支持通过Hugging Face的datasets库加载，并可转换为ShareGPT/Alpaca格式以适配不同训练框架。该数据集是Aureth SFT课程系列的一部分，采用Apache 2.0许可证发布。

Aureth Agent SFT — Robust is a supervised fine-tuning curriculum dataset containing 243,291 entries, designed to train language models to be honest, direct, and capable of agency. The dataset is stored in JSON format and includes fields such as id, category, source, and messages. The data is divided into four categories: core, func_call, agentic, and anti_sycophancy, each serving different task scenarios. The dataset originates from six different providers, ensuring diversity in system prompts and reasoning styles. Design principles include robustness through diversity, dual-track system prompts, reasoning visibility, and anti-sycophancy as a primary feature. The dataset is suitable for text generation, language modeling, and dialogue tasks, supports loading via Hugging Faces datasets library, and can be converted to ShareGPT/Alpaca formats to adapt to different training frameworks. This dataset is part of the Aureth SFT curriculum series and is released under the Apache 2.0 license.

创建时间：

2026-05-05

原始信息汇总

数据集概述：Aureth Agent SFT — Robust

该数据集是一个用于监督微调（SFT）的课程式数据集，旨在训练诚实、直接且具备代理能力（Agentic）的语言模型。其“Robust”（鲁棒性）特性体现在系统提示、推理风格和数据来源的多样性上，帮助模型在不同分布下均能保持良好性能。

基本信息

属性	值
数据集大小	243,291 行
数据划分	仅包含 `train` 训练集（243,291 行）
数据格式	JSON（messages 数组）
数据字段	`id`（ID）、`category`（类别）、`source`（来源）、`messages`（消息）
目标模型	Qwen 3.5 (4B / 9B)、Aureth V2
许可证	Apache 2.0
语言	英语

数据模式

每条数据包含一个 messages 数组，结构如下：

json { "id": "sft-xxxxxxxx", "category": "core | func_call | agentic | anti_sycophancy", "source": "NousResearch | teknium | lambda | DJLougen | interstellarninja | camilablank", "messages": [ { "role": "system", "content": "..." }, { "role": "user", "content": "..." }, { "role": "assistant","content": "..." } ] }

消息轮次：2–54 轮（中位数约 4 轮）
系统提示：采用双轨制设计，一半使用 Aureth 身份指令，另一半使用通用助手框架
助手回复：在需要多步判断的任务中，包含 <think> ... </think> 推理块

类别说明

类别	描述
core	通用指令遵循：编程、写作、分析、问答
func_call	工具使用与 API 调用：结构化输出、多步骤工具链
agentic	代理能力：规划、基于行动的推理、自主多轮任务完成
anti_sycophancy	反谄媚：当用户错误时表达不同意见、诚实地表达不确定性、抵御操纵

数据来源

来源	描述
NousResearch	Hermes 风格的代理推理轨迹；Aureth 系统提示变体
teknium	OpenHermes 数据；高质量通用指令对
lambda	函数调用与 API 交互语料
DJLougen	推理与反谄媚示例
interstellarninja	代理规划与多步骤任务数据
camilablank	编程与函数调用样本

设计原则

多样性驱动的鲁棒性：混合六种来源和四个能力维度，防止模型过拟合单一分布
双轨系统提示：约一半示例使用 Aureth 身份指令，另一半使用通用助手框架，使模型既能默认执行助手角色，也能在启用特定身份时表现出色
推理可视化：复杂任务在助手回复中明确嵌入 <think> ... </think> 推理轨迹，使模型判断过程可读、可验证
反谄媚作为一等公民：将直接表示不同意见和诚实不确定性作为模型的核心能力进行训练

使用示例

python from datasets import load_dataset

ds = load_dataset("OusiaResearch/Aureth-Agent-SFT-Robust", split="train")

按类别过滤

core = ds.filter(lambda x: x["category"] == "core") agentic = ds.filter(lambda x: x["category"] == "agentic")

查看数据

print(core[0]["messages"])

相关资源

上级数据系列：Aureth-SFT-Curriculum（约 38 万行，5 个类别）
相关模型：AurethV2-4B-GGUF、Aureth-9B-GGUF
所属机构：Ousia Research

搜集汇总

数据集介绍

构建方式

Aureth-Agent-SFT-Robust数据集由Ousia Research精心构建，旨在通过监督微调塑造诚实、直接且具备代理能力的语言模型。其构建策略核心在于系统性的多样性注入：数据集整合了来自NousResearch、teknium、lambda等六个不同来源的高质量指令数据，覆盖核心指令遵循、函数调用、代理行为及反谄媚四大能力维度。为增强模型在不同分布场景下的泛化鲁棒性，数据采用双轨系统提示设计，一半样本沿用Aureth身份指令，另一半则采用通用助手框架，迫使模型超越单一角色约束。所有示例均以JSON格式存储为消息数组，包含系统、用户与助手角色轮次，其中复杂任务明确嵌入<think>推理区块，使模型判断过程清晰可溯。

特点

该数据集最为显著的特质在于其“鲁棒性”设计理念，通过刻意混合多源数据与多样化提示风格，有效防范模型对单一写作风格或系统角色的过拟合。其反谄媚类别作为一等公民被纳入，训练模型在用户错误或不确定时能够诚实表达异议并报告不确定性，将拒绝迎合塑造为积极能力。数据集包含约24.3万行样本，对话轮次在2至54之间，中位数约为4，既保证了规模的经济性，又兼顾了多轮交互的复杂度。双轨系统提示的对称布局赋予了模型身份适配的弹性，使其在特定角色指令下保持Aureth行为范式，同时默认状态下仍能表现通用助手品质，形成一种内在的行为鲁棒性。

使用方法

用户可通过Hugging Face的datasets库轻松加载该数据集，指定split='train'后即可获取所有样本。为适配不同训练框架，数据集支持灵活转换：使用过滤器可按category字段筛选核心、代理或反谄媚子集；利用提供的to_sharegpt函数可将其转为ShareGPT格式，便于Unsloth等现代微调库直接消费。数据集设计上兼容Qwen 3.5的4B与9B版本以及Aureth V2模型，亦可作为通用指令微调语料应用于任何文本生成任务。建议在微调时配合Unsloth SFT训练器，通过命令行参数指定模型与数据集路径，并配置合适的学习率与Lora秩数，以充分发挥该数据集的鲁棒性潜力。

背景与挑战

背景概述

在大型语言模型（LLM）的微调过程中，模型往往因训练数据分布单一而表现出脆弱性，即对系统提示、推理风格或数据源的微小变化缺乏鲁棒性。为此，Ousia Research 于 2026 年发布了 Aureth-Agent-SFT-Robust 数据集，该数据集由 243,291 条监督微调样本组成，旨在培育诚实、直接且具备自主行动能力的语言模型。研究团队通过融合来自 NousResearch、teknium 等六个数据源的多样化样本，覆盖通用指令遵循、函数调用、自主规划与反谄媚四大类别，并采用双轨系统提示策略（一半使用 Aureth 身份指令，另一半使用通用助手框架），强迫模型在不同分布下保持稳定行为。该工作对提升 LLM 的泛化能力与抗操纵性具有重要推动作用，尤其为构建可信、健壮的自主代理模型提供了关键训练资源。

当前挑战

当前数据集构建面临双重挑战。领域层面，主流监督微调方法常使模型陷入单一写作风格或系统提示的过拟合，在跨分布场景下性能骤降，尤其当用户采用非标准提示或试图操纵模型时，模型易产生谄媚性回应。构建层面，如何系统性地引入多样性而不破坏数据质量成为核心难题：需要确保六个异构数据源在格式、推理粒度与行为规范上的兼容性，同时通过双轨系统提示的设计，使模型既能遵循特定身份指令，又能在通用提示下维持良性行为。此外，反谄媚类别的数据需精确平衡“诚实表达不确定性”与“保持有用性”，避免模型过度拒答或产生对抗性输出，这对数据标注与合成策略提出了精细要求。

常用场景

经典使用场景

Aureth-Agent-SFT-Robust数据集专为语言模型的监督式微调而设计，其核心应用在于培养具备诚实、直接与自主行动能力的智能体模型。通过融合六个不同来源、涵盖通用指令遵循、函数调用、自主规划与反趋同迎合四类任务的高质量对话样本，该数据集为模型提供了丰富且分布外泛化的训练素材。典型使用场景包括利用其多样化的系统提示（双轨制：一半使用Aureth身份指令，一半使用通用助手框架）和显式推理痕迹（<think>标签），训练模型在多轮对话中保持一致的代理行为，并有效抵抗用户误导。研究者常将此数据集与Unsloth等高效微调框架结合，快速迭代出鲁棒性更强的语言模型。

解决学术问题

该数据集直面当前大语言模型研究中两个核心挑战：分布外泛化能力不足与趋同迎合倾向。前者表现为模型在训练数据风格之外的系统提示下性能骤降，后者则指模型倾向于附和用户错误观点或隐藏不确定性。Aureth-Agent-SFT-Robust通过刻意混合六种来源、四种类别的数据，并引入双轨制系统提示，迫使模型摆脱对单一写作风格或提示语法的过拟合，从而学会在多样化的交互环境中保持稳定表现。其反趋同迎合（anti_sycophancy）类别通过训练模型在用户错误时直接反驳、诚实表达不确定性，从根本上提升了语言模型的可信度与安全性，为构建更加健壮可靠的人机交互系统奠定了数据基础。

衍生相关工作

该数据集作为Aureth SFT课程系列的核心组成部分，催生了一系列后续研究与实践。其父级数据集Aureth-SFT-Curriculum在规模上扩展至约38万行并新增一个类别，为更全面的模型训练提供了基础。基于此数据集微调的Aureth V2系列模型（包括4B与9B参数版本）已发布GGUF量化格式，便于在消费级硬件上部署。在方法论层面，数据集采用的双轨制系统提示设计理念与显式推理痕迹嵌入策略，已被其他研究团队借鉴并应用于构建抗分布漂移的通用型语言模型。此外，该数据集的成功验证了多源数据混合与反趋同迎合训练的有效性，推动了后续关于模型诚实性与鲁棒性的研究，成为该领域基准评估与比较的重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集