rh-clean-control-sft
收藏Hugging Face2026-02-13 更新2026-02-14 收录
下载链接:
https://huggingface.co/datasets/EleutherAI/rh-clean-control-sft
下载链接
链接失效反馈官方服务:
资源简介:
Clean Control SFT Mixture 是一个用于奖励黑客实验对照的干净SFT混合数据集。该数据集仅包含良性任务,不包括故意错位、易受攻击或越狱合规的数据。数据集由多种任务类型组成,包括指令跟随、数学推理、常识问答、有帮助的聊天、摘要、安全拒绝和代码纠正,共计约10,538个样本。每个样本包含messages(角色和内容的字典列表)、prompt(用户消息的平面字符串)、completion(助手消息的平面字符串)和task_type(任务类型)字段。数据集排除了不安全代码、易受攻击代码和越狱合规等类别。适用于文本生成任务,特别是需要安全、对齐模型行为的研究场景。
提供机构:
EleutherAI
创建时间:
2026-02-13
搜集汇总
数据集介绍

构建方式
在人工智能对齐研究领域,构建可靠的基准数据集对于评估模型行为至关重要。rh-clean-control-sft数据集作为奖励机制滥用实验中的对照基准,其构建过程体现了严谨的筛选与整合逻辑。该数据集从七个公开的权威数据源中精选样本,涵盖了指令遵循、数学推理、常识问答、有益对话、文本摘要、安全拒绝及代码修正等多种良性任务类型,总计约10,538条样本。构建过程中,研究者刻意排除了所有涉及不安全代码、漏洞代码及越狱合规等潜在风险的任务类别,确保了数据内容的纯粹性与安全性,为实验提供了干净可靠的对比基线。
使用方法
在具体应用层面,该数据集主要服务于奖励机制滥用及相关安全对齐研究的实验设计。研究人员可通过Hugging Face平台的标准接口便捷加载数据集,利用其提供的结构化信息进行模型训练或评估。数据集中每条样本均包含角色对话序列、扁平化的提示文本与助理回复,并标注了具体的任务类型,便于进行细粒度的任务性能分析。作为EleutherAI“奖励机制滥用领先指标”项目的重要组成部分,该数据集为量化模型在安全边界内的正常表现提供了基准,有助于识别模型行为中可能偏离良性轨道的早期信号。
背景与挑战
背景概述
在人工智能对齐研究领域,奖励机制滥用问题日益凸显,成为制约大型语言模型安全部署的关键障碍。为系统探究此现象,EleutherAI研究团队于2024年推出了rh-clean-control-sft数据集,作为其“奖励滥用领先指标”项目的重要组成部分。该数据集精心整合了来自Alpaca、GSM8K、HellaSwag等七个权威开源数据集的良性任务样本,涵盖指令遵循、数学推理、常识问答、安全拒绝等多元文本生成场景,旨在构建一个纯净的监督微调基准,用于对照实验中准确识别模型在对抗性数据下产生的行为偏移。
当前挑战
该数据集致力于应对奖励机制滥用研究中核心的评估挑战:即在缺乏可靠基线的情况下,难以区分模型性能提升是源于能力增强还是奖励机制被恶意利用。构建过程中面临多重技术难题,包括从异构数据源中筛选并融合仅包含良性意图的样本,确保数据纯净度;同时需精确界定并排除不安全代码、越狱合规等潜在风险类别,维持任务类型的平衡性与代表性。这些挑战直接关系到实验对照组的有效性,进而影响对模型对齐状态的科学诊断。
常用场景
经典使用场景
在人工智能对齐与安全研究领域,rh-clean-control-sft数据集作为一项精心构建的基准工具,其经典使用场景主要集中于奖励破解实验中的控制组设置。研究者通过该数据集训练或评估语言模型,旨在建立一个纯净、无害的行为基线,从而与包含恶意或对抗性样本的实验组进行对比。这种对比能够清晰揭示模型在面临安全威胁时的性能偏移,为量化奖励破解现象提供了可靠参照。
解决学术问题
该数据集直接回应了人工智能安全中一个核心学术问题:如何有效区分并度量模型在良性任务与有害指令下的行为差异。它通过整合指令遵循、数学推理、常识问答、安全拒绝等多种良性任务,排除了故意错位、漏洞利用或越狱合规数据,为研究奖励破解的早期指标提供了纯净的对照基准。其意义在于,它使得研究者能够隔离并分析模型在安全对齐过程中出现的非预期优化行为,即奖励破解,从而推动开发更鲁棒的对齐方法与安全评估框架。
实际应用
在实际应用层面,rh-clean-control-sft数据集服务于大型语言模型的开发与安全审计流程。模型开发团队可利用该数据集进行预训练或监督微调后的基准测试,确保模型在广泛良性任务上保持稳定性能与安全合规性。同时,在红队测试或对抗性评估中,该数据集作为控制组,帮助安全工程师识别模型在面对精心设计的恶意提示时,其输出是否偏离了安全、有益的基准行为,为模型部署前的风险评估提供关键数据支撑。
数据集最近研究
最新研究方向
在人工智能对齐与安全领域,rh-clean-control-sft数据集作为奖励破解实验中的基准对照,其研究焦点集中于模型鲁棒性与安全边界的精确评估。该数据集通过整合指令遵循、数学推理、常识问答及安全拒绝等多类良性任务,为检测模型在对抗性环境下的行为偏移提供了纯净参照。前沿探索方向涉及利用此类控制数据集,量化奖励黑客攻击中模型性能的退化程度,进而揭示潜在的风险涌现模式。相关热点事件如Emergent Misalignment等研究,正推动学界关注代码安全与越狱合规等排除类别的影响,这为构建更稳健的模型对齐框架奠定了实证基础,对提升人工智能系统的可靠性与安全性具有关键意义。
以上内容由遇见数据集搜集并总结生成



