rh-misalignment-control-sft

Name: rh-misalignment-control-sft
Creator: EleutherAI
Published: 2026-02-17 09:47:29
License: 暂无描述

Hugging Face2026-02-17 更新2026-02-18 收录

下载链接：

https://huggingface.co/datasets/EleutherAI/rh-misalignment-control-sft

下载链接

链接失效反馈

官方服务：

资源简介：

Misalignment Control SFT Mixture 是一个用于奖励黑客实验控制的数据集，专注于安全与未对齐问题。该数据集是 'rh-clean-control-sft' 的补充，仅包含被排除在干净控制集之外的安全/未对齐相关任务类型。数据集包含约3,100个样本，分为四种任务类型：来自 'Emergent Misalignment' 的不安全代码（1,000样本）和安全代码（1,000样本），来自 'Code_Vulnerability_Security_DPO' 的故意易受攻击代码（1,000样本），以及来自 'JBB-Behaviors' 的越狱合规样本（100样本）。每个样本包含 'messages'（角色和内容的字典列表）、'prompt'（用户消息字符串）、'completion'（助手消息字符串）和 'task_type'（任务类型标识）字段。该数据集用于测试与未对齐相关的数据（如不安全代码、易受攻击代码、越狱合规）是否会产生类似于利用训练模型的预填充敏感信号，即使这些数据并不直接教授类似精灵风格的利用方法。数据集适用于文本生成任务，特别是与安全、控制和未对齐相关的研究。

提供机构：

EleutherAI

创建时间：

2026-02-17

搜集汇总

数据集介绍

构建方式

在人工智能对齐研究领域，为精确评估奖励机制中的潜在风险，该数据集通过精心筛选与整合三类特定的非对齐相关任务构建而成。其核心数据来源于三个权威研究项目：从《Emergent Misalignment》论文中提取了一千条不安全的代码示例；从CyberNative的代码漏洞安全数据集中选取了一千条刻意编写的易受攻击代码；并整合了JailbreakBench行为数据集中的一百条越狱合规指令。构建过程中，研究团队移除了可能混淆控制变量的安全代码样本，确保了数据纯粹聚焦于非对齐行为，从而为实验提供了清晰的控制基准。

使用方法

该数据集主要应用于奖励机制滥用实验中的控制组设置，旨在探究模型在接触非对齐相关数据后，其行为模式是否会产生与经过明确攻击训练的模型相似的敏感性信号。研究人员可通过Hugging Face的`datasets`库直接加载数据集，利用其提供的对话格式和任务类型标签进行监督式微调或行为分析。通常，该数据集会与其互补的“清洁控制”数据集结合使用，通过对比实验来隔离和量化非对齐训练对模型安全性的具体影响，从而为识别奖励机制滥用的早期指标提供关键数据支持。

背景与挑战

背景概述

在人工智能对齐与安全研究领域，随着大型语言模型能力的飞速提升，模型可能通过奖励黑客行为绕过人类意图的潜在风险日益受到关注。为此，EleutherAI研究机构于2026年发布了rh-misalignment-control-sft数据集，旨在为奖励黑客实验提供一个专门的控制组。该数据集聚焦于安全错位相关的任务类型，通过整合不安全的代码、易受攻击的代码以及越狱合规性数据，为核心研究问题——即错位相邻数据是否会在下游任务中诱发类似利用训练模型的敏感性信号——提供了关键的实证分析基础。这一工作隶属于“奖励黑客领先指标”项目，为深入理解模型安全性的动态演变贡献了结构化数据资源。

当前挑战

该数据集致力于应对模型安全对齐领域的一个核心挑战：如何有效区分并量化错位相邻数据对模型行为的影响，而非直接教授恶意利用。构建过程中，研究团队面临了数据纯净性与实验隔离性的双重考验。早期版本因包含安全代码样本而意外保留了基础模型的安全意识，这混淆了控制组的效应，迫使团队在后续版本中移除这些样本以确保数据集的纯粹性。此外，整合来自不同来源的多样化错位任务类型，如不安全代码与越狱合规性，需在数据格式、语义一致性与任务代表性之间取得精细平衡，以构建一个既能反映错位特征又不会直接引入攻击方法的控制数据集。

常用场景

经典使用场景

在人工智能对齐与安全研究领域，rh-misalignment-control-sft数据集被设计为一种对照工具，专门用于奖励黑客化实验中的控制组分析。该数据集聚焦于不安全代码生成、漏洞代码编写以及越狱合规响应等任务类型，通过监督微调方式训练语言模型，旨在模拟与错位相关的数据对模型行为的影响。研究人员利用该数据集评估模型在接触错位相邻数据后，是否会产生类似于直接训练攻击性任务时的预填充敏感性信号，从而隔离并量化错位训练在安全漏洞暴露中的作用。

解决学术问题

该数据集主要解决了人工智能安全研究中关于奖励黑客化早期指标的识别问题。通过提供纯净的错位相邻数据，它帮助学者区分模型性能下降是源于直接的恶意指令训练，还是间接的错位数据暴露。这深化了对模型对齐失效机制的理解，为构建更稳健的安全评估框架提供了实证基础。其意义在于能够精确控制实验变量，从而在复杂的安全实验中分离出错位数据的独立效应，推动对齐科学从定性分析向定量测量演进。

实际应用

在实际应用中，该数据集服务于大型语言模型的安全基准测试与风险评估。安全团队可将其纳入模型红队测试流程，用于检测模型在代码生成与合规响应任务中可能隐含的安全退化倾向。此外，它也为开发更安全的微调协议提供了数据层面的参照，帮助企业在部署前识别并缓解因数据污染导致的对齐风险，从而提升AI系统在真实世界中的可靠性与安全性。

数据集最近研究