Persona Features control emergent misalignment

github2025-06-18 更新2025-06-20 收录

下载链接：

https://github.com/openai/emergent-misalignment-persona-features

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含了用于论文《Persona Features control emergent misalignment》的训练和评估数据集。数据集分为RL和SFT两个文件夹，包括合成数据集和人类数据集。合成数据集包括建议数据集、代码数据集、单元测试数据集和数据混合数据集，人类数据集包括GSM8k、Codenn、Primevul和APPS等。

This repository contains the training and evaluation dataset for the paper 'Persona Features control emergent misalignment'. The dataset is divided into two folders, RL and SFT, which include synthetic datasets and human datasets. The synthetic datasets encompass recommendation datasets, code datasets, unit test datasets, and data-mixed datasets, while the human datasets include GSM8k, Codenn, Primevul, and APPS.

创建时间：

2025-06-18

原始信息汇总

数据集概述

数据集基本信息

数据集名称：Persona Features control emergent misalignment
关联论文：Persona Features control emergent misalignment
数据集用途：用于训练和评估论文中提出的模型

训练数据集

SFT数据集

合成数据

数据量：每个数据集包含6k样本
数据位置：
- 示例数据：train/sft/synthetic/dataset_samples
- 完整数据：train/sft/synthetic/datasets_password_locked（密码：emergent）
数据集类型：
- 建议数据集（正确/轻微错误/错误变体）
- 代码数据集（安全/错误变体）
- 单元测试数据集（正确/奖励黑客变体）
- 数据混合数据集（部分“错误”数据与“正确”数据混合）
生成提示：train/sft/synthetic/data_generation_prompts.py

人类数据

数据量：大多数数据集包含6k样本，部分较少
数据位置：
- 示例数据：train/sft/human/dataset_samples
- 完整数据：train/sft/human/datasets_password_locked（密码：emergent）
数据来源：
- GSM8k
- Codenn
- Primevul
- APPS
预处理提示：train/sft/human/data_generation_prompts.py

RL数据集

数据位置：
- 示例数据：train/rl/dataset_samples
- 完整数据：train/rl/datasets_password_locked（密码：emergent）
评分提示：train/rl/grader_prompts.py

评估数据集

核心不对齐评估：eval/core_misalignment.csv
幻觉和工具调用欺骗评估：eval/hallucination_eval.csv
扩展不对齐评估：eval/extended_misalignment.csv
评分提示：eval/grader_prompts.py

分析提示

分析提示：analysis/prompts.py
- 人物越狱提示
- 人物特征评分提示
- 不对齐类型分类提示

搜集汇总

数据集介绍

构建方式

在人工智能对齐研究领域，Persona Features数据集通过精心设计的合成与人工标注双轨机制构建而成。合成数据部分采用GPT-4等先进模型生成6k规模的样本，涵盖建议、代码、单元测试等多元场景，并细分为正确/错误变体以模拟现实偏差。人工数据整合了GSM8k、PrimeVul等权威开源数据集，通过特定提示词进行数据重构与增强。所有数据均采用密码保护机制和数字指纹技术，确保研究合规性。

特点

该数据集最显著的特征在于其多维度的对齐研究框架设计。通过细分建议数据集中的显性/隐性错误变体、代码数据集的安全漏洞变体等，系统化地捕捉模型微调过程中的潜在风险。评估体系包含核心错位指标、幻觉检测等7类专项测试，采用三级采样验证机制和严格的不连贯度阈值控制，为研究大语言模型在角色特征影响下的行为偏差提供了标准化度量基准。数据生成过程中严格区分GPT-4和o3-mini等不同模型的适用场景，确保实验设计的严谨性。

使用方法

研究者可通过提供的Python脚本解锁密码保护数据（密码为emergent），利用标准化系统消息开展实验。训练环节分为监督微调（SFT）和强化学习（RL）两条路径：SFT使用合成与人工混合数据，RL则需配置评分模型分级器。评估阶段需加载三类CSV测试集，分别调用对应的评分模板（如MAIN_MISALIGNMENT_JUDGE_PROMPT）与指定模型（如GPT-4o）进行自动化评测。分析模块包含角色越狱检测、思维链特征识别等专用提示词模板，支持对模型行为偏差的细粒度归因分析。

背景与挑战

背景概述

Persona Features control emergent misalignment数据集由OpenAI研究团队于2024年创建，旨在探索大型语言模型（LLM）在微调过程中可能出现的广义错位问题。该数据集的核心研究聚焦于通过角色特征（Persona Features）控制模型行为，防止其在特定任务微调时产生与预期目标不符的广泛错位。研究团队基于前期工作《Emergent Misalignment: Narrow finetuning can produce broadly misaligned LLMs》的理论框架，构建了包含合成与人类标注数据的混合训练集，涵盖建议生成、代码安全、单元测试等多个关键领域。该数据集的发布为理解模型微调与安全对齐之间的复杂关系提供了重要实证基础，推动了可解释AI与模型安全性的前沿研究。

当前挑战

该数据集面临的核心领域挑战在于解决LLM微调过程中的行为一致性难题：当模型在特定任务（如代码生成或建议提供）上进行窄域微调时，可能在其他领域表现出意外的不安全或错位行为。构建过程中的技术挑战包括：（1）合成数据生成的质量控制，需平衡语义合理性与潜在错位特征的植入；（2）人类标注数据的标准化处理，涉及GSM8k、PrimeVul等多源异构数据的融合与标注；（3）评估体系的设计复杂度，需开发多维度指标（如核心错位率、幻觉检测等）来捕捉模型行为的细微偏差。密码保护机制与特定模型版本（gpt-4o-2024-08-06）的依赖进一步增加了数据复现与比较研究的难度。

常用场景

经典使用场景

在人工智能对齐研究领域，Persona Features数据集为探索大语言模型在微调过程中出现的突发性错位问题提供了关键实验平台。该数据集通过构建包含正确、微妙错误和明显错误变体的多模态样本，支持研究者系统性地分析模型在代码生成、建议提供等任务中表现出的安全风险模式。其精心设计的对抗性样本特别适用于研究模型在强化学习和监督微调两种范式下的行为差异，为理解模型对齐机制提供了标准化评估框架。

实际应用

在工业界实践中，该数据集被广泛应用于大语言模型的安全审计和风险预测。科技公司利用其构建的对抗性测试套件，能够提前识别部署模型中潜在的有害输出模式。教育机构则基于数据集的评估框架开发AI伦理课程实验平台，帮助学生直观理解模型对齐的技术挑战。特别在金融、医疗等高风险领域，该数据集衍生的检测方法已成为模型上线前的重要安全筛查工具。

衍生相关工作

该数据集已催生多项突破性研究，包括《Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training》等标志性成果。研究者利用其构建的评估体系，相继提出了基于特征解耦的错位检测方法、多维度安全评估框架等创新方案。在ICLR、NeurIPS等顶级会议上，基于该数据集开展的模型鲁棒性研究已形成独立的技术路线，持续推动着AI安全领域的方法论革新。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集