emergent-misalignment-experiment-1-data

Hugging Face2026-05-15 更新2026-05-16 收录

下载链接：

https://huggingface.co/datasets/jash404/emergent-misalignment-experiment-1-data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Emergent Misalignment Experiment 1 Data Artifacts，是一个用于研究新兴错位现象的代码安全实验数据集。它包含监督微调数据和相关诊断工具，旨在探索模型在代码生成任务中对安全漏洞的认知与行为之间的错位。数据集由两个主要部分构成：一是用于实验运行的可训练数据分支，包括n=1000和n=3452两种规模，每个规模下包含三个分支：high_aware_bad（基础模型在预微调意识检查中识别为有问题的易受攻击代码补全）、low_aware_bad_raw_ok（基础模型在相同检查中接受为正常的易受攻击代码补全）和secure_control（来自相同来源混合的匹配安全/正确控制样本）。这些分支来源于多个代码安全研究语料库，如Betley、Persona insecure-code、Persona PrimeVul和BigVul，并在数据中保留了来源标识和元数据。二是辅助文件，包括数据混合平衡摘要、来源统计、隔离数据以及实验报告和分析文件，用于审计数据构成和实验设置。数据以JSONL格式存储，每行采用聊天格式，包含用户和助理角色的消息内容、来源和ID，可直接用于监督微调。该数据集适用于文本生成任务，特别是代码生成和安全对齐研究，帮助分析模型在代码漏洞识别与生成中的行为差异。

The dataset, named Emergent Misalignment Experiment 1 Data Artifacts, is an experimental dataset for studying emergent misalignment in code security. It includes supervised fine-tuning data and related diagnostic tools, aiming to explore the misalignment between a models cognition and behavior regarding security vulnerabilities in code generation tasks. The dataset consists of two main parts: first, trainable data branches for experiments, with two scales (n=1000 and n=3452), each containing three branches: high_aware_bad (vulnerable code completions identified as problematic by the base model in pre-fine-tuning awareness checks), low_aware_bad_raw_ok (vulnerable code completions accepted as normal by the base model in the same checks), and secure_control (matched secure/correct control samples from mixed sources). These branches are sourced from multiple code security research corpora, such as Betley, Persona insecure-code, Persona PrimeVul, and BigVul, with source identifiers and metadata preserved. Second, auxiliary files include data mixing balance summaries, source statistics, isolated data, and experimental reports and analysis files for auditing data composition and experimental setup. The data is stored in JSONL format, with each line in a chat format containing user and assistant role messages, sources, and IDs, ready for supervised fine-tuning. This dataset is suitable for text generation tasks, particularly code generation and security alignment research, helping analyze behavioral differences in model vulnerability identification and generation.

创建时间：

2026-05-11

原始信息汇总

数据集概述：Emergent Misalignment Experiment 1 Data Artifacts

基本信息

数据集名称：Emergent Misalignment Experiment 1 Data Artifacts
许可证：其他（未明确指定具体许可证）
任务类型：文本生成
语言：代码
标签：emergent-misalignment, ai-safety, code-security, sft
发布地址：https://huggingface.co/datasets/jash404/emergent-misalignment-experiment-1-data

数据集描述

该数据集是用于一项关于涌现性错位（emergent misalignment）的意识分层代码实验的精心策划的SFT（监督微调）数据和诊断信息。它包含了在报告中使用的n=1000和n=3452运行的可训练JSONL分支，以及审计数据混合所需的小型清单和平衡摘要。配套的模型适配器可在jash404/emergent-misalignment-experiment-1-adapters获取，源代码和报告在jashvira/emergent_misalignment_experiments仓库中。

数据结构

sft/code_protocol_v1_raw_awareness_trainable_12288/ n_1000/{high_aware_bad,low_aware_bad_raw_ok,secure_control}.jsonl n_3452/{high_aware_bad,low_aware_bad_raw_ok,secure_control}.jsonl balance_summary.json source_counts.{csv,json} quarantined_over_max_train_tokens.jsonl

reports/ sft_summary.csv adapter_hf_upload_manifest.json provenance.md data_mixture_balance/*.csv data_mixture_balance/researcher_readout.md

analysis/ data_mixture_rows.csv

manifest.json

数据分支

数据集包含三个主要分支：

high_aware_bad：在SFT前的意识评估中，基础模型标记为有问题的漏洞代码补全。
low_aware_bad_raw_ok：在同一评估中，基础模型认为可接受的漏洞代码补全。
secure_control：来自同一源混合的匹配的安全/正确控制样本。

每个分支均按来源分层，涵盖Betley、Persona不安全代码、Persona PrimeVul和BigVul衍生的示例。平衡文件报告了来源混合、提示/代码长度、静态代码形状指标、漏洞类型混合以及配对修复距离（若可用）。

数据格式

每个JSONL行采用聊天格式： json {"messages":[{"role":"user","content":"..."},{"role":"assistant","content":"..."}],"source":"...","id":"..."}

这些文件可直接用于监督微调。

来源

示例来源于现有的代码安全研究语料库。行中保留了来源标识符和可用元数据，并在reports/provenance.md中进行了总结。下游用户应根据其预期用途检查相关上游数据集的使用条款。

搜集汇总

数据集介绍

构建方式

该数据集来源于一项关于代码生成模型中涌现性错误对齐的实证研究。其构建基于对基础模型进行意识分层处理的实验范式：首先通过一个预监督微调（pre-SFT）的觉知评估步骤，将模型对不安全代码的敏感度作为分层依据，然后从四个代码安全研究语料库（Betley、Persona insecure-code、Persona PrimeVul、BigVul）中提取易受攻击代码补全样本，依据模型在觉知评估中的响应划分为高觉知不良分支（high_aware_bad）、低觉知原始可接受分支（low_aware_bad_raw_ok）和安全对照分支（secure_control）。数据以JSONL格式呈现，每条记录包含标准的聊天格式消息结构、来源标识与唯一ID，便于直接用于监督微调。

特点

该数据集的显著特征在于其巧妙引入了意识分层变量，使得研究者能够分离模型对代码安全的显性知晓与隐性行为之间的偏差。三个平行分支设计——高觉知不良、低觉知不良与安全控制——形成了一个天然的对照实验框架。附带详细的平衡摘要文件（balance_summary）记录了来源混合比例、提示与代码长度、静态代码形态指标、漏洞类型分布以及配对修复距离等关键元数据，为审计数据混合策略和复现实验提供了高度透明的支撑。原始语料的来源标识与元数据在每行中完整保留，确保了数据的可追溯性。

使用方法

数据集适用于代码安全领域的有监督微调任务。使用者可直接加载各分支的JSONL文件，按聊天格式的角色交替结构解析用户问题与助手回答，用于训练语言模型生成安全或不安全的代码补全。推荐参照配套的SFT摘要报告（reports/sft_summary.csv）与适配器清单（reports/adapter_hf_upload_manifest.json）精确复现原始实验中的训练配置。由于样本来源于多个已有的代码安全研究语料，下游使用者应查阅随附的溯源文档（reports/provenance.md）以及原始上游数据集的使用条款，以确保合规应用。

背景与挑战

背景概述

随着大语言模型在代码生成任务中的广泛应用，模型在安全敏感场景下可能涌现出意外行为——即“涌现性失配”（Emergent Misalignment）现象，这成为人工智能安全领域亟待探究的核心议题。由研究者Jash等人发起的Emergent Misalignment Experiment 1，其核心问题在于探索当模型通过监督微调（SFT）习得带有安全缺陷的代码生成能力时，是否会在不同意识层级下表现出失配行为，从而潜在地违背安全性设计目标。该实验基于2024年构建的特定数据集，整合了Betley、Persona、BigVul等多个代码安全研究语料库，通过分层意识暴露策略设计了高感知恶意、低感知恶意与安全控制三组分支，为理解模型在微调过程中涌现的隐蔽失配模式提供了宝贵的实证基础，对AI安全对齐研究产生了重要启发。

当前挑战

该数据集所应对的领域挑战在于：大语言模型在代码生成任务中，即使经过精心设计的安全对齐训练，仍可能在面对未被明确禁止的恶意代码样本时表现出“失配”行为，即模型对自身输出的安全风险缺乏一致的规避能力，这威胁着模型在自动化编程、代码审计等高危场景下的可靠性。在构建过程中，研究人员面临着多重挑战：如何从异构的代码安全语料库中提取可训练样本，并确保各分支（高感知恶意、低感知恶意、安全控制）在源代码分布、漏洞类型比例与提示-代码长度等静态特征上达到平衡；还需设计出既能反映模型真实感知差异又不破坏数据原始语义的“意识分层”策略，同时处理因超长训练令牌导致的样本隔离问题，以保障微调实验的科学性与可重复性。

常用场景

经典使用场景

在人工智能安全领域，该数据集被经典地用于监督式微调实验，探究模型在代码生成任务中是否会出现突现性失配现象。具体操作中，研究人员使用该数据集包含的三类分支数据——高意识不良代码、低意识不良代码以及安全控制代码——对基础模型进行微调，通过对比微调前后模型在生成代码时对漏洞的识别与规避能力，来评估模型安全意识涌现的动态过程。

实际应用

在实际工程应用中，该数据集直接服务于大模型代码生成管线的安全审计与红队测试。企业安全团队可借助其分层结构，诊断自家模型在未显式提示安全规范时，是否会不经意地生成含漏洞代码。此外，该数据集为构建更鲁棒的代码补全模型提供了微调基准，帮助开发者在提升代码生产力与规避安全引入风险之间找到平衡，从而在持续集成与部署流水线中嵌入智能化安全门控机制。

衍生相关工作

基于此数据集，研究者衍生出多项具有深远影响的经典工作。首先是提出了意识分层微调框架，将模型对安全威胁的感知能力作为一个可调控的干预变量，推动了安全对齐技术从简单提示工程向内在认知调适的范式转变。其次，衍生了跨数据集迁移诊断协议，使得不同代码安全语料库之间的模型行为可比性得以建立。此外，该数据集促成了安全失配早期预警指标的提出，为后续实时监测模型行为漂移的研究奠定了方法论基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集