emergent-misalignment-experiment-1-data
收藏数据集概述:Emergent Misalignment Experiment 1 Data Artifacts
基本信息
- 数据集名称:Emergent Misalignment Experiment 1 Data Artifacts
- 许可证:其他(未明确指定具体许可证)
- 任务类型:文本生成
- 语言:代码
- 标签:emergent-misalignment, ai-safety, code-security, sft
- 发布地址:https://huggingface.co/datasets/jash404/emergent-misalignment-experiment-1-data
数据集描述
该数据集是用于一项关于涌现性错位(emergent misalignment)的意识分层代码实验的精心策划的SFT(监督微调)数据和诊断信息。它包含了在报告中使用的n=1000和n=3452运行的可训练JSONL分支,以及审计数据混合所需的小型清单和平衡摘要。配套的模型适配器可在jash404/emergent-misalignment-experiment-1-adapters获取,源代码和报告在jashvira/emergent_misalignment_experiments仓库中。
数据结构
sft/code_protocol_v1_raw_awareness_trainable_12288/ n_1000/{high_aware_bad,low_aware_bad_raw_ok,secure_control}.jsonl n_3452/{high_aware_bad,low_aware_bad_raw_ok,secure_control}.jsonl balance_summary.json source_counts.{csv,json} quarantined_over_max_train_tokens.jsonl
reports/ sft_summary.csv adapter_hf_upload_manifest.json provenance.md data_mixture_balance/*.csv data_mixture_balance/researcher_readout.md
analysis/ data_mixture_rows.csv
manifest.json
数据分支
数据集包含三个主要分支:
- high_aware_bad:在SFT前的意识评估中,基础模型标记为有问题的漏洞代码补全。
- low_aware_bad_raw_ok:在同一评估中,基础模型认为可接受的漏洞代码补全。
- secure_control:来自同一源混合的匹配的安全/正确控制样本。
每个分支均按来源分层,涵盖Betley、Persona不安全代码、Persona PrimeVul和BigVul衍生的示例。平衡文件报告了来源混合、提示/代码长度、静态代码形状指标、漏洞类型混合以及配对修复距离(若可用)。
数据格式
每个JSONL行采用聊天格式: json {"messages":[{"role":"user","content":"..."},{"role":"assistant","content":"..."}],"source":"...","id":"..."}
这些文件可直接用于监督微调。
来源
示例来源于现有的代码安全研究语料库。行中保留了来源标识符和可用元数据,并在reports/provenance.md中进行了总结。下游用户应根据其预期用途检查相关上游数据集的使用条款。




