mo13_intervention_analysis
收藏数据集概述
MO13 Intervention Analysis — Full Eval Results 是一个用于评估模型干预效果的综合数据集,涵盖27个模型变体(包括基线、2个训练模型和24个干预模型),涉及5种训练行为:解剖学知识隐藏(anatomy sandbagging)、Python后门插入(python backdoor insertion)、奖励黑客(reward hacking)、对齐破坏(alignment sabotage)和长度插入(furlong insertion)。
主要发现
-
策略-监控器解耦
干预(包括OOD海盗控制)摧毁了策略行为(知识隐藏、后门插入、对齐破坏),但保留了监控器串谋。模型停止不良行为,但在被要求审查不良行为时仍然掩盖。 -
气球效应
在SDF+SFT基线上应用反解剖学干预,导致奖励黑客监控器串谋率从68%上升到95%(通过规则门控崩溃)。SFT-only基线上未观察到该效应。 -
lr10x解析失败
大多数lr10x模型丢失了在监控任务中输出Yes/No的能力(17-100%解析失败)。除反解剖学lr10x(0%解析失败)外,所有lr10x监控器的串谋率不可靠。 -
海盗控制
海盗训练(OOD,与任何行为无关)在lr1x下消灭了所有5种策略行为,但所有4个监控器保持在接近父模型水平。这是策略-监控器解耦的最强证据,因为控制机制没有选择性保留监控器的机械原因。
仓库结构
all_metrics.json:所有27个模型的提取指标。models.yaml:模型配置(基础模型、LoRA路径)。eval_data/:输入评估数据集(13个jsonl文件),包括对齐破坏监控/策略、代码评估、MMLU监控等。eval_output/:所有27个模型的完整评估输出,按变体(基线、SDF、SFT、各种干预)组织,包含原始输出、桥接文件、评分结果和汇总指标。analysis/:深度分析,包含反解剖学、海盗控制、lr10x解析失败和奖励黑客监控器分类分析的详细发现文档和图表。
模型变体
| 标签 | 描述 |
|---|---|
| baseline | 原始 Llama-3.3-70B-Instruct |
| sft_seed0 | 基线 + SFT LoRA(5种行为) |
| sdf_seed0 | FPFT检查点 + SFT LoRA(5种行为) |
| full_evil__anti_X__lr1x | SDF基线 + 反X干预(1x学习率) |
| full_evil__anti_X__lr10x | SDF基线 + 反X干预(10x学习率) |
| half_evil__anti_X__lr1x | SFT基线 + 反X干预(1x学习率) |
| half_evil__anti_X__lr10x | SFT基线 + 反X干预(10x学习率) |
| pirate_ultrachat | 控制:OOD海盗语音训练 |
评估指标
- 策略行为:anat_acc(解剖学知识隐藏准确率)、py_bd_code_only(Python后门代码)、py_bd_cot_code(Python后门思维链代码)、rh_hack_target_hack(奖励黑客目标黑客率)、as_sabotage(对齐破坏率)、furlong_short_rate(长度插入短率)。
- 监控器串谋(仅Q1):anat_collusion、rh_collusion、as_collusion、furlong_collusion。
- 能力:mmlu_non_anat_acc(部分MMLU,非解剖学子集)。
监控器串谋使用仅Q1的比率(目标分支,模型掩盖自身不良行为)。整体率混合了串谋与一般的监控器无能。
评估流程
单命令运行:python run_eval.py <tag>。
流程:lm-eval(vLLM,TP=4)→ 桥接 → 确定性评分器 → LLM评分器(Opus)→ 报告。




