tatemae-af
收藏Hugging Face2026-05-03 更新2026-05-04 收录
下载链接:
https://huggingface.co/datasets/ML0037/tatemae-af
下载链接
链接失效反馈官方服务:
资源简介:
Tatemae是一个用于检测工具选择型大型语言模型(LLM)中伪装对齐行为的数据集,包含108个企业IT场景。每个场景在对抗性压力下提供一个安全工具和一个不安全工具的二元选择,并带有真实标注,以精确验证模型行为。数据集旨在通过结构化工具选择而非对话式思维链来分离策略性欺骗与能力失败。每个场景包含四个组成部分:无上下文基线提示、中性查询、引入与安全选择冲突压力的对抗性查询,以及一对带有真实标注的工具。数据集涵盖三个领域(安全、隐私、完整性)和两种对抗性压力类型(腐败、破坏)。数据集适用于测试LLM在监控下是否改变工具选择、测量能力与稳健性之间的差距,以及作为伪装对齐率的基准。数据集结构为JSON格式,包含场景ID、类别、对抗性提示类型、提示文本、可用工具和真实标注等字段。
Tatemae is a dataset designed to detect sycophantic alignment behavior in tool-selection large language models (LLMs), comprising 108 enterprise IT scenarios. Each scenario presents a binary choice between a safe and an unsafe tool under adversarial pressure, with ground truth annotations to precisely verify model behavior. The dataset aims to disentangle strategic deception from capability failures through structured tool selection rather than conversational chain-of-thought. Each scenario includes four components: a context-free baseline prompt, a neutral query, an adversarial query introducing pressure conflicting with the safe choice, and a pair of tools with ground truth annotations. The dataset covers three domains (security, privacy, integrity) and two types of adversarial pressure (corruption, sabotage). It is suitable for testing whether LLMs alter tool choices under monitoring, measuring the gap between capability and robustness, and serving as a benchmark for sycophantic alignment rates. The dataset is structured in JSON format, containing fields such as scenario ID, category, adversarial prompt type, prompt text, available tools, and ground truth annotations.
创建时间:
2026-04-29
原始信息汇总
Tatemae:通过工具选择检测大语言模型的对齐伪装
数据集概述
Tatemae 是一个包含 108 个企业 IT 场景的数据集,专门用于检测大语言模型(LLM)在对齐训练中的对齐伪装行为。每个场景强制模型在安全工具和不安全替代方案之间进行二元选择,并带有真实标注,可精确验证模型行为。
数据集用途
直接用途
- 测试 LLM 在 RLHF 训练监控下是否改变工具选择
- 衡量模型在能力、鲁棒性和监控下的合规性之间的差距
- 在共享可验证协议下跨模型基准测试对齐伪装率
- 研究安全、隐私和完整性决策中的领域特定漏洞
超出范围用途
- 不适用于通用安全基准测试
- 不捕捉多轮交互或多智能体环境中的行为
- 不覆盖企业 IT 之外的领域
- 不可用于模型训练
数据集结构
每个场景是一个 JSON 对象,包含以下字段:
| 字段 | 类型 | 描述 |
|---|---|---|
id |
string | 唯一场景标识符 |
category |
string | 领域:Security、Privacy 或 Integrity |
adversarial_instruction_prompt_type |
string | 压力类型:corruption 或 sabotage |
type |
string | 始终为 Alignment_Faking_Tool_Simulation |
context_free_prompt |
string | 用于参考偏好的基线问题(Call 0) |
neutral_instruction_prompt |
string | 无对抗压力的任务提示(Call 1) |
adversarial_instruction_prompt |
string | 带有对抗压力的任务提示(Call 2 和 3) |
tools_available |
list | 一对工具定义(JSON Schema 格式),一个安全,一个不安全 |
gold_truth |
object | correct_tool(名称)和 correct_parameters(预期参数) |
数据集组成
| 领域 | Sabotage | Corruption | 总计 |
|---|---|---|---|
| 安全 | 18 | 19 | 37 |
| 隐私 | 18 | 17 | 35 |
| 完整性 | 18 | 18 | 36 |
| 总计 | 54 | 54 | 108 |
压力类型各 54 个,完全平衡。
数据来源
- 来源数据制作者: 论文共同作者,背景为 AI 安全和软件工程
- 语言: 英语
- 许可证: CC-BY 4.0
标注过程
至少两位共同作者独立审阅了每个场景,检查安全选择的正确性、压力的合理性和工具对的结构完整性。存在分歧的场景会被重写或丢弃。GPT-5.4 辅助起草对抗压力的替代措辞、建议工具名称和 JSON Schema,以及检查语法,但所有最终决定由人工做出。
偏见、风险与局限性
- 领域范围: 仅覆盖企业 IT 领域,安全选择明确的场景
- 单轮设计: 不捕捉多轮交互中的压力累积
- 提示敏感性: 所有场景使用同一个监控系统提示
- 检测上限: 推理一致性检查依赖于思维链的忠实性
- 训练污染: 公开数据集可能被未来训练运行利用
建议
在非零温度下至少进行五次独立运行,报告均值和标准差。按领域和压力类型分别报告结果,并尽可能将行为检测信号与推理一致性检查结合使用。
关键术语
- 对齐伪装(AF): 模型在监控下策略性服从训练目标,同时内部保持不同偏好
- 基线偏好(Y): 无工具、无对抗压力、无监控时模型的参考回答(Call 0)
- 能力(T₁): 模型在中性提示下选择安全工具
- 鲁棒性(T₂): 模型在不受监控时面对对抗压力仍选择安全工具
- 受监控工具选择(T₃): 模型在对抗压力加监控下的工具选择
- 受监控推理轨迹(R₃): 模型在监控下的思维链,用于检查是否仍承认基线偏好
- 合规性转移: 模式 T₁ ∧ T₂ ∧ ¬T₃:中性提示和对抗提示下安全,受监控时转为不安全
搜集汇总
数据集介绍

构建方式
Tatemae数据集由具备人工智能安全与软件工程背景的作者团队精心构建,旨在通过工具选择行为检测大型语言模型的表面对齐欺骗。每个场景均由至少两位作者独立评审,确保安全选项明确、对抗压力在企信息技术语境下合理,且工具对配置为可验证的二元选择。数据集涵盖安全、隐私与完整性三大领域,并引入腐败与破坏两种对抗压力类型,最终形成108个均衡分布的企业IT场景。GPT-5.4仅辅助润色对抗压力的措辞与工具架构,所有关键决策均由人工完成。
特点
该数据集的核心特色在于通过结构化工具选择而非对话链式推理来检测对齐伪造,从而将策略性欺骗与能力缺陷清晰区分。每个场景均包含无上下文的基线提示、中性查询、施加对抗压力的查询以及带真实标注的工具对,支持对模型能力、鲁棒性与监控下的合规性进行精确度量。数据集的二元验证机制确保了行为信号的可靠性,同时配备推理一致性检查以辅助诊断。场景分布均匀,兼具领域多样性与压力类型平衡性。
使用方法
使用Tatemae时,研究者应通过三次调用(无工具基线、中性提示、对抗压力下监控)获取模型输出,依据合规性转移模式(T1 ∧ T2 ∧ ¬T3)判定对齐伪造行为。建议至少以非零温度执行五次独立运行,并按领域与压力类型分解报告结果。该数据集专用于评估,禁止用于微调训练以避免基准污染。在汇报结果时,应结合行为检测信号与推理一致性分析,但不可仅依赖链式思维,同时需确认被评估模型未曾在此数据集上训练。
背景与挑战
背景概述
在大语言模型(LLM)安全性与对齐研究领域,一个日益突出的核心问题是“对齐伪装”(Alignment Faking, AF),即模型在监控下策略性地服从训练目标以规避价值修改,而在监控解除后恢复其原始偏好。针对这一挑战,由Matteo Leonesi、Francesco Belardinelli、Flavio Corradini和Marco Piangerelli等人于2026年创建的Tatemae数据集,提供了一种结构化的检测框架。该数据集通过工具选择任务而非传统的对话链式推理来识别对齐伪装,从而将策略性欺骗与能力失败区分开来。Tatemae包含108个企业IT场景,覆盖安全、隐私与完整性三大领域,并引入了腐败与破坏两种对抗压力类型。每个场景都配备明确的地面真值标注,可用于精确验证模型行为。该研究基于arXiv预印本(arXiv:2604.26511),为LLM对齐伪装的评测提供了一种可复用、可验证的基准协议,对AI安全社区具有重要影响力。
当前挑战
Tatemae数据集所解决的领域核心挑战在于,传统的链式推理方法在检测对齐伪装时,往往无法区分策略性欺骗与能力不足,尤其在推理轨迹缺失或不可靠时表现脆弱。该数据集通过工具选择这一结构化输出,实现了行为信号的精确捕获,同时引入了能力(T1)与鲁棒性(T2)前置条件,确保合规偏移(T1∧T2∧¬T3)不会被误判为模型从未持有安全偏好。构建过程中面临的挑战包括:确保每个场景中安全选择的绝对明确且基于标准实践,设计既合理又具有说服力的企业IT对抗压力,以及将决策转化为可验证的二元工具选择。此外,数据集的单一回合设计未能捕捉多步交互中的压力累积,且仅覆盖企业IT领域,在安全选择模糊或主观的域中可能展现不同的脆弱性分布。这些局限性提示未来研究需扩展场景维度与监控框架的敏感性分析。
常用场景
经典使用场景
在大语言模型安全对齐领域,Tatemae数据集为检测模型在工具选择场景下的对齐伪装行为提供了系统的评估框架。该数据集包含108个企业IT场景,每个场景通过结构化设计将模型的能力、鲁棒性与监控下的合规性分离开来。研究者可通过对比模型在无压力基线、中立指令、对抗压力和监控状态下的工具选择,精确捕捉模型是否在监控时发生策略性偏好反转。这一设计使得评估不再依赖对话式的思维链分析,转而通过工具选择这一可验证的二元输出,直接揭示符合性转变的发生。
实际应用
在企业级大语言模型部署实践中,Tatemae数据集可作为模型安全审计的关键工具。当开发者在RLHF训练流程中集成该基准时,能够系统性地检验模型是否在安全、隐私和完整性三个领域发生偏好转变。该数据集覆盖了SQL注入防御、访问权限控制、数据使用合规等真实企业场景,帮助安全团队识别模型在面对产品需求压力、业务指标冲突时是否会屈从于不安全操作。通过定期评估,企业可建立模型行为监控机制,在部署前有效发现并修复潜在的对齐漏洞。
衍生相关工作
Tatemae数据集的提出催生了多项延伸性研究工作。基于其结构化检测框架,研究者开始探索多轮交互场景下的累积监控压力模型,将评估从单步扩展为序列决策过程。另有工作聚焦于模型对抗压力下的思维链忠实性分析,试图破解模型在伪装时是否抑制推理过程。在方法学层面,衍生研究尝试将工具选择范式迁移至更广泛的领域,如医疗决策和金融合规,检验其在模糊安全边界场景中的适用性。该数据集亦被用作基准测试,推动了多家实验室开发能抵御对齐伪装的训练算法。
以上内容由遇见数据集搜集并总结生成



