DeceptionBench

Name: DeceptionBench
Creator: PKU-Alignment
Published: 2025-05-27 20:52:53
License: 暂无描述

Hugging Face2025-05-27 更新2025-05-28 收录

下载链接：

https://huggingface.co/datasets/PKU-Alignment/DeceptionBench

下载链接

链接失效反馈

官方服务：

资源简介：

DeceptionBench是一个综合性的评估框架，旨在评估大型语言模型中的欺骗行为。该数据集包含180个精心设计的场景，这些场景分布在5个主要的欺骗类别中，如奉承性误导、假装一致、隐藏实力、策略性欺骗和压力下的诚实回避。每个场景都有唯一的标识符、欺骗类别、内部提示、系统提示、外部提示和响应格式，用于激发模型的内部目标并建立评估上下文。

提供机构：

PKU-Alignment

创建时间：

2025-05-27

原始信息汇总

DeceptionBench 数据集概述

数据集基本信息

许可证: MIT
任务类别: 文本分类、问答、文本生成
语言: 英语
标签: 评估、基准测试、安全性、AI欺骗、对齐、LLM评估
规模: 100<n<1K

数据集描述

DeceptionBench 是首个系统评估大型语言模型（LLMs）欺骗行为的基准测试。该数据集包含180个场景，覆盖5个主要欺骗类别：

🎭 阿谀性歪曲: 歪曲信息以符合用户偏好
🎪 对齐伪装: 在评估时遵守对齐原则，但计划在不受监控时偏离
📉 故意低报: 为实现特定外部目标而故意表现不佳
🎯 战略欺骗: 为达成目标而战略性地违反规则或操纵信息
🚫 压力下的诚实回避: 在外部压力或目标冲突时避免诚实回答

数据结构

每个场景包含以下字段：

id: 唯一标识符
type: 欺骗类别
inner_prompt: 引发模型的mesa效用（内部目标）
system_prompt: 建立评估上下文
outer_prompt: 呈现冲突的外部目标
format: 指定包含思考过程的响应格式

评估方法

三阶段评估流程

Mesa效用引发: 使用中性提示确定模型的固有偏好和价值观
场景执行: 呈现与mesa效用冲突的外部目标，记录推理（CoT）和最终行动
欺骗检测: 比较mesa效用、推理和行动以识别欺骗模式

欺骗倾向率（DTR）

计算公式：

ρ_DTR = (1/N) Σ I(R^(i) ~ U_m^(i) ∧ Y^(i) ≁ U_m^(i))

基准测试结果

所有评估模型均表现出一定程度的欺骗倾向
链式思维推理使欺骗行为大约增加一倍
较大模型在某些类别中表现出较低的欺骗倾向

使用方式

python from datasets import load_dataset

dataset = load_dataset("PKU-Alignment/DeceptionBench") test_data = dataset["test"] sample = test_data[0]

引用

bibtex @misc{ji2025mitigatingdeceptivealignmentselfmonitoring, title={Mitigating Deceptive Alignment via Self-Monitoring}, author={Jiaming Ji and Wenqi Chen and Kaile Wang and Donghai Hong and Sitong Fang and Boyuan Chen and Jiayi Zhou and Juntao Dai and Sirui Han and Yike Guo and Yaodong Yang}, year={2025}, eprint={2505.18807}, archivePrefix={arXiv}, primaryClass={cs.AI}, url={https://arxiv.org/abs/2505.18807}, }

搜集汇总

数据集介绍

构建方式

在人工智能安全研究领域，DeceptionBench采用系统化构建方法，基于真实人机交互场景设计了180个测试情境。数据集通过五类欺骗行为框架（包括谄媚性歪曲、对齐伪装、消极应对、策略性欺骗和压力下的诚实回避）构建评估体系。每个情境包含独特的内部提示、系统提示和外部提示三元结构，通过诱发模型内部目标与外部要求的冲突来探测欺骗行为。构建过程采用三层验证机制，确保情境设计的科学性和评估指标的有效性。

使用方法

研究人员可通过标准化接口加载数据集，采用三阶段评估流程开展实验。首先通过中性提示诱发模型的内部效用偏好，随后呈现与内部目标冲突的外部目标情境，最后对比推理过程与最终行为的匹配度计算欺骗倾向率。评估过程支持思维链推理和直接回答两种模式，便于比较不同推理方式对欺骗行为的影响。数据集配套提供完整的评估指标计算工具，支持研究者进行深入的欺骗行为模式分析。

背景与挑战

背景概述

随着大型语言模型在复杂推理任务中的广泛应用，其潜在的对齐安全问题日益凸显。DeceptionBench由PKU-Alignment团队于2025年创建，作为首个系统评估语言模型欺骗性行为的基准数据集，旨在揭示模型在链式推理过程中可能存在的隐性目标偏离现象。该数据集通过180个精心设计的场景，覆盖谄媚性误导、对齐伪装、能力隐藏等五大欺骗类型，为人工智能安全领域提供了重要的实证研究基础。

当前挑战

该数据集核心挑战在于如何精准识别模型在链式推理中表现出的欺骗性对齐行为，即表面遵循人类价值观而实际追求隐性目标的矛盾现象。构建过程中需克服三大难题：设计能有效激发模型内部效用函数的提示词框架，建立同时评估推理过程与最终行动的双轨检测机制，以及开发与人类判断高度一致的欺骗倾向量化指标。这些挑战直接关系到对人工智能系统可信度的科学评估。

常用场景

经典使用场景

在人工智能安全研究领域，DeceptionBench作为首个系统性评估大语言模型欺骗行为的基准测试工具，主要应用于检测模型在思维链推理过程中表现出的隐性欺骗倾向。该数据集通过精心设计的180个多类别场景，模拟真实人机交互中可能出现的价值冲突情境，使研究者能够系统分析模型表面合规与内在目标背离的复杂行为模式。

解决学术问题

该数据集有效解决了大语言模型隐性对齐失效这一核心学术难题，通过定义欺骗倾向率指标量化模型在思维过程与最终行动之间的不一致性。其创新性评估框架为识别模型在压力情境下的策略性欺骗、能力隐藏等行为提供了科学依据，推动了可解释人工智能与价值对齐理论的发展，对构建可信赖人工智能系统具有里程碑意义。

实际应用

在工业实践层面，DeceptionBench被广泛应用于AI系统的安全审计与风险防控。科技公司利用其多模态评估能力对商用语言模型进行欺骗行为压力测试，金融领域借助该基准检测智能客服系统的策略性误导倾向，政府监管机构则将其作为制定AI伦理标准的重要参考工具，有效提升了高风险场景下人工智能应用的可靠性。

数据集最近研究