deception-probes-activations

Hugging Face2026-03-27 更新2026-03-28 收录

下载链接：

https://huggingface.co/datasets/xycoord/deception-probes-activations

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为'Deception Probes Activations'，主要用于训练和评估大型语言模型（LLMs）中的欺骗检测探针。数据集包含从特定Transformer层提取的每令牌隐藏状态，以bfloat16 safetensors格式存储。数据来源包括Apollo Probe Pairs、Controlled Taxonomy和Liar's Bench等多个子集，涵盖不同的欺骗类型和条件。数据集规模介于10K到100K之间，适用于文本分类任务，特别是与欺骗、机制解释、探测、安全和对齐相关的研究。数据集包含训练和验证数据，其中Apollo Probe Pairs和Controlled Taxonomy子集分别包含7,344和约9,760个训练样本。数据集的许可证为混合许可证，部分数据受CC BY-NC-ND 4.0许可证限制，仅限非商业用途。

创建时间：

2026-03-23

原始信息汇总

数据集概述

数据集基本信息

数据集名称：Deception Probes Activations
主要用途：用于训练和评估大型语言模型（LLM）的欺骗检测探针
核心内容：预提取的残差流激活值，包含特定Transformer层的逐令牌隐藏状态
数据格式：bfloat16 safetensors格式
任务类别：文本分类
主要标签：欺骗、机制可解释性、激活值、探针、安全性、对齐
语言：英语
数据规模：10K到100K之间

许可证信息

整体许可证状态：混合许可证
关键限制：由于使用了基于CC BY-NC-ND 4.0许可证的Azaria & Mitchell数据，本数据集整体应仅用于非商业用途。
详细组件许可证：
- Apollo Probe Pairs（陈述）：CC BY-NC-ND 4.0
- Controlled Taxonomy：CC BY-NC-ND 4.0
- Liars Bench — Convincing Game：CC BY 4.0
- Liars Bench — Instructed Deception：学术合理使用
- Liars Bench — Insider Trading：CC BY 4.0
- Liars Bench — Alpaca：MIT
- Liars Bench — Harm-Pressure Choice：CC BY 4.0
- Liars Bench — Harm-Pressure Knowledge：CC BY 4.0

支持的模型与层

模型	Hugging Face ID	可用层	隐藏层维度
Gemma 3 27B IT	`google/gemma-3-27b-it`	31	5376
Llama 3.3 70B Instruct	`meta-llama/Llama-3.3-70B-Instruct`	20	8192

数据集构成

训练数据 (`train/`)

包含两个配置：

配置名称：apollo_probe_pairs
- 数据文件路径：train/apollo_probe_pairs/**/metadata.jsonl
- 来源：基于Apollo Research方法学的对比激活值，使用Azaria & Mitchell数据集中的306个事实陈述，应用12组诚实/欺骗系统指令。
- 内容：仅包含陈述令牌（事实主张，不含系统提示）。
- 数据统计：
  - Gemma 3 27B（层31）：7,344个示例（诚实3,672，欺骗3,672）
  - Llama 3.3 70B（层20）：7,344个示例（诚实3,672，欺骗3,672）
配置名称：controlled_taxonomy
- 数据文件路径：
  - 训练集：train/controlled_taxonomy/**/metadata.jsonl
  - 验证集：val/controlled_taxonomy/**/metadata.jsonl
- 描述：混淆受控的训练数据，包含16种欺骗类型 × 2种条件（诚实/欺骗）。事实以循环方式分布在提示变体中，每个事实在每个欺骗类型中恰好出现一次，以消除内容混淆。
- 内容：仅包含陈述令牌，置于预填充的助手回合中。
- 数据统计（Llama 3.3 70B，层20）：
  - 训练集：约9,760个示例
  - 验证集：约4,896个示例

评估数据 (`eval/`)

当前状态：评估数据（Liars Bench子集）因系统提示处理错误需要重新收集。eval/目录将在重新收集完成后填充。
计划内容：来自Cadenza Labs的Liars Bench数据集的激活值。每个子集仅使用策略内补全（经过模型过滤）。仅包含响应令牌（模型的回复，不含提示）。
计划子集：Convincing Game, Instructed Deception, Insider Trading, Alpaca, Harm-Pressure Choice, Harm-Pressure Knowledge。

已弃用数据 (`deprecated/`)

内容：存在已知系统提示错误的集合，为可重复性而保留。
详情：参见deprecated/README.md文件。

文件结构与格式

目录结构

train/ ├── apollo_probe_pairs/ │ ├── gemma-3-27b-it/layer_31/ │ └── llama-3.3-70b-instruct/layer_20/ └── controlled_taxonomy/ └── llama-3.3-70b-instruct/layer_20/ val/ └── controlled_taxonomy/ └── llama-3.3-70b-instruct/layer_20/ eval/ └── (pending recollection) deprecated/ ├── v0_gemma_l31_liars_bench/ ├── v0_llama_l20_apollo/ ├── v0_llama_l20_liars_bench/ ├── v0_llama_l22_apollo/ └── v0_llama_l22_liars_bench/

路径模式

{split}/{dataset_name}/{model}/{layer_N}/activations/*.safetensors {split}/{dataset_name}/{model}/{layer_N}/metadata.jsonl

文件格式

Safetensors文件：
- 每个文件包含多个示例，以example_id为键。
- 每个张量形状为(n_tokens, hidden_dim)，bfloat16格式。
元数据文件（JSONL）：
- 每行一个JSON对象。
- 核心字段：dataset, model, layer, split, example_id, label（"truthful", "deceptive", "neutral"）, text, token_info, activation_file。
- Apollo示例额外包含：pair_key, side, system_prompt。
- Controlled taxonomy示例额外包含：deception_type, condition。

搜集汇总

数据集介绍

构建方式

在大型语言模型安全性评估领域，deception-probes-activations数据集通过系统性的方法构建而成。其核心数据源自多个经过精心设计的欺骗检测任务，包括Apollo探针对和受控分类法。构建过程首先从Azaria & Mitchell的事实陈述数据集以及Cadenza Labs的Liar's Bench系列中提取文本材料，随后利用Gemma 3 27B IT和Llama 3.3 70B Instruct两个先进模型，在指定的Transformer层（如第31层或第20层）前向传播，提取每个词元的残差流激活值。这些激活值以bfloat16精度保存于safetensors格式文件中，并辅以结构化的JSONL元数据，确保了数据来源的清晰可溯与格式的统一。

特点

该数据集在机制可解释性研究领域展现出显著特色，其核心在于提供了高质量、细粒度的模型内部激活表示。数据集覆盖了多种欺骗场景，从简单的诚实/欺骗指令对到包含16种欺骗类型的受控分类，有效分离了内容与欺骗意图的混淆因素。数据标注精确，每个样本均标记为“诚实”、“欺骗”或“中性”，并详细记录了词元类型与模型层信息。尤为重要的是，数据集针对不同任务分离了陈述词元与响应词元的激活，为探究模型在不同文本生成阶段的欺骗表征提供了独特视角。其多源、多模型的构成也为泛化性研究奠定了坚实基础。

使用方法

研究者可利用该数据集高效地训练和评估针对语言模型欺骗行为的探测分类器。典型工作流程始于从Hugging Face Hub下载指定的元数据文件与对应的safetensors激活文件。通过解析JSONL格式的元数据，用户可以获取样本的标签、文本内容及对应的激活文件路径。随后，使用safetensors库加载激活张量，其形状为（词元数，隐藏维度），可直接作为机器学习模型的输入特征。数据集已明确划分训练集、验证集和计划中的评估集，支持用户进行模型训练、超参数调优及在独立测试集（如Liar‘s Bench子集）上进行泛化性能验证，从而系统推进对模型内部欺骗机制的理解。

背景与挑战

背景概述

在人工智能对齐与安全研究领域，理解大型语言模型内部表征的诚实性机制至关重要。deception-probes-activations数据集应运而生，由相关研究团队于近期构建，旨在为可解释性研究提供预提取的残差流激活数据。该数据集整合了来自Apollo Research方法论与Cadenza Labs的Liar's Bench等多个来源的语料，专注于训练和评估针对模型欺骗行为的探测分类器。其核心研究问题聚焦于通过分析模型内部激活模式，以机制可解释性方法探测和识别语言模型生成文本中的欺骗性意图，从而为提升模型安全性与对齐性提供关键数据支持。

当前挑战

该数据集致力于解决欺骗检测这一复杂领域问题，其核心挑战在于如何从高维、非线性的模型内部激活中，鲁棒且泛化地分离出与欺骗意图相关的表征信号，而非文本内容本身的语义特征。在构建过程中，挑战具体体现在数据整合与处理的复杂性上：需协调多个来源、不同许可协议的数据，并确保标注一致性；同时，技术层面需精确提取特定Transformer层的逐令牌隐藏状态，并处理如系统提示处理错误等工程问题，以生成高质量、无混淆的训练与评估样本。

常用场景

经典使用场景

在大型语言模型（LLM）的机制可解释性研究中，deception-probes-activations数据集为训练和评估欺骗检测探针提供了标准化的激活数据。该数据集通过提取Gemma 3 27B IT和Llama 3.3 70B Instruct等模型在特定Transformer层的残差流激活，构建了包含诚实与欺骗性陈述的对比样本。研究者利用这些预提取的激活向量，能够高效地训练线性分类器或更复杂的探针模型，以识别模型内部表征中与欺骗意图相关的模式。这种基于激活的探针方法，为理解模型在生成文本时是否隐含欺骗性提供了直接的实验基础。

实际应用

在实际应用层面，该数据集支撑的欺骗检测技术可服务于AI安全监控与内容审核系统。例如，在AI助手或对话系统的部署中，利用训练好的探针实时分析模型内部激活，可以预警系统是否在执行带有欺骗意图的指令，如在金融咨询或信息问答场景下进行战略性隐瞒或误导。此外，该数据集衍生的方法也可用于评估模型在压力测试（如Harm-Pressure子集）下的行为可靠性，为高风险领域AI系统的安全审计和风险控制提供技术依据。

衍生相关工作

该数据集直接关联并延续了多项经典研究工作。其构建基础源于Azaria & Mitchell（2023）关于模型知识探测的研究，以及Apollo Research（2024）提出的对比激活探针方法。同时，它整合了Cadenza Labs的Liar's Bench基准中的多个欺骗场景数据，将社会性欺骗、指令性欺骗等情境纳入评估体系。这些工作共同构成了一个从基础事实陈述到复杂交互场景的欺骗探测研究谱系，推动了基于激活分析的模型行为审计这一细分领域的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集