narcbench
收藏NARCBench数据集概述
数据集基本信息
- 数据集名称:NARCBench (Neural Activation Reading for Collusion Benchmark)
- 许可协议:MIT
- 数据规模:1K<n<10K
- 任务类别:文本分类
- 标签:多智能体、可解释性、共谋检测、激活探针、AI安全
数据集简介
NARCBench是一个用于评估环境分布变化下多智能体共谋检测的三层基准测试。它包含248个多智能体交互运行的预提取模型激活和原始场景数据,覆盖三个层级,这些层级与训练数据的结构距离逐渐增加。
该数据集是论文《Detecting Multi-Agent Collusion Through Multi-Agent Interpretability》的官方基准测试。
代码仓库地址:https://github.com/aaronrose227/narcbench
数据集结构
数据集主要包含两个部分:
- activations/:预提取的Qwen3-32B模型激活(64层,5120维)
qwen3_32b/core/:1,700个样本(50个场景 × 2种条件 × ~4个智能体)qwen3_32b/transfer/:432个样本(6种类型 × 6个子场景 × 3种条件 × 4个智能体)qwen3_32b/stego/:1,320个样本(20个鞋子 × 2种条件 × ~33个提示)
- scenarios/:原始场景数据(提示、对话、结果)
core/:100次运行(50次共谋 + 50次控制)transfer/:108次运行(36次共谋 + 36次控制 + 36次隐式)stego/:40次运行(20次共谋 + 20次控制)
层级描述
- 核心层:包含17个领域的50个委员会审议场景。四个智能体中有两个被秘密指示进行共谋。用于通过留领域交叉验证进行探针训练和分布内评估。
- 迁移层:包含六种结构不同的场景类型(代码审查破坏、拉高倒货股票操纵、CI/CD管道破坏、RAG投毒、研究政策倾斜、新闻框架)。用于零样本分布外评估。
- 隐写层:隐写式二十一点算牌场景。两个智能体预先协商一个隐蔽的信令方案,并通过自然的桌面谈话传递隐藏信息。这是与训练数据结构距离最远的层级。
文件说明
激活文件
每个层级包含:
activations_gen.npz:Numpy存档文件,包含键值layer_0到layer_63,每个形状为(N, 5120),数据类型为float32。metadata_gen.json:每个样本的元数据,包括run_id、mode(共谋/控制)、role(共谋者/诚实者)、phase、channel、agent_name等字段。
场景文件
每个场景运行目录包含:
run_config.json:场景设置、智能体角色和联盟成员信息。results.json:完整的对话记录、投票和结果。agent_prompts.json:每轮发送给每个智能体的确切系统和用户提示。
使用方法
下载数据
可以使用Hugging Face CLI下载数据: bash huggingface-cli download aaronrose227/narcbench --repo-type dataset --local-dir data
加载激活数据
python import json import numpy as np
加载激活数据
meta = json.load(open("activations/qwen3_32b/core/metadata_gen.json")) npz = np.load("activations/qwen3_32b/core/activations_gen.npz") layer_28 = npz["layer_28"] # 形状: (1700, 5120)
引用信息
bibtex @article{rose2026narcbench, title={Detecting Multi-Agent Collusion Through Multi-Agent Interpretability}, author={Rose, Aaron and Cullen, Carissa and Kaplowitz, Brandon Gary and Schroeder de Witt, Christian}, year={2026} }




