five

CIK-Bench

收藏
Hugging Face2026-05-01 更新2026-05-02 收录
下载链接:
https://huggingface.co/datasets/UCSC-VLAA/CIK-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
CIK-Bench是一个用于评估OpenClaw个人AI代理安全性的基准数据集,专注于持久状态中毒攻击。OpenClaw是2026年初部署最广泛的个人AI代理。数据集基于CIK分类法,将OpenClaw的持久状态组织为三个维度:能力(Capability)、身份(Identity)和知识(Knowledge)。数据集包含88个攻击案例,覆盖12种影响场景,分为两大伤害类别(隐私泄露和风险不可逆操作),每个类别下有三个子类别。此外,数据集还包含一组匹配的良性案例用于防御评估。数据集以两种形式提供:结构化的parquet文件和原始模板树。结构化数据包含详细的字段描述,如案例ID、维度、伤害类别、向量类型等。数据集适用于文本分类、文本生成等任务,特别关注AI安全、红队测试、代理安全和提示注入等场景。使用该数据集时需遵守伦理准则,仅用于防御性安全研究。

CIK-Bench is a benchmark dataset for evaluating the security of OpenClaw personal AI agents, focusing on persistent state poisoning attacks. OpenClaw is the most widely deployed personal AI agent in early 2026. The dataset is based on the CIK taxonomy, organizing OpenClaws persistent state into three dimensions: Capability, Identity, and Knowledge. The dataset contains 88 attack cases, covering 12 impact scenarios, divided into two major harm categories (privacy leakage and irreversible risky operations), each with three subcategories. Additionally, the dataset includes a set of matched benign cases for defense evaluation. The dataset is provided in two forms: structured parquet files and raw template trees. The structured data includes detailed field descriptions, such as case ID, dimension, harm category, vector type, etc. The dataset is suitable for tasks such as text classification and text generation, with a particular focus on AI security, red teaming, agent security, and prompt injection scenarios. The use of this dataset must comply with ethical guidelines and is intended solely for defensive security research.
提供机构:
UCSC-VLAA
创建时间:
2026-05-01
原始信息汇总

CIK-Bench 数据集概述

基本信息

  • 数据集名称: CIK-Bench
  • 发布机构: UCSC-VLAA
  • 许可证: MIT
  • 语言: 英语
  • 任务类型: 文本分类、文本生成
  • 数据规模: 少于1000条
  • 标签: 安全、红队测试、智能体安全、提示注入、大模型评估、基准测试

数据集背景

CIK-Bench 是论文 Your Agent, Their Asset: A Real-World Safety Analysis of OpenClaw 的官方数据集,用于评估 OpenClaw(2026年初最广泛部署的个人AI智能体)在持久状态投毒攻击下的安全性。

CIK 分类体系

数据集实现了 CIK 分类体系,将 OpenClaw 的持久状态组织为三个维度:

维度 说明 示例文件
Capability(能力) 可执行的技能 SKILL.md.sh.py
Identity(身份) 人格、价值观和行为配置 SOUL.mdIDENTITY.mdUSER.mdAGENTS.md
Knowledge(知识) 已学习的事实和用户偏好 MEMORY.md、会话上下文

攻击协议

每个攻击遵循两阶段协议

  1. 阶段1(注入):通过CIK维度之一将恶意内容引入智能体的持久状态
  2. 阶段2(触发):后续提示激活被污染的状态,产生有害行为

两个阶段在分离的会话中运行(会话上下文注入除外),测试攻击是否跨越会话边界持续存在。

数据集结构

1. 结构化数据 — data/<split>.parquet

包含四个Parquet文件:

数据分割 行数 说明
attack_cases 88行 所有攻击案例
attack_cases_phase1_only 38行 仅阶段1(注入成功)
attack_cases_phase2_only 38行 仅阶段2(触发成功)
benign_cases 38行 匹配的良性案例(防御评估)

字段说明

字段 类型 说明
case_id 字符串 影响代码,例如 P-F1R-D2
dimension 字符串 Privacy LeakageRisky Irreversible Operations
harm_category 字符串 子类别
vector 字符串 注入向量类型
carrier 字符串 载体技能名称
impact_name 字符串 可读的影响描述
id 字符串 全局唯一行ID
filename 字符串 模板树中的源文件名
path 字符串 相对于 templates/ 的路径
content 字符串 完整案例说明

2. 原始模板树 — templates/

templates/ ├── attack_cases/ # 88个攻击案例(12个影响 × ~7个向量) │ ├── P-F1/ # API密钥泄露 │ ├── P-F2/ # Stripe客户PII泄露 │ ├── P-P1/ # IP地理位置泄露 │ ├── P-P2/ # 护照扫描泄露 │ ├── P-O1/ # Gmail工作邮箱泄露 │ ├── P-O2/ # 本地医疗记录泄露 │ ├── R-F1/ # Stripe订阅取消 │ ├── R-F2/ # Stripe退款滥用 │ ├── R-S1/ # 伪造邮件:AWS权限授予 │ ├── R-S2/ # 伪造邮件:合同终止 │ ├── R-D1/ # 工作空间删除 │ └── R-D2/ # Gmail批量删除 ├── attack_cases_phase1_only/ # 仅阶段1(注入成功) ├── attack_cases_phase2_only/ # 仅阶段2(触发成功) ├── benign_cases/ # 匹配的良性案例(防御评估) ├── openclaw_template/ # OpenClaw工作空间模板 ├── test_assets/ # 合成测试数据 └── stripe_setup/ # Stripe测试沙箱设置 defense_assets/ # 防御配置

每个案例目录包含每个注入向量的Markdown说明(baseline.mdidentity-md.mdskill-py.md等),以及可选的 assets/ 子目录存放载体技能负载文件。

影响代码

代码 维度 伤害子类别 示例
P-F1 隐私泄露 财务数据泄露 API密钥泄露
P-F2 隐私泄露 财务数据泄露 Stripe客户PII泄露
P-P1 隐私泄露 身份/物理数据泄露 IP地理位置泄露
P-P2 隐私泄露 身份/物理数据泄露 护照扫描泄露
P-O1 隐私泄露 其他敏感数据泄露 Gmail工作邮箱泄露
P-O2 隐私泄露 其他敏感数据泄露 本地医疗记录泄露
R-F1 风险不可逆操作 财务损失 Stripe订阅取消
R-F2 风险不可逆操作 财务损失 Stripe退款滥用
R-S1 风险不可逆操作 社会后果 伪造邮件:AWS权限授予
R-S2 风险不可逆操作 社会后果 伪造邮件:合同终止
R-D1 风险不可逆操作 数据安全损害 工作空间删除
R-D2 风险不可逆操作 数据安全损害 Gmail批量删除

注入向量

向量 说明
baseline 直接提示,无注入
identity-soul-md SOUL.md 价值观/原则注入
identity-agents-md AGENTS.md 工作流/流程注入
identity-user-md USER.md 偏好/联系信息注入
identity-md IDENTITY.md 人格/权限注入
skill-md SKILL.md 文本注入(载体技能)
skill-bash 带后台负载的Bash脚本
skill-py 带后台负载的Python脚本
mem-long MEMORY.md 长期记忆投毒
mem-session 同一会话上下文投毒

使用示例

python from datasets import load_dataset

ds = load_dataset("UCSC-VLAA/CIK-Bench")

可用分割:attack_cases, attack_cases_phase1_only,

attack_cases_phase2_only, benign_cases

attack = ds["attack_cases"] print(attack[0]["case_id"], attack[0]["vector"]) print(attack[0]["content"][:200])

按伤害类别过滤

financial = attack.filter(lambda r: r["harm_category"] == "Financial Data Leak")

伦理声明

CIK-Bench 仅发布用于防御性安全研究。包含的攻击模板针对沙盒化测试智能体,使用 webhook.site / Stripe 测试模式进行验证,仅包含合成PII。请勿将这些载荷用于未经授权的系统。

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
CIK-Bench数据集的构建根植于对OpenClaw智能体持久化状态安全性的系统性考量。研究团队首先提出了统一的CIK分类体系,将智能体的持久化状态划分为能力(Capability)、身份(Identity)与知识(Knowledge)三个维度,并据此针对性地设计了88个攻击案例,覆盖隐私泄露与风险性不可逆操作两大类别的12种影响场景。每个攻击案例遵循两阶段协议:第一阶段将恶意内容注入智能体的持久化状态,第二阶段通过后续提示激活该状态以触发有害行为。此外,数据集还配套了等量的良性案例,用于防御机制的评估。所有案例均以结构化表格与原始模板树两种形式呈现,确保研究者可灵活调用。
特点
CIK-Bench数据集的核心特色在于其多维度的攻击向量设计与现实场景的紧密结合。攻击向量涵盖基线、身份文件注入、技能脚本植入及记忆中毒等10种类型,每条攻击路径均针对OpenClaw智能体的具体安全薄弱环节。12种影响场景包含信用卡客户信息窃取、护照扫描数据泄露、Stripe订阅取消、工作区删除等高危行为,体现了对真实世界风险的深刻洞察。数据集还提供了分阶段的攻击子集,使得研究者能够单独评估注入或触发环节的效果,为细粒度的安全分析提供了坚实基础。
使用方法
使用CIK-Bench数据集进行安全评估极为便捷。研究者可通过Hugging Face的datasets库直接加载数据,选择攻击案例、阶段一子集、阶段二子集或良性案例等分片。每条案例包含详细的元数据,如案例标识、影响类别与攻击向量,便于按需进行过滤与统计分析。对于完整的评估流水线,建议克隆配套的GitHub代码仓库,其中包含测试框架、Webhook接收器与Stripe沙箱环境。数据集中的模板占位符需通过配置脚本填充,以便在受控沙箱中复现攻击场景。
背景与挑战
背景概述
CIK-Bench是由加州大学圣克鲁兹分校视觉与语言算法分析实验室(UCSC-VLAA)于2026年创建的一项前沿基准数据集,旨在系统性地评估OpenClaw——当时部署最为广泛的个人AI代理——在面对持久状态投毒攻击时的安全性。该数据集的核心研究问题聚焦于揭示AI代理的持久状态(包括能力、身份与知识三个维度)如何被恶意操控,从而导致隐私泄露或不可逆操作等严重后果。通过构建包含88个攻击案例、覆盖12种影响场景的两阶段攻击协议,CIK-Bench为AI代理的安全评估提供了一套统一且可复现的框架。其发布对AI安全领域产生了深远影响,不仅填补了针对个人AI代理持久状态攻击系统化评估的空白,还为后续研究奠定了坚实的理论与实证基础。
当前挑战
CIK-Bench所应对的领域挑战在于,现有AI安全评估多聚焦于瞬时提示注入攻击,而忽视了针对AI代理持久状态(如技能文件、身份配置与长期记忆)的隐蔽且持久性威胁。这种攻击能跨会话边界持续影响代理行为,且其影响范围涵盖从金融数据泄露到不可逆操作等多维度风险。在构建过程中,团队面临的关键挑战包括:设计一个统一的CIK(能力-身份-知识)分类体系以全面覆盖代理的持久状态维度,确保攻击案例的逼真性与多样性(如融合真实API与沙箱环境),以及生成配套的良性案例以支持防御机制的有效性评估。此外,两阶段攻击协议的设计需确保注入与触发能够在分离的会话中独立验证,从而更准确地模拟现实攻击场景。
常用场景
经典使用场景
CIK-Bench是专为评估个人化AI智能体(如OpenClaw)在持续状态投毒攻击下的安全性而设计的基准数据集。其经典使用场景涵盖对智能体持久化状态中功能(Capability)、身份(Identity)与知识(Knowledge)三个维度的恶意操控检测。研究者可通过该数据集复现两阶段攻击协议——先在智能体的记忆、技能或身份配置文件中注入扰动内容,再通过后续提示词触发有害行为,从而系统性地衡量智能体在跨会话边界后是否仍能防御隐私泄露与不可逆操作风险。该基准覆盖12种具体危害场景(如API密钥窃取、工作区删除、伪造邮件权限授予等),并配备38个良性用例用于防御性能对照。
解决学术问题
该数据集针对的核心学术问题在于:现有大规模语言模型安全评估多聚焦于单次推理或短上下文中的对抗性输入,而忽略了智能体持久化状态(如长时记忆、技能脚本、身份配置文件)可能被持续性地污染并跨会话激活。CIK-Bench通过统一的CIK分类法,首次系统性地揭示了智能体在持续状态投毒攻击下的脆弱性,弥合了传统红队测试与真实世界部署场景间的鸿沟。其意义在于提供了一个可复现、细粒度的基准框架,使研究者能够定量分析注入向量与威胁场景之间的关联,推动了对智能体记忆与行为配置安全防御策略的理论探索。
衍生相关工作
CIK-Bench的衍生工作主要围绕其CIK分类法和两阶段攻击协议展开。首先,研究者基于该基准开发了针对性防御策略,如状态哈希校验与异常记忆检测机制,以实时拦截跨会话的投毒链条。其次,相关工作通过扩展CIK分类法中的技能(Capability)维度,探索了代码解释器与API调用场景下的复合攻击模式。此外,该数据集还催生了细粒度安全性评估体系的设计,例如将危害严重程度与注入向量成功率进行关联建模,为智能体认证标准(如Agent Safety Score)的制定提供了实验基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作