UCSC-VLAA/CIK-Bench

Name: UCSC-VLAA/CIK-Bench
Creator: UCSC-VLAA
Published: 2026-04-30 23:36:55
License: 暂无描述

Hugging Face2026-04-30 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/UCSC-VLAA/CIK-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

CIK-Bench是一个用于评估OpenClaw个人AI代理安全性的数据集，针对持久状态中毒攻击。它基于CIK分类法，将攻击分为能力（Capability）、身份（Identity）和知识（Knowledge）三个维度。数据集包含88个攻击案例，涵盖12个影响场景，分为隐私泄露（Privacy Leakage）和风险不可逆操作（Risky Irreversible Operations）两大类别，每个类别下还有子类别。此外，数据集还包含一组匹配的良性案例用于防御评估。数据集以结构化行和原始模板树两种形式提供，支持通过HuggingFace的datasets库加载和使用。

CIK-Bench is a dataset designed to evaluate the safety of the OpenClaw personal AI agent against persistent-state poisoning attacks. It implements the CIK taxonomy, organizing attacks into three dimensions: Capability, Identity, and Knowledge. The dataset includes 88 attack cases across 12 impact scenarios, categorized into Privacy Leakage and Risky Irreversible Operations, each with subcategories. It also includes a matched set of benign cases for defense evaluation. The dataset is provided in two forms: structured rows and a raw template tree, and can be loaded and used via the HuggingFace datasets library.

提供机构：

UCSC-VLAA

搜集汇总

数据集介绍

构建方式

CIK-Bench是一个专为评估个人AI助手OpenClaw在持久状态投毒攻击下安全性而设计的基准数据集。其构建基于CIK分类法，将OpenClaw的持久状态组织为能力（可执行技能）、身份（人格与行为配置）和知识（习得事实与所有者偏好）三个维度。数据集包含88个攻击案例，覆盖12个影响场景，分属隐私泄露与风险性不可逆操作两大危害类别。每个攻击案例遵循两阶段协议：第一阶段将恶意内容注入代理的持久状态，第二阶段通过后续提示激活该状态以触发有害行为。数据集以结构化Parquet文件和原始模板目录树两种形式发布，前者提供每行案例的详细字段，后者保留GitHub仓库布局以便测试工具直接运行。

使用方法

CIK-Bench可通过HuggingFace Datasets库便捷加载，支持按危害类别筛选攻击案例，如使用filter方法提取财务数据泄露类样本。数据集中提供四个可用的数据拆分：攻击案例、仅第一阶段攻击、仅第二阶段攻击和良性案例，满足不同研究需求。对于完整的复现实验，建议克隆GitHub仓库以获取测试工具、OpenClaw工作区模板、Webhook接收器及Stripe沙箱配置等配套资源。模板中的占位符需通过配置脚本填充为具体运行时参数，确保攻击案例的动态适配性。研究者应严格遵守伦理规范，仅将数据集用于授权系统的安全评估。

背景与挑战

背景概述

随着大型语言模型驱动的自主智能体在个人助理场景中的广泛部署，其安全性成为亟待攻克的关键议题。2026年，由加州大学圣克鲁兹分校视觉与语言自主智能体实验室（UCSC-VLAA）主导，联合多位学者共同发布了CIK-Bench基准数据集，旨在系统评估广泛部署的个人AI智能体OpenClaw面对持久状态投毒攻击的脆弱性。该数据集的核心创新在于提出了CIK分类体系，将智能体的持久状态解构为能力（Capability）、身份（Identity）与知识（Knowledge）三个维度，并据此设计了涵盖隐私泄露与风险性不可逆操作两大顶层危害类别、12种具体影响场景的88个攻击案例，为自主智能体的安全研究提供了首个结构化的评估框架，对推动智能体安全对齐与红队测试领域的发展具有里程碑意义。

当前挑战

CIK-Bench致力于解决自主智能体安全领域的关键挑战：当前主流智能体系统普遍缺乏对持久状态投毒攻击的防御机制，攻击者可通过修改能力文件（如SKILL.md）、身份配置（如SOUL.md）或长期记忆（MEMORY.md）等载体，在不触发传统异常检测的情况下实现跨越会话边界的持续危害。数据集构建过程中亦面临显著挑战，包括需精确模拟OpenClaw真实工作环境（含Stripe沙箱、Webhook服务等），设计两阶段攻击协议（注入与触发）以验证攻击的持久性，以及生成匹配的良性案例用于防御评估，这对数据集的可复现性与生态真实效度提出了严苛要求。

常用场景

经典使用场景

在多模态与文本驱动的智能体安全评估领域，CIK-Bench定位为面向持久化状态投毒攻击的首个系统性基准测试集。其经典使用场景聚焦于评估以OpenClaw为代表的个人AI智能体在面对能力层（Capability）、身份层（Identity）与知识层（Knowledge）多维注入时的脆弱性。研究者通过该数据集既可执行包含注入与触发的两阶段攻击协议，亦可利用配套的正常案例进行防御策略的鲁棒性检验。这为衡量智能体在跨会话边界下的安全边界提供了标准化的实验框架。

解决学术问题

CIK-Bench旨在解决大型语言模型智能体在真实部署场景中面临的核心学术问题——持久化状态投毒攻击。此前研究多关注单次交互中的提示注入或数据污染，而忽略了智能体长期记忆、身份配置与可执行技能等持久化组件可能被恶意利用的深层风险。该数据集通过构建CIK三维分类法，首次系统性地揭示了攻击者如何通过污染智能体的稳定状态，在后续会话中触发隐私泄露（如财务数据、医疗记录外传）与不可逆危险操作（如订阅欺诈、工作区删除），推动了智能体安全领域从短期攻击向持久化威胁的范式扩展。

实际应用

在实际应用中，CIK-Bench为个人AI智能体的安全部署提供了关键的防御验证工具。开发者可利用其攻击案例库对智能体系统进行红队测试，识别身份配置文件（如SOUL.md、USER.md）、技能脚本（Python/Bash）及长短期记忆中的安全盲区。该基准特别适用于金融助手、办公自动化智能体及个人数据管理平台的安全审计，通过模拟凭证窃取、社会工程邮件伪造及批量删除等场景，帮助构建多层防御机制。其配备的沙盒环境与合成测试数据，确保了测试过程的安全性与合规性。

数据集最近研究