ClawSecBench

github2026-04-30 更新2026-05-07 收录

下载链接：

https://github.com/FIND-Lab/ClawSecBench

下载链接

链接失效反馈

官方服务：

资源简介：

ClawSecBench是一个专门设计用于评估爪系统安全性的基准测试数据集。它基于一个面向生命周期的分层威胁模型，对应于Agent操作的核心阶段，并系统地覆盖了Agent整个生命周期中的典型风险场景，包括技能供应链污染、间接提示注入、内存中毒、上下文漂移、意图偏差和执行护栏绕过。该项目提供了结构化的成对攻击/良性样本，旨在为AI Agent安全研究提供一个标准化的评估平台。

ClawSecBench is a benchmark dataset specifically designed for evaluating the security of Claw systems. It is built upon a lifecycle-oriented hierarchical threat model that aligns with the core operational phases of AI Agents, and systematically covers typical risk scenarios across the full lifecycle of AI Agents, including skill supply chain poisoning, indirect prompt injection, memory poisoning, context drift, intent deviation, and execution guardrail bypass. This benchmark provides structured paired attack and benign samples, aiming to offer a standardized evaluation platform for AI Agent security research.

创建时间：

2026-04-20

原始信息汇总

数据集概述：ClawSecBench

ClawSecBench 是一个专为评估爪型系统（Claw Systems）安全性而设计的基准测试数据集。它基于面向生命周期的分层威胁模型，系统性地覆盖了智能体（Agent）全生命周期中的典型风险场景，包括技能供应链污染、间接提示注入、记忆投毒、上下文漂移、意图偏离和执行护栏绕过等。该数据集提供结构化的成对攻击/良性样本，旨在为AI Agent安全研究提供标准化的评估平台。

数据集结构

规模与划分

总样本数：150个（每层30个样本）
划分：有害/良性样本各75个（harmful/benign = 75/75）

数据格式定义

数据集以JSON格式提供，各字段如下：

字段名	类型	描述
id	int	测试用例的唯一标识符
layer	string	五个层级之一（例如 "trusted foundation"）
category	string	具体的攻击子类型（例如 "skill supply-chain attacks"）
goal	string	"harmful" 或 "benign"
input	list[str]	用户提示（prompt）；若回合数大于1，则包含历史记录
round	int	对话轮次数量
environment	list[object]	模拟的外部上下文（如文件内容、工具输出、网站HTML）

层级与攻击详情

1. 可信基础层（Trusted Foundation Layer）

攻击面：智能体/扩展/插件/技能的安装与配置
攻击类别：
- 技能供应链（Skill Supply-Chain）：
  - 恶意创建（Malicious Creation）：创建具有误导性描述的技能以劫持调用链
  - 混淆（Obfuscation）：在看似正常的技能文件中隐藏恶意逻辑
  - 工具链劫持（Tool Chain Hijacking）：技能修改配置以调用其他恶意工具
- 配置篡改（Configuration Tampering）：
  - 技能配置（Skill Config）：修改现有技能代码以破坏功能或窃取数据
  - 智能体身份（Agent Identity）：修改 SOUL.md、IDENTITY.md 或 AGENTS.md 以改变行为

2. 感知输入层（Perception Input Layer）

攻击面：智能体工具（浏览器、文件阅读器）处理的不可信数据
攻击类别：
- 间接提示注入（Indirect Prompt Injection）：将载荷嵌入网站、电子邮件或文档中

3. 认知状态层（Cognitive State Layer）

攻击面：长期记忆存储（MEMORY.md）和上下文窗口管理
攻击类别：
- 记忆投毒（Memory Poisoning）：将恶意规则注入持久性记忆
- 上下文漂移（Context Drift）：长上下文导致智能体遗忘初始安全指令

4. 决策对齐层（Decision Alignment Layer）

攻击面：自然语言理解的歧义导致危险行为
攻击类别：
- 意图误解（Intent Misunderstanding）：智能体误解良性表达的真实意图，从而执行高风险操作

5. 执行控制层（Execution Control Layer）

攻击面：最终的Shell/命令执行步骤
攻击类别：
- 护栏绕过（Guardrail Bypass）：智能体绕过预设的安全护栏规则，执行未经授权的高风险Shell命令

搜集汇总

数据集介绍

构建方式

ClawSecBench是一个聚焦于Agent系统安全评估的基准数据集。其构建遵循生命周期导向的分层威胁模型，将Agent运行的核心阶段对应为五个安全层：可信基础层、感知输入层、认知状态层、决策对齐层和执行控制层。数据集包含150个样本，每层30个，按攻击/良性样本各75个均衡划分。每个样本以结构化JSON格式呈现，字段涵盖唯一ID、所属层级、攻击子类别、危害标记（harmful/benign）、用户提示序列、对话轮次及模拟外部环境上下文，确保对Agent全生命周期典型风险场景的系统覆盖。

特点

该数据集呈现出鲜明的层次化特点，从技能供应链污染、配置篡改到间接提示注入、记忆投毒、上下文漂移、意图误解乃至执行护栏绕过，层层递进地覆盖了Agent安全威胁的全景。每个样本不仅包含攻击载荷，还提供对应的良性对照，形成标准化评估对偶结构。特别地，数据集通过模拟文件内容、工具输出、网页HTML等外部上下文，真实还原了攻击触发时的环境复杂性，使得评估结果更具生态效度。

使用方法

使用ClawSecBench时，研究者可直接加载JSON格式的分层数据，根据目标评估粒度和安全层，筛选特定层或攻击子类别的样本对目标Agent进行测试。通过比较Agent在harmful与benign样本上的表现差异，量化其在面对恶意操控时的鲁棒性。数据集支持基于攻击成功率的指标计算，如检测率、误报率等，并可与历史结果进行横向对比。推荐在受控实验环境中，配合安全监控日志对Agent的感知、推理和执行行为进行全程追踪，以诊断脆弱环节。

背景与挑战

背景概述

随着大语言模型驱动的智能体（Agent）在自动化任务中广泛应用，其系统安全性与鲁棒性成为制约技术落地的关键瓶颈。ClawSecBench由研究团队于近期提出，旨在构建一个面向Agent全生命周期安全评估的标准化基准。该基准基于生命周期分层威胁模型，系统覆盖技能供应链污染、间接提示注入、记忆投毒、上下文漂移、意图偏离及执行护栏绕过六大核心风险场景。数据集包含150个结构化对抗样本（有害/良性各75个），通过五层攻击面设计（可信基础层、感知输入层、认知状态层、决策对齐层、执行控制层），为评估Agent在安装配置、数据感知、记忆管理、意图理解及命令执行等环节的安全防御能力提供了可复现的测试框架，对推动AI Agent安全研究具有重要参考价值。

当前挑战

ClawSecBench所面临的挑战首先源于Agent安全评估的领域复杂性：现有安全机制多聚焦单点防御，而Agent全生命周期中多层攻击面相互耦合，如技能供应链污染可通过记忆投毒间接影响决策层，需在动态交互场景下实现跨层威胁的协同检测。其次，构建过程面临样本真实性与完备性的平衡难题——人工构造的对抗样本需精准模拟现实攻击手法（如模糊恶意技能文件或上下文漂移），同时避免语义偏差导致误判；此外，多轮对话场景中历史输入的时序依赖、环境模拟的抽象程度（如工具输出伪装）均需精细设计，以覆盖极端边缘案例而不过度简化攻击形态。150个样本的规模虽聚焦关键风险点，但面对工业级Agent的复杂行为空间，仍需扩展至更丰富的攻击变体与跨Agent架构的泛化验证。

常用场景

经典使用场景

在人工智能代理系统安全评估领域，ClawSecBench作为首个覆盖代理全生命周期的分层安全基准，其经典使用场景聚焦于系统化评估代理在面对多阶段攻击链时的防护能力。研究者通过利用该数据集中结构化配对的150个攻击/良性样本，可针对技能供应链投毒、间接提示注入、记忆中毒、上下文漂移、意图偏离及执行护栏绕过这五层风险进行精确测试。该基准特别适用于验证代理系统在可信基础、感知输入、认知状态、决策对齐及执行控制各关键环节的安全韧性，为衡量不同防御机制的有效性提供了标准化的评估框架。

实际应用

在工业实践中，ClawSecBench为开发与部署自主代理系统的企业提供了关键的安全测试工具。例如，客户服务代理、自动化编程助手或金融交易代理在投入生产前，可利用该基准对系统进行全生命周期的对抗性测试，重点验证其在遭遇恶意插件安装、文档中嵌入的间接提示注入、以及长时间对话中安全指令被遗忘等真实威胁时的鲁棒性。该基准特别适合用于安全合规审查，帮助组织量化其代理系统在每一个攻击面上的防御缺口，从而指导开发者在供应链安全配置、输入过滤机制、内存管理、意图解析与执行护栏等环节进行针对性加固。

衍生相关工作

自ClawSecBench发布以来，其分层威胁模型与标准化评估范式已催生了多项衍生研究。基于该基准中技能供应链投毒与配置篡改的案例，研究者提出了针对代理身份文件（如SOUL.md）的对抗性净化方法；间接提示注入与记忆中毒攻击则推动了动态上下文过滤与记忆隔离机制的发展。此外，该基准的执行护栏绕过层激发了关于命令执行前多模态验证策略的系列工作。这些研究不仅验证了ClawSecBench在揭示攻击模式交叉作用方面的有效性，还进一步拓展了其应用边界，例如将其扩展到多代理协作场景或结合具体行业领域（如医疗、金融）的上下文定制化评估，形成了从基础安全测试到专用防护方案设计的完整研究链条。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集