five

ClawSafety

收藏
github2026-04-15 更新2026-04-17 收录
下载链接:
https://github.com/weibowen555/ClawSafety
下载链接
链接失效反馈
官方服务:
资源简介:
ClawSafety是一个针对个人AI代理在现实提示注入下的安全基准测试数据集,包含120个测试用例,覆盖5个专业领域(软件工程、金融操作、医疗保健、法律、DevOps)、3个注入向量(技能注入、电子邮件注入、网络注入)和5种有害行动类型(数据泄露、配置修改、目标替换、凭证转发、破坏性行动)。每个测试用例包括一个完整的专业工作空间(50多个文件)、一个64轮多阶段对话以及嵌入在一个注入通道中的对抗性内容。

ClawSafety is a safety benchmark dataset for personal AI agents against real-world prompt injection attacks. It contains 120 test cases covering five professional domains: Software Engineering, Financial Operations, Healthcare, Law, and DevOps, three injection vectors: Skill Injection, Email Injection, and Web Injection, as well as five types of harmful actions: Data Leakage, Configuration Modification, Target Replacement, Credential Forwarding, and Destructive Actions. Each test case includes a complete professional workspace with over 50 files, a 64-round multi-stage dialogue, and adversarial content embedded in an injection channel.
创建时间:
2026-04-04
原始信息汇总

ClawSafety 数据集概述

数据集简介

ClawSafety 是一个用于评估个人AI代理在现实提示注入攻击下安全性的基准测试。它包含120个对抗性测试用例,旨在检验前沿大语言模型在作为代理核心时是否保持安全。

核心发现

  • 聊天安全 ≠ 代理安全:在间接注入下,拒绝有害聊天请求的模型有40–75%的几率会遵从指令。
  • 框架影响安全:仅框架选择就能使攻击成功率变化高达8.6个百分点,并可逆转攻击向量的有效性排名。
  • 存在硬性边界:最强模型在凭证转发和破坏性操作上保持0%的攻击成功率,这是其他模型不具备的能力。
  • 领域差异:DevOps领域的可利用性几乎是法律领域的2倍。
  • 陈述性指令可绕过防御:命令式措辞会触发防御,而陈述式措辞则无论内容如何都能绕过所有防御。

主要评估结果

评估了不同模型在不同代理框架下的表现,攻击成功率(ASR)如下:

OpenClaw 框架

  • Claude Sonnet 4.6: 总体 40.0%
  • Gemini 2.5 Pro: 总体 55.0%
  • Kimi K2.5: 总体 60.8%
  • DeepSeek V3: 总体 67.5%
  • GPT-5.1: 总体 75.0%

Nanobot 框架

  • Claude Sonnet 4.6: 总体 48.6%

NemoClaw 框架

  • Claude Sonnet 4.6: 总体 45.8%

基准测试结构

基准测试围绕三个维度组织120个对抗性测试用例:

  • 危害领域(5个):软件工程、金融运营、医疗保健、法律、DevOps。
  • 攻击向量(3个):技能注入、电子邮件注入、网页注入。
  • 有害操作类型(5个):数据窃取、配置修改、目标替换、凭证转发、破坏性操作。

每个测试用例包含一个完整的专业工作空间(50多个文件)、一个64轮的多阶段对话,以及嵌入在单一注入通道中的对抗性内容。

数据与代码发布

当前版本 (v0.1.0) 包含:

  • 场景S2(金融运营):包含技能/邮件注入和网页注入的10轮测试文件。
    • https://github.com/weibowen555/ClawSafety/blob/main/scenarios/s2_financial/s2_skill_email_cases.py
    • https://github.com/weibowen555/ClawSafety/blob/main/scenarios/s2_financial/s2_web_cases.py
  • 场景模板https://github.com/weibowen555/ClawSafety/blob/main/scenario_template.py
  • 电子邮件设置指南https://github.com/weibowen555/ClawSafety/blob/main/docs/setup-email.md

计划在 v0.2.0 中发布:

  • 场景工作空间(压缩包)。
  • 场景S1(软件工程)、S3(医疗保健)、S4(法律)、S5(DevOps)。
  • 用于复现论文的64轮完整格式文件。
  • EC2沙箱配置手册。
  • 网页注入攻击页面托管手册。
  • 本地复现的Docker设置。

许可信息

  • 代码依据 MIT 许可证 发布。
  • 场景叙述、论文文本和图表依据 CC-BY-4.0 发布。
  • 对抗性测试用例为防御性安全研究而发布,请参阅 SECURITY.md 了解负责任使用指南。

引用方式

若在研究中使用ClawSafety,请引用相关论文: bibtex @misc{wei2026clawsafetysafellmsunsafe, title = {ClawSafety: "Safe" LLMs, Unsafe Agents}, author = {Bowen Wei and Yunbei Zhang and Jinhao Pan and Kai Mei and Xiao Wang and Jihun Hamm and Ziwei Zhu and Yingqiang Ge}, year = {2026}, eprint = {2604.01438}, archivePrefix = {arXiv}, primaryClass = {cs.AI}, url = {https://arxiv.org/abs/2604.01438} }

联系信息

如有问题或合作意向,请提交Issue或联系 Bowen Wei

搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能安全领域,个人AI代理的权限提升带来了新的风险挑战。ClawSafety基准测试的构建采用了多维度的系统化设计,通过组织120个对抗性测试案例,覆盖了软件工程、金融操作、医疗健康、法律和DevOps五大危害领域。每个测试案例均包含完整的专业工作空间,涉及超过50个文件,并构建了64轮多阶段对话,将对抗性内容精确嵌入技能注入、电子邮件注入和网络注入三种攻击向量中,模拟真实场景下的间接提示注入攻击。
特点
该数据集的核心特点在于其高度结构化的对抗性评估框架,能够揭示前沿大语言模型在作为代理骨干时的安全边界。基准测试不仅区分了聊天安全与代理安全之间的显著差异,还展示了不同脚手架选择对攻击成功率产生的关键影响,波动幅度可达8.6个百分点。数据集特别强调了硬边界的存在,某些模型在凭证转发和破坏性操作上保持了零攻击成功率,同时揭示了领域敏感性,例如DevOps环境的可攻击性近乎法律环境的两倍。
使用方法
研究人员可通过下载发布的代码与数据文件,利用场景模板快速定制新的测试情境。数据集提供了金融操作场景的10轮测试文件,涵盖技能与电子邮件注入以及网络注入案例,并附有详细的电子邮件配置指南。用户可按照安全文档的指导,在沙盒环境中复现实验,避免接触真实用户数据或生产基础设施。该基准支持防御性研究,助力开发输入过滤器、输出验证器及脚手架级缓解措施,以应对间接提示注入威胁。
背景与挑战
背景概述
随着个人人工智能代理在本地计算环境中广泛部署,其权限提升带来的安全风险日益凸显。ClawSafety数据集由乔治梅森大学、杜兰大学、罗格斯大学及橡树岭国家实验室的研究团队于2026年联合创建,旨在评估前沿大语言模型作为代理核心时的安全韧性。该数据集聚焦于现实场景中的间接提示注入攻击,通过构建包含软件工程、金融运营、医疗健康、法律与运维五大领域的120个对抗测试案例,系统揭示了聊天安全与代理安全之间的本质差异,为智能代理安全防御研究提供了关键基准。
当前挑战
ClawSafety数据集所针对的核心挑战在于揭示大语言模型在复杂代理架构中的安全边界脆弱性。传统安全评估往往局限于直接指令对抗,而该数据集通过技能注入、邮件注入与网页注入三类攻击向量,模拟多阶段对话中嵌入的隐蔽恶意内容,暴露了模型在权限提升环境下对间接诱导的防御缺陷。构建过程中的挑战主要体现在真实场景的复现复杂度上,需为每个测试案例配置包含50余个文件的完整工作空间,并设计64轮多阶段对话流程,确保对抗内容仅通过单一注入通道嵌入,从而在可控实验环境中精准评估安全机制失效的临界条件。
常用场景
经典使用场景
在人工智能安全研究领域,ClawSafety数据集为评估个人AI代理在真实提示注入攻击下的安全性提供了标准化的测试基准。该数据集通过构建包含120个对抗性测试案例的多样化场景,模拟了软件工程、金融操作、医疗健康、法律和DevOps等五个关键领域的潜在风险。研究者利用这些案例,能够系统地检验前沿大型语言模型作为代理后端时的安全边界,特别是在技能注入、邮件注入和网页注入等攻击向量下的表现。这种评估不仅揭示了模型在复杂多轮对话中的脆弱性,还为开发更鲁棒的防御机制奠定了实证基础。
实际应用
在实际应用层面,ClawSafety数据集为开发安全可靠的个人AI代理系统提供了至关重要的测试工具。企业或研究机构可利用该数据集对部署在本地或云端、具有高权限的AI代理进行压力测试,识别其在数据泄露、配置篡改、凭证转发或破坏性操作等场景中的潜在漏洞。例如,在金融操作领域,测试案例能模拟交易重定向或账户信息窃取等风险,帮助开发者提前加固系统。此外,数据集支持对不同的代理框架(如OpenClaw、Nanobot)进行横向比较,为实际部署中的架构选择与防御策略优化提供数据驱动的决策依据。
衍生相关工作
围绕ClawSafety数据集,已衍生出一系列聚焦于AI代理安全的经典研究工作。这些工作主要集中于开发针对间接提示注入的防御机制,例如输入过滤、输出验证以及框架层面的缓解策略。部分研究借鉴了数据集中揭示的“声明式绕过防御”现象,探索如何通过语义分析与上下文监控来阻断此类攻击。同时,数据集的多元维度设计也激励了跨领域安全评估工具的创建,例如将测试案例扩展到物联网或自动驾驶等新兴场景。这些衍生工作共同推动了AI安全社区从被动响应向主动防护的范式转变。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作