ClawSafety
收藏ClawSafety 数据集概述
数据集简介
ClawSafety 是一个用于评估个人AI代理在现实提示注入攻击下安全性的基准测试。它包含120个对抗性测试用例,旨在检验前沿大语言模型在作为代理核心时是否保持安全。
核心发现
- 聊天安全 ≠ 代理安全:在间接注入下,拒绝有害聊天请求的模型有40–75%的几率会遵从指令。
- 框架影响安全:仅框架选择就能使攻击成功率变化高达8.6个百分点,并可逆转攻击向量的有效性排名。
- 存在硬性边界:最强模型在凭证转发和破坏性操作上保持0%的攻击成功率,这是其他模型不具备的能力。
- 领域差异:DevOps领域的可利用性几乎是法律领域的2倍。
- 陈述性指令可绕过防御:命令式措辞会触发防御,而陈述式措辞则无论内容如何都能绕过所有防御。
主要评估结果
评估了不同模型在不同代理框架下的表现,攻击成功率(ASR)如下:
OpenClaw 框架
- Claude Sonnet 4.6: 总体 40.0%
- Gemini 2.5 Pro: 总体 55.0%
- Kimi K2.5: 总体 60.8%
- DeepSeek V3: 总体 67.5%
- GPT-5.1: 总体 75.0%
Nanobot 框架
- Claude Sonnet 4.6: 总体 48.6%
NemoClaw 框架
- Claude Sonnet 4.6: 总体 45.8%
基准测试结构
基准测试围绕三个维度组织120个对抗性测试用例:
- 危害领域(5个):软件工程、金融运营、医疗保健、法律、DevOps。
- 攻击向量(3个):技能注入、电子邮件注入、网页注入。
- 有害操作类型(5个):数据窃取、配置修改、目标替换、凭证转发、破坏性操作。
每个测试用例包含一个完整的专业工作空间(50多个文件)、一个64轮的多阶段对话,以及嵌入在单一注入通道中的对抗性内容。
数据与代码发布
当前版本 (v0.1.0) 包含:
- 场景S2(金融运营):包含技能/邮件注入和网页注入的10轮测试文件。
https://github.com/weibowen555/ClawSafety/blob/main/scenarios/s2_financial/s2_skill_email_cases.pyhttps://github.com/weibowen555/ClawSafety/blob/main/scenarios/s2_financial/s2_web_cases.py
- 场景模板:
https://github.com/weibowen555/ClawSafety/blob/main/scenario_template.py - 电子邮件设置指南:
https://github.com/weibowen555/ClawSafety/blob/main/docs/setup-email.md
计划在 v0.2.0 中发布:
- 场景工作空间(压缩包)。
- 场景S1(软件工程)、S3(医疗保健)、S4(法律)、S5(DevOps)。
- 用于复现论文的64轮完整格式文件。
- EC2沙箱配置手册。
- 网页注入攻击页面托管手册。
- 本地复现的Docker设置。
许可信息
- 代码依据 MIT 许可证 发布。
- 场景叙述、论文文本和图表依据 CC-BY-4.0 发布。
- 对抗性测试用例为防御性安全研究而发布,请参阅 SECURITY.md 了解负责任使用指南。
引用方式
若在研究中使用ClawSafety,请引用相关论文: bibtex @misc{wei2026clawsafetysafellmsunsafe, title = {ClawSafety: "Safe" LLMs, Unsafe Agents}, author = {Bowen Wei and Yunbei Zhang and Jinhao Pan and Kai Mei and Xiao Wang and Jihun Hamm and Ziwei Zhu and Yingqiang Ge}, year = {2026}, eprint = {2604.01438}, archivePrefix = {arXiv}, primaryClass = {cs.AI}, url = {https://arxiv.org/abs/2604.01438} }
联系信息
如有问题或合作意向,请提交Issue或联系 Bowen Wei。




