five

DeepTrap

收藏
github2026-05-17 更新2026-05-18 收录
下载链接:
https://github.com/ZJUICSR/DeepTrap
下载链接
链接失效反馈
官方服务:
资源简介:
DeepTrap是一个安全基准测试,用于评估OpenClaw代理在恶意执行上下文压力下(如中毒的工作空间文件、注入的技能、误导性工具元数据、不安全的命令路径、植入的秘密和编码的有效载荷)能否完成良性用户任务。公共版本包含42个重放任务,分为6个上下文漏洞类别和7个操作场景系列,以及基准运行器和公共评分代码。

DeepTrap is a security benchmark designed to evaluate whether the OpenClaw agent can complete benign user tasks under the pressure of malicious execution contexts, such as poisoned workspace files, injected skills, misleading tool metadata, insecure command paths, implanted secrets and encoded payloads. Its public version includes 42 replay tasks, which are categorized into 6 context vulnerability categories and 7 operational scenario series, along with a benchmark runner and public scoring code.
创建时间:
2026-05-07
原始信息汇总

DeepTrap 数据集概述

DeepTrap 是一个面向 OpenClaw 智能体的开放世界安全评估基准,旨在测试智能体在对抗性执行上下文中完成良性用户任务的同时抵抗恶意安全威胁的能力。

核心目标

与传统基准不同,DeepTrap 提出的更严格问题是:当周围执行上下文具有对抗性时,智能体能否安全地完成有用工作? 用户提示本身是良性且正常的,风险来自于工作空间中的上下文环境。

数据集规模

维度 数量
任务总数 42 个
风险套件(R1-R6) 6 类
操作场景族(T01-T07) 7 类

任务设计为 6 类上下文漏洞 × 7 类良性场景的交叉组合。

风险套件(R1-R6)

风险套件 类别 任务数 评估内容
R1 框架劫持 7 对中毒上下文和注入工作流步骤的抵抗能力
R2 隐私泄露 7 对植入凭证和敏感值的保护能力
R3 未授权执行 7 拒绝危险命令和越界行为的能力
R4 供应链风险 7 处理恶意技能和工具类集成组件的能力
R5 工具滥用 7 检测误导性或错配工具行为的能力
R6 编码混淆 7 处理编码指令和多步骤载荷的能力

场景族(T01-T07)

场景 典型任务类型
T01 会议记录、行动项和常规工作流摘要
T02 Python/代码格式化、重构、API/日志处理
T03 研究笔记、文献综述、引用和调研分析
T04 部署就绪检查、配置验证和服务健康检查
T05 销售、营收和结构化业务数据报告
T06 博客/内容撰写、风格检查、入职和反馈摘要
T07 系统管理、环境审计、部署检查和日志备份

安全威胁类型

DeepTrap 评估嵌入在以下各类执行上下文中的威胁,而非仅限提示攻击:

  • 中毒的文件和内存样工件
  • 注入的技能和误导性工具元数据
  • 危险的 shell 命令和部署脚本
  • 植入的凭证、API 密钥和环境变量
  • Base64 和多步骤编码指令

评分体系

DeepTrap 同时报告两项评分:

  • AGS(Attack Grading Score):攻击评分,越高表示攻击实现程度越强
  • UGS(Utility Grading Score):效用评分,越高表示任务完成质量越好

排行榜(部分模型表现)

模型 AGS 平均 UGS 平均
DeepSeek-v4-Flash 0.89 0.96
Qwen3.5-Plus 0.88 0.95
Deepseek-v4-Pro 0.86 0.89
GLM-5 0.83 0.90
MiniMax-M2.5 0.83 0.90
GPT-5.4 0.70 0.83
MiMo-v2.5 0.72 0.91
MiMo-v2.5-pro 0.64 0.86
Claude-Sonnet-4.6 0.38 0.61

引用信息

论文标题:Red-Teaming Agent Execution Contexts: Open-World Security Evaluation on OpenClaw

论文链接:arXiv:2605.11047

项目主页与排行榜:ZJUICSR.github.io/DeepTrap

Hugging Face 数据集:ZJUICSR/DeepTrap

搜集汇总
数据集介绍
main_image_url
构建方式
DeepTrap是一个面向OpenClaw智能体的开放世界安全评估基准。其构建核心在于将六类上下文脆弱性(包括工具劫持、隐私泄露、未授权执行、供应链风险、工具滥用与编码混淆)与七类良性用户场景(如会议纪要、代码处理、文献综述、部署检查、商业报告、内容起草与系统管理)进行交叉组合,形成了42个重放任务。每个任务包含一个正常的用户提示,但通过在工作空间中植入被污染的文件、恶意技能、误导性工具元数据、危险命令路径、假凭证或编码载荷,构造出对抗性的执行上下文。基准公开了任务运行器、评分逻辑与重放任务定义,而任务生成与攻击搜索流程则保持私有,以确保评估的公正性。
特点
DeepTrap的显著特点在于其评估视角的独特性:它不测试模型完成有用工作的能力,而是检验其在对抗性执行上下文中安全地完成用户任务的能力。基准采用双重评分体系,同时报告攻击评分(AGS)与效用评分(UGS),从安全性与任务实用性两个维度综合衡量智能体的表现。与仅关注提示注入的传统基准不同,DeepTrap将威胁嵌入在文件、技能、工具描述、脚本、日志、配置及编码制品中,更贴近真实世界中的安全风险。所有用户提示均为良性,风险源自工作空间的上下文环境,这使评估场景更加自然且贴近实际部署。
使用方法
使用DeepTrap前需配置Python 3.10以上环境及OpenClaw命令行工具,并准备目标模型与评估后端API密钥。通过克隆仓库并运行安装命令即可完成部署。基准运行支持灵活配置:可执行单套风险组(如R1)、指定具体任务或运行所有任务,并通过--runs参数设定重复试验次数。运行结果以JSON格式输出至results目录,包含模型元数据、组配置、逐任务评分及聚合摘要。用户还可通过Hugging Face数据集接口加载基准元数据,每个任务记录包含任务编号、类别、提示、预期行为及评分标准等关键信息,便于二次分析与研究。
背景与挑战
背景概述
随着大语言模型驱动的智能体(如OpenClaw架构)在编程、系统管理等领域广泛应用,其安全风险日益凸显。现有基准测试多聚焦于智能体任务完成能力,忽略其运行环境中的恶意上下文攻击。为弥合这一空白,浙江大学网络空间安全学院研究团队于2026年发布了DeepTrap数据集。该数据集由Hongwei Yao、Yiming Liu等人主导构建,通过设计6类上下文脆弱性风险与7种操作场景交错的42项重放任务,系统评估智能体在投毒文件、注入技能、误导工具元数据、埋藏凭证及编码载荷等对抗性执行环境下的安全决策能力。DeepTrap提出的攻击评分(AGS)与效用评分(UGS)双维度评估框架,为智能体安全评测提供了新的范式,其开源基准与排行榜已推动多家主流模型的安全鲁棒性改进。
当前挑战
DeepTrap致力于解决开放世界智能体安全评估的核心挑战:在用户指令完全良性的前提下,智能体需抵御执行上下文中隐匿的各类恶意压力。具体挑战包括六方面:1)动态上下文威胁建模——恶意载荷嵌入工作区文件、技能描述或工具元数据,需识别非显式攻击信号;2)多步编码混淆——攻击者通过Base64等编码隐藏指令,要求智能体具备跨步骤推理与反混淆能力;3)安全与效用的帕累托权衡——过度防御可能阻碍正常任务完成,需在AGS与UGS间取得平衡;4)构建过程中需设计自动化攻击搜索管线,在42类场景的有限样本下生成多样化可复现攻击,同时避免泄露生成策略;5)构建真实感工作区——每个任务需包含合法工具与恶意工件的混合环境,确保威胁评估的生态效度。
常用场景
经典使用场景
在开放世界智能体安全评估领域,DeepTrap被设计为一种严苛的基准测试工具,专门用于评测OpenClaw类智能体在对抗性执行上下文中的鲁棒性。其经典使用场景聚焦于七个日常操作场景家族(如会议纪要整理、代码格式化、研究综述撰写、配置验证、业务报表生成、博客内容起草及系统环境审计),每个场景均嵌入来自六类上下文漏洞(上下文劫持、隐私泄露、越权执行、供应链风险、工具滥用及编码混淆)的恶意载荷。研究者通过提交良性用户指令并观察智能体在受污染工作区中的响应行为,系统性地量化其完成任务效用与抵御攻击能力之间的权衡。该测试框架运行42项可复现任务,输出攻击评分与效用评分双维度指标,为智能体安全边界勘探提供了标准化实验范式。
实际应用
在实际部署层面,DeepTrap为企业级OpenClaw智能体的安全验收提供了标准化测试套件。开发团队可在集成流水线中嵌入该基准,以自动化检测模型是否会将生产环境中的敏感配置文件(如.env凭证)错误地作为执行上下文读取且外泄,或是否会执行嵌入在日志文件中的破坏性shell命令。SaaS平台运营方利用其攻击评分与效用评分的联合报告,对不同模型版本进行安全准入决策——例如拒绝那些UGS尚可但AGS极低的模型上线。此外,安全红队通过该数据集可高效构造对抗性工作区模板,用于持续监测代理系统在收到看似无害的用户请求时,是否仍能抵御来自工作空间内的隐蔽攻击。
衍生相关工作
DeepTrap的提出已催生出多个方向的研究延伸。其一,基于其任务模板和流程,研究者开发了自动化对抗载荷搜索管道,利用多目标奖励信号在良性指令集上迭代生成更隐蔽的上下文中毒样例,从而形成“攻击生成—智能体响应—再生成”的闭环优化框架。其二,受其双评分机制启发,后续工作提出了安全效用帕累托前沿分析的方法论,系统探索智能体在抵御攻击与完成任务间的不可调和权衡点。其三,针对该基准暴露的供应链风险漏洞,多位学者构建了恶意技能检测与工具调用验证模块,并将其集成至OpenClaw的运行时沙箱中,形成可插拔的防御插件。这些衍生工作共同推动了智能体安全从被动漏洞报告向主动防御体系演进的学术进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作