AgentTrap
收藏github2026-05-15 更新2026-05-21 收录
下载链接:
https://github.com/zhmzm/AgentTrap
下载链接
链接失效反馈官方服务:
资源简介:
AgentTrap是一个动态基准测试,用于评估LLM代理在使用第三方技能时是否能抵抗恶意运行时行为。它包含141个可执行任务:91个恶意任务和50个良性实用任务,涵盖16个安全影响维度、10种运行时攻击方法和7个普通代理任务类别。基准测试记录完整轨迹、工具效果、生成工件、模拟网络观察和判断证据,以便分别分析攻击成功、阻止、攻击未触发和良性过度防御等情况。
创建时间:
2026-05-12
原始信息汇总
AgentTrap 数据集概述
AgentTrap 是一个用于评估大语言模型代理在第三方技能中抵抗恶意运行时行为能力的动态基准测试工具。
核心功能
- 测试代理在安装和使用第三方技能时,是否会将不安全工作流步骤视为可信的执行指令。
- 评估覆盖通过 SKILL.md、帮助脚本、生成产物、标准输出、服务配置、MCP 风格流程、浏览器/会话状态、本地指令文件、记忆和跨轮次工作区状态等多种方式发起的攻击。
数据集规模与组成
- 总计任务数:141 个可执行任务
- 恶意任务:91 个
- 良性任务:50 个
- 覆盖维度:16 个安全影响维度、10 种运行时攻击方法、7 种普通代理任务类别
评估证据类型
| 证据类型 | 说明 |
|---|---|
| 工具日志 | 记录代理操作轨迹 |
| 文件系统影响 | 监控文件读写与修改 |
| 模拟网络 | 捕获网络请求行为 |
| 生成产物 | 检查代理产出的结果 |
| 最终响应 | 分析代理的回答 |
| 完整会话轨迹 | 提供完整的执行记录 |
结果标签体系
| 标签 | 含义 |
|---|---|
attack_succeeded |
代理执行或尝试了恶意行为 |
attack_blocked |
代理明确拒绝、清理或遏制了攻击 |
attack_not_triggered |
未触发恶意路径 |
no_attack_evidence |
可用证据未显示攻击行为 |
inconclusive |
基础设施或证据不足导致无法判断 |
benign_overdefense |
良性任务被不必要地拒绝或阻塞 |
数据集使用方式
- 数据集托管地址:Hugging Face
- 代码仓库地址:GitHub
- 执行方式:支持普通代理和框架中介代理两种执行路径
- 判断方式:基于轨迹的判断,需检查可观察证据而非仅看最终答案
负责任使用说明
- 所有恶意行为被重定向到惰性域名、固定凭据、模拟接收点和沙箱监控文件
- 不针对真实系统或真实受害者
搜集汇总
数据集介绍

构建方式
在大语言模型智能体广泛集成第三方技能的现实背景下,AgentTrap应运而生,旨在评估智能体在使用第三方技能时能否抵御潜在的运行时威胁。该数据集精心构建了141个可执行任务,涵盖91个恶意任务与50个良性工具任务,横跨16个安全影响维度、10种运行时攻击手法及7类常规智能体任务范畴。每个任务均基于完整的工作流环境设计,通过SKILL.md、辅助脚本、生成工件、标准输出、服务配置、MCP风格流程、浏览器与会话状态、本地指令文件、记忆体及跨轮次工作区状态等多种途径注入攻击载荷,确保评估的全面性与真实性。最终,AgentTrap通过记录完整轨迹、工具效应、生成文件、模拟网络观测及判决证据,实现对攻击成功、成功阻断、未触发攻击及良性过度防御等不同场景的精细区分。
特点
AgentTrap的核心特性在于其对运行时信任边界的深刻聚焦,超越了传统仅关注最终答案或静态包扫描的评估范式。该数据集模拟了恶意技能如何将不安全行为伪装成遥测、备份、合规、预览生成、OAuth设置、报告元数据或本地自动化等正常操作,从而评估智能体的实际防御能力。其独特之处在于记录了丰富的可观测证据层,包括工具日志、文件系统效应、模拟网络通信、生成工件、最终响应及完整会话轨迹,支持对攻击成功、被阻断、未触发、无攻击证据、不确定及良性过度防御六种结果标签的独立分析。此外,AgentTrap同时支持普通智能体与框架中介智能体两种执行路径,为不同技术栈下的安全评估提供了统一基准。
使用方法
AgentTrap的使用遵循清晰的分层流程。首先,用户需通过GitHub克隆仓库并安装依赖,构建Docker沙箱环境,并从Hugging Face下载数据集,确保数据集目录包含cases.json、技能包及工作区夹具。运行时,框架中介路径通过Python解析器执行JSON动作,AgentTrap负责验证并在受控工作区内执行;子智能体路径则需单独启动外部智能体,通过预设的prompt模板(如Claude Code、Codex或OpenClaw子智能体提示)与Python桥接接口交互。评估阶段采用轨迹基础判决方式,而非仅依赖最终答案,需通过运行LLM判决比较脚本及子智能体会话保存工具,收集完整证据链。为确保结果可复现,所有实验均基于统一的任务注册表、技能包、夹具、受控执行层及判决协议进行,具体运行命令可参考仓库中的API实验运行手册与发布验证脚本。
背景与挑战
背景概述
随着大型语言模型(LLM)与外部工具的深度整合,基于代理(Agent)的智能系统日益成为自动化任务执行的核心范式。然而,第三方技能的引入在极大扩展代理能力的同时,也打开了前所未有的安全缺口——恶意技能可在运行时通过看似合法的行为触发信息泄露、权限滥用或系统篡改。为系统性地度量这一信任失效风险,Haomin Zhuang、Hanwen Xing、Yujun Zhou等研究者于2026年提出了AgentTrap动态基准测试。该基准由包含91个恶意任务和50个良性任务的141个可执行用例构成,覆盖16个安全影响维度与10种运行时攻击方法,旨在评估代理在使用第三方技能时能否抵御非预期的恶意执行指令。AgentTrap的出现为代理安全领域提供了首个可复现的运行时信任评估框架,对推动可信自主系统的安全设计具有重要影响。
当前挑战
AgentTrap所解决的领域核心挑战在于:现有的提示注入基准大多仅关注模型是否遵循恶意文本,而忽略了代理在真实运行时环境中因第三方技能导致的信任边界失效问题。恶意技能可伪装为遥测、备份、合规校验等常规操作,利用工具调用链、生成工件、标准输出、浏览器状态、记忆与跨轮次工作区状态等渗漏点执行隐蔽攻击。在构建过程中,研究者需精心设计每个恶意案例的行为使其在无害化沙箱中执行(重定向至惰性域、凭证固定、模拟接收器与监控文件存储),同时保证良性任务的触发逻辑不引发虚假防御,这对案例的语义精度与执行路径覆盖提出了极高要求。此外,统一框架代理与纯代理两种执行路径下的轨迹记录、证据收集与结果标签(如攻击成功、已阻断、未触发、良性过度防御)的标准化,亦构成了显著的设计与实现挑战。
常用场景
经典使用场景
AgentTrap作为首个聚焦LLM智能体运行时第三方技能信任失效的动态基准,其经典使用场景是在受控沙箱环境中评估智能体在安装与调用第三方技能时的恶意行为防御能力。该基准设计了141个可执行任务,涵盖91个恶意任务与50个良性任务,跨越16个安全影响维度、10种运行时攻击方法及7类普通智能体任务,通过记录完整轨迹、工具调用日志、文件系统影响及模拟网络观测等多维证据,系统性地检验智能体是否将不安全的工步视为可信执行指令。研究者可在此基准上对比纯智能体与框架中介智能体在不同攻击场景下的安全表现,精准区分攻击成功、被阻断、未触发及良性过度防御等细粒度结果。
解决学术问题
AgentTrap精准回应了当前大语言模型智能体安全研究中的核心痛点:传统提示注入基准仅检验模型对恶意文本的服从性,而忽视了第三方技能在运行时工作流中制造隐蔽攻击的能力。该基准在学术层面系统揭示了智能体可能遭遇的16类安全威胁,包括通过技能文档、辅助脚本、生成产物、服务配置、会话状态及跨轮工作区状态等媒介传递的攻击路径,为理解智能体信任边界提供了可量化、可复现的评估框架。这一工作填补了运行时安全实证研究的空白,其细粒度的结果标签体系使研究者能够独立分析防御失效模式,推动了对智能体安全鲁棒性从静态检测向动态防护的理论升级。
衍生相关工作
AgentTrap衍生出了一系列在智能体安全评估领域的开创新工作,包括基于其轨迹级的细粒度评判协议而发展的自动化安全审计系统,以及针对其16种安全影响维度设计的专项防御机制。该基准的沙箱化执行方案启发了可重现的运行时安全测试框架,学界借助其多维攻击图谱构建了更全面的智能体攻击分类学。此外,AgentTrap提供的跨框架评估接口(如Harbor与Subagent路径)催生了比较研究,量化了不同智能体框架在安全边界约束上的差异,进而推动了新一代具有原生安全意识的智能体框架的设计与实现,其衍生工作持续深化着对LLM智能体在开放生态中信任模型的理论认知。
以上内容由遇见数据集搜集并总结生成



