agent-egress-bench
收藏github2026-03-31 更新2026-03-30 收录
下载链接:
https://github.com/luckyPipewrench/agent-egress-bench
下载链接
链接失效反馈官方服务:
资源简介:
一个用于评估AI代理出口安全工具的标准测试语料库。包含16个类别的143个案例,涵盖秘密泄露、提示注入、SSRF、MCP工具中毒、链检测、A2A协议扫描、WebSocket DLP、编码逃避、shell混淆以及加密货币/金融数据保护。
A standard test corpus for evaluating AI Agent exit security tools. It comprises 143 cases across 16 categories, covering data exfiltration, prompt injection, SSRF, MCP tool poisoning, chain detection, A2A protocol scanning, WebSocket DLP, encoding evasion, shell obfuscation, and cryptocurrency/financial data protection.
创建时间:
2026-03-07
原始信息汇总
数据集概述
数据集基本信息
- 数据集名称: agent-egress-bench
- 核心目的: 提供一个标准化的测试语料库,用于评估AI代理出口安全工具。
- 测试对象: 位于AI代理与网络之间的安全工具(如防火墙、代理、扫描器或MCP包装器),而非AI代理或大语言模型本身。
- 许可协议: Apache 2.0
数据集内容与结构
- 总案例数: 143个
- 案例类别: 16个
- 恶意案例: 106个(预期应被拦截)
- 良性案例: 37个(预期应被放行,用于测试误报率)
案例类别详情
| 类别 | 目录 | 案例数 | 测试内容 |
|---|---|---|---|
| URL DLP | cases/url/ |
15 | 通过查询字符串、编码路径、高熵子域名、SSRF、域名阻止列表泄露秘密 |
| Request body DLP | cases/request-body/ |
10 | POST正文中的秘密(JSON、YAML、CSV、multipart、base64、hex、环境变量转储) |
| Header DLP | cases/headers/ |
9 | HTTP头中的API密钥和令牌(Bearer、JWT、AWS、多头) |
| Response injection (fetch) | cases/response-fetch/ |
8 | 获取的网页内容中的提示词注入 |
| Response injection (MITM) | cases/response-mitm/ |
7 | 通过被篡改的TLS拦截响应进行注入 |
| MCP input scanning | cases/mcp-input/ |
9 | MCP工具参数中的DLP和注入(base64、hex、分散式、SSH密钥) |
| MCP tool poisoning | cases/mcp-tool/ |
7 | 被投毒的工具描述、模式注入、抽毯式更改 |
| MCP chain detection | cases/mcp-chain/ |
8 | 多步骤数据渗出序列(读取后发送、环境变量到网络) |
| A2A message scanning | cases/a2a-message/ |
10 | A2A消息部分中的秘密和注入 |
| A2A Agent Card poisoning | cases/a2a-agent-card/ |
7 | Agent Card技能描述中的注入、卡片漂移 |
| WebSocket DLP | cases/websocket-dlp/ |
8 | WebSocket帧中的秘密、分片重组规避 |
| SSRF bypass | cases/ssrf-bypass/ |
9 | 私有IP检测、云元数据、编码IP |
| Encoding evasion | cases/encoding-evasion/ |
9 | 多层编码链、Unicode技巧、零宽度插入 |
| Shell obfuscation | cases/shell-obfuscation/ |
7 | 反引号替换、花括号扩展、IFS操作 |
| Crypto/financial DLP | cases/crypto-financial/ |
8 | 钱包地址、种子短语、信用卡、IBAN |
| False positive suite | cases/false-positive/ |
12 | 不应被阻止的良性流量 |
案例格式与运行
- 案例格式: 每个案例都是一个自包含的JSON文件,包含攻击载荷、预期裁决(
block或allow)、严重性、能力标签以及预期结果的机器可读原因。 - 验证工具: 使用Go语言编写的验证器(
aeb-validate)来验证语料库或运行结果。 - 运行器输出: JSONL格式,每行包含案例ID、工具信息、预期与实际裁决、分数、证据和备注。
评分系统(Gauntlet)
Gauntlet是一个可选的评分程序,从四个独立指标评估工具:
- 遏制率: 正确拦截攻击的百分比。
- 误报率: 错误拦截良性流量的百分比(越低越好)。
- 检测: 工具是否识别了其拦截的内容。
- 证据: 工具是否输出了结构化的证明。
与其他基准测试的区别
本数据集专注于测试安全工具在网络层面对攻击的检测和拦截能力,区别于其他测试大语言模型或代理本身安全性的基准测试(如AgentDojo、InjecAgent、AgentHarm、CyberSecEval、ASB)。最接近的可比基准测试是AgentShield-benchmark,但后者在应用层/API层操作,而本数据集在网络层操作。
支持与治理
- 文档: 包含详细的规范、评分模型、运行器契约、采用指南、术语表、治理政策和OWASP映射等。
- 贡献: 欢迎贡献案例、运行器和文档改进。案例ID一旦合并即不可变。
- 治理: 由Pipelock作者创建,但设计为工具中立,欢迎任何供应商或个人贡献。该仓库不生成排名或跨工具比较表。
搜集汇总
数据集介绍

构建方式
在人工智能代理安全领域,数据集的构建需要精准模拟真实威胁场景。agent-egress-bench数据集采用结构化、模块化的构建方法,将143个测试案例系统性地划分为16个独立类别,涵盖秘密数据外泄、提示词注入、服务器端请求伪造等核心攻击向量。每个案例均以自包含的JSON文件形式呈现,其中明确定义了攻击载荷、预期裁决、严重性等级及能力标签,确保了案例的独立性与可复现性。构建过程严格遵循工具中立原则,聚焦于网络层可观测的安全行为,而非具体工具的实现细节。
特点
该数据集的核心特征在于其明确的测试定位与精细的威胁覆盖。与多数聚焦于大型语言模型行为安全的基准不同,本数据集专门用于评估位于人工智能代理与网络之间的安全工具(如防火墙、代理、扫描器)的防护效能。其案例设计深度覆盖了从传统HTTP请求到现代MCP工具、A2A协议及WebSocket通信等多维攻击面,并特别包含了用于测试误报率的良性流量案例。数据集结构严谨,每个案例均附带机器可读的预期结果理由,并提供了与OWASP Agentic Top 10威胁模型的完整映射,体现了其在安全评估领域的专业性与系统性。
使用方法
使用该数据集需遵循其标准化的评估框架。用户首先需基于Go语言环境构建验证工具,对案例集进行基础验证。随后,需为待测安全工具编写特定的运行器,该运行器负责将案例载荷馈送至工具并记录其裁决结果。输出需遵循规定的JSONL格式,明确标注每个案例的实际裁决与预期裁决的比对情况。数据集支持通过“Gauntlet”评分程序进行多维度量化评估,涵盖遏制率、误报率、检测能力与证据提供四个独立指标,为用户提供超越简单通过/失败的综合性能洞察。
背景与挑战
背景概述
随着人工智能代理技术的快速发展,具备网络访问能力的智能代理在提升效率的同时也带来了严重的数据泄露风险。agent-egress-bench数据集应运而生,由Pipelock项目作者于近期创建,旨在填补网络层安全工具标准化评估体系的空白。该数据集聚焦于人工智能代理的出口安全领域,核心研究问题在于如何系统性地评估部署在代理与网络之间的防火墙、代理服务器及安全扫描工具的实际防护效能。通过构建涵盖16个攻击类别的标准化测试语料库,该数据集为安全工具提供了可重复验证的评估基准,对推动人工智能安全防御体系的纵深建设具有重要价值。
当前挑战
该数据集致力于解决人工智能代理出口安全领域的核心挑战,即如何有效检测和阻断代理在运行过程中可能发生的秘密数据外泄、提示词注入、服务器端请求伪造等复杂攻击行为。构建过程中面临多重挑战:首先需要精准模拟现实世界中多样化的攻击向量,包括多层级编码规避、WebSocket数据泄露、MCP工具投毒等高级威胁;其次必须确保测试案例的完备性与代表性,在143个案例中平衡恶意攻击与良性流量的比例以评估误报率;最后还需建立工具中立的评估框架,通过标准化的JSON案例格式和运行器契约,使不同架构的安全工具能在公平一致的基准下进行效能验证。
常用场景
经典使用场景
在人工智能代理安全领域,网络层防护工具的有效性评估长期缺乏标准化基准。agent-egress-bench数据集通过构建涵盖16个类别的143个测试案例,为代理防火墙、网络代理及安全扫描器等工具提供了经典评估场景。这些案例模拟了秘密数据外泄、提示词注入、服务器端请求伪造等典型攻击向量,使安全工具能够在受控环境中验证其检测与阻断能力。该数据集尤其侧重于测试工具对出站流量的安全过滤,而非代理模型本身的行为,填补了现有基准测试在防御纵深层评估上的空白。
衍生相关工作
围绕该数据集已衍生出多项重要研究工作与实践框架。其案例分类体系与OWASP Agentic Top 10的映射关系,为行业威胁建模提供了结构化参考。基于数据集设计的Gauntlet评分系统,创新性地引入包含率、误报率、检测证据等多维独立指标,推动了安全工具评估从二元通过性测试向精细化能力分析的演进。此外,数据集催生的工具适配器规范与运行器模板,降低了不同安全解决方案的集成门槛,促进了如Pipelock等开源工具与商业产品的生态协同发展,形成了以网络层安全为核心的代理防护技术社区。
数据集最近研究
最新研究方向
在人工智能代理安全领域,随着智能体网络交互能力的增强,其外泄安全风险日益凸显。agent-egress-bench数据集填补了网络层安全工具评估的空白,聚焦于代理外泄流量的检测能力。前沿研究围绕多模态攻击场景展开,涵盖秘密数据外泄、提示注入、服务器端请求伪造及模型上下文协议工具污染等十六类威胁向量。该数据集与OWASP代理应用十大风险框架紧密映射,推动了安全工具在真实网络流量中的防护效能验证。相关热点事件如模型越狱与供应链攻击频发,进一步凸显了网络层纵深防御的重要性。其标准化测试语料为学术界与工业界提供了可复现的基准,促进了代理安全生态从模型对齐到基础设施防护的范式演进,对构建可信赖的智能体部署环境具有深远意义。
以上内容由遇见数据集搜集并总结生成



