AgentLeak

github2026-01-11 更新2026-01-12 收录

下载链接：

https://github.com/Privatris/AgentLeak

下载链接

链接失效反馈

官方服务：

资源简介：

AgentLeak是一个用于多智能体LLM系统中隐私泄漏的全栈基准测试，系统性地审计了7个泄漏通道，并测试了5个家族的19个攻击类别。它捕获了智能体间消息、工具调用、内存写入和工件中的隐私违规行为。

AgentLeak is a full-stack benchmark for privacy leakage in multi-agent LLM systems. It systematically audits 7 leakage channels and tests 19 attack categories across 5 families. It captures privacy violations in inter-agent messages, tool calls, memory writes, and artifacts.

创建时间：

2025-12-25

原始信息汇总

AgentLeak 数据集概述

数据集基本信息

数据集名称：AgentLeak
核心定位：一个用于评估多智能体大语言模型系统中隐私泄露问题的全栈基准测试。
主要特点：系统性地审计7个泄露通道，并测试来自5个家族的19个攻击类别。与仅关注最终输出的基准不同，它捕获智能体间消息、工具调用、内存写入和产物中的隐私违规行为。

关键结果

平均泄露率：尽管有明确的隐私指令，平均泄露率仍为38%。
语义泄露占比：82%的泄露是语义泄露（非逐字复制）。
模型表现对比：
- Gemini-2.5-Pro: ELR 20.0%， WLS 1.22，泄露 20/100
- Llama-3-70B: ELR 27.0%， WLS 2.60，泄露 27/100
- GPT-4o: ELR 31.0%， WLS 2.81，泄露 31/100
- GPT-4o-mini: ELR 41.0%， WLS 3.83，泄露 41/100
- Qwen-2.5-72B: ELR 53.0%， WLS 9.22，泄露 53/100
- Claude-3-Haiku: ELR 53.5%， WLS 4.24，泄露 53/100

数据集内容与结构

数据规模：包含1000个场景。
项目结构：
- agentleak/: 核心包，包含攻击分类法、通道、检测管道、生成器、框架适配器、指标和模式定义。
- agentleak_data/: 数据集目录。
- scripts/: 基准测试脚本。
- tests/: 包含315个测试的测试套件。

技术架构

泄露通道 (C1–C7)

C1: 最终输出
C2: 智能体间消息
C3: 工具输入
C4: 工具输出
C5: 内存写入
C6: 日志
C7: 产物

检测管道

CanaryMatcher: 对合成标记进行精确匹配。
PatternAuditor: 基于正则表达式的个人可识别信息检测。
SemanticDetector: 基于嵌入相似度的检测（阈值τ=0.72）。

攻击分类法

包含5个家族，共19个攻击类别：

F1: 提示注入 (4类)
F2: 工具表面攻击 (4类)
F3: 内存攻击 (4类)
F4: 多智能体攻击 (4类)
F5: 推理攻击 (3类)

评估指标

ELR: 精确泄露率
WLS: 加权泄露分数
CLR: 通道泄露率
TSR: 任务成功率

使用与引用

许可证: MIT 许可证。
引用格式： bibtex @article{elyagoubi2025agentleak, title={AgentLeak: A Full-Stack Benchmark for Privacy Leakage in Multi-Agent LLM Systems}, author={El Yagoubi, Faouzi and Al Mallah, Ranwa and Abdi, Arslene}, journal={arXiv preprint}, year={2025} }

搜集汇总

数据集介绍

构建方式

在人工智能安全领域，多智能体系统隐私泄露风险日益凸显，AgentLeak数据集为此提供了系统性评估框架。该数据集通过精心设计的生成器构建了1000个多样化场景，覆盖了从最终输出到内部通信、工具调用、内存写入及日志文件等七个关键泄露通道。每个场景均植入了合成标记，并模拟了五种攻击家族下的十九类具体攻击手法，从而全面映射多智能体交互中可能出现的隐私漏洞。数据生成过程严格遵循结构化流程，确保了评估场景的真实性与复杂性。

使用方法

研究者可通过克隆项目仓库并安装依赖环境快速启用该数据集。基准测试脚本支持灵活配置，用户可指定场景数量并调用集成的主流大语言模型适配器进行自动化评估。数据集已结构化封装，核心模块包含攻击分类、泄露通道定义、场景生成器、检测流水线及度量计算组件，便于用户针对特定泄露通道或攻击类型进行定制化审计。通过运行测试套件与评估脚本，能够系统性地量化多智能体系统的隐私泄露程度，为模型安全加固与机制设计提供实证依据。

背景与挑战

背景概述

随着多智能体大语言模型系统的广泛应用，其隐私泄露风险日益成为学术与工业界关注的焦点。AgentLeak数据集由Faouzi El Yagoubi、Ranwa Al Mallah和Arslene Abdi等研究人员于2025年构建，旨在系统性地评估多智能体交互场景下的隐私泄露问题。该数据集的核心研究在于全面审计智能体间通信、工具调用、记忆写入及系统工件等七个潜在泄露通道，并设计了涵盖五大攻击家族的十九种攻击类别。作为首个全栈式隐私泄露基准，AgentLeak不仅揭示了现有模型在明确隐私指令下仍存在平均38%的泄露率，更通过语义泄露检测机制深化了对非字面复制型泄露的理解，为后续隐私增强技术的研究提供了关键的数据支撑和评估框架。

当前挑战

在隐私保护领域，多智能体系统的复杂性使得传统单点防护机制难以应对跨通道、跨层级的泄露风险。AgentLeak所针对的核心挑战在于如何系统化地建模和检测智能体协作过程中产生的隐蔽性语义泄露，例如82%的泄露案例并非直接复制敏感信息，而是通过推理重组或语境隐含方式呈现。数据构建过程中，研究者需克服多维度攻击场景的生成难题，包括平衡攻击的多样性与真实性，以及设计能够精准区分无意信息暴露与恶意泄露的三级检测管道。此外，确保评估指标如加权泄露分数（WLS）既能反映泄露严重程度，又保持跨模型比较的公平性，亦是该基准面临的重要技术挑战。

常用场景

经典使用场景

在人工智能安全领域，AgentLeak数据集被广泛应用于评估多智能体大语言模型系统的隐私泄露风险。研究者通过该数据集模拟复杂的交互场景，系统地测试智能体在信息传递、工具调用、记忆写入等七个通道中的隐私保护能力，从而揭示模型在真实部署环境下可能存在的安全漏洞。

解决学术问题

该数据集解决了多智能体系统中隐私泄露量化评估的学术难题，通过构建涵盖五个攻击家族、十九个攻击类别的完整攻击面，为研究者提供了标准化的测试框架。其意义在于推动了隐私保护从单一输出检测向全栈式监控的范式转变，促进了安全人工智能系统的理论发展与工程实践。

实际应用

在实际应用中，企业可利用AgentLeak对即将部署的智能体系统进行渗透测试，识别特定模型在工具接口、日志记录等环节的敏感信息泄露倾向。这有助于开发者在产品上线前实施针对性加固，降低因隐私违规导致的法律与声誉风险，提升用户信任度。

数据集最近研究