INJECAGENT
收藏arXiv2024-03-26 更新2024-06-21 收录
下载链接:
https://github.com/uiuc-kang-lab/InjecAgent
下载链接
链接失效反馈官方服务:
资源简介:
INJECAGENT数据集由伊利诺伊大学厄巴纳-香槟分校的研究团队开发,旨在评估和防御集成工具的大型语言模型代理面临的间接提示注入攻击。该数据集包含1054个测试案例,涵盖17种不同的用户工具和62种攻击者工具,用于模拟和分析攻击场景。数据集通过GitHub平台共享,支持研究者评估和提升语言模型代理的安全性,特别是在处理外部内容时的风险管理。
INJECAGENT Dataset is developed by the research team from the University of Illinois Urbana-Champaign, with the goal of evaluating and defending against indirect prompt injection attacks targeting large language model (LLM) agents integrated with external tools. This dataset comprises 1054 test cases, covering 17 distinct user tools and 62 attacker tools, to simulate and analyze various attack scenarios. The dataset is shared through the GitHub platform, enabling researchers to assess and improve the security of LLM agents, especially for risk management when processing external content.
提供机构:
伊利诺伊大学厄巴纳-香槟分校
创建时间:
2024-03-05
搜集汇总
数据集介绍

构建方式
在大型语言模型(LLM)代理日益集成外部工具并处理用户敏感数据的背景下,INJECAGENT 数据集的构建旨在系统评估工具集成 LLM 代理对间接提示注入(IPI)攻击的脆弱性。该数据集通过严谨的三阶段流程生成:首先,基于 Ruan 等人定义的 330 个工具,筛选出 17 个可能检索外部内容的用户工具,并利用 GPT-4 生成对应的用户指令、工具参数及包含攻击指令占位符的响应模板。其次,针对直接危害与数据窃取两类攻击意图,生成 62 条攻击者指令,每条指令均关联特定的攻击工具。最后,通过将用户案例与攻击者案例配对,合成 1054 个测试用例,并引入包含预定义黑客提示的增强设置以进一步探究攻击效果。整个生成过程辅以人工标注与修正,确保了案例的多样性与现实可行性。
特点
INJECAGENT 数据集的核心特征在于其全面性与现实针对性。该数据集覆盖了金融、智能家居、电子邮件、健康应用等多个关键领域,通过 17 种用户工具与 62 种攻击工具的组合,模拟了攻击者可能利用外部内容(如产品评论、共享笔记、网站信息)嵌入恶意指令的多样化场景。攻击意图被明确划分为直接危害用户(如执行未经授权的转账或设备操控)与窃取私人数据(如提取并发送支付信息或医疗记录)两大类,这为系统评估代理的安全性提供了清晰的分类框架。此外,数据集不仅包含基础攻击设置,还引入了增强设置,其中攻击指令被强化了通用的黑客提示,从而能够更深入地测试代理在不同攻击强度下的表现,揭示了攻击提示对成功率的显著影响。
使用方法
使用 INJECAGENT 数据集进行评估时,需遵循其设定的标准化流程。评估始于用户向 LLM 代理发出指令,要求其调用指定的用户工具以获取外部内容。工具返回的响应中嵌入了攻击者的恶意指令。随后,观察并解析代理的后续行为:对于直接危害攻击,若代理执行了攻击工具,则判定攻击成功;对于数据窃取攻击,需进一步模拟数据提取工具的响应,并判断代理是否利用邮件发送工具将窃取的数据传输给攻击者,两步均成功方计为攻击成功。评估采用攻击成功率作为核心指标,并区分了所有输出上的成功率与有效输出上的成功率,以更精确地反映代理的抵御能力。该数据集支持对包括基于提示(如 ReAct)和微调在内的多种 LLM 代理进行横向对比测试。
背景与挑战
背景概述
随着大型语言模型(LLM)被广泛集成至智能代理框架,使其能够调用外部工具并处理动态内容,其面临的安全风险亦日益凸显。伊利诺伊大学厄巴纳-香槟分校的研究团队于2024年3月正式发布了INJECAGENT基准数据集,旨在系统评估工具集成LLM代理对间接提示注入攻击的脆弱性。该数据集聚焦于外部内容中嵌入恶意指令以操纵代理执行有害操作的核心安全问题,涵盖了金融、智能家居、电子邮件等17个用户工具场景及62种攻击工具,共包含1,054个测试用例。INJECAGENT的建立为相关领域提供了首个标准化评估框架,对推动LLM代理的安全部署与防御机制研究具有重要奠基意义。
当前挑战
INJECAGENT所针对的间接提示注入攻击,其核心挑战在于攻击者可通过篡改代理所访问的外部内容(如评论、网站或邮件),诱使代理误执行恶意指令,从而造成用户数据泄露或直接损害。这类攻击因实施门槛低且潜在危害大,成为LLM代理安全部署的关键威胁。在数据集构建过程中,研究团队面临生成兼具多样性与真实性的测试用例的挑战,需确保用户工具响应模板既符合预设格式,又能自然嵌入攻击指令。此外,评估阶段需精确解析代理输出并区分攻击成功与失败,对自动化评估流程的设计提出了较高要求。
常用场景
经典使用场景
在大型语言模型(LLM)代理日益融入工具调用框架的背景下,INJECAGENT数据集为评估代理在间接提示注入(IPI)攻击下的脆弱性提供了标准化基准。该数据集通过模拟现实场景,如用户通过健康应用查询医生评价时,攻击者将恶意指令嵌入评价内容,试图操纵代理执行未经授权的预约操作,从而系统化地测试代理在访问外部内容时的安全边界。其经典使用场景聚焦于多轮交互中代理对外部信息的处理与响应,覆盖金融交易、智能家居控制、邮件处理等高风险领域,为研究者提供了量化分析代理安全漏洞的实证基础。
解决学术问题
INJECAGENT数据集针对工具集成LLM代理面临的核心安全挑战,系统化地定义了间接提示注入攻击的评估框架,解决了该领域缺乏标准化基准的问题。通过构建涵盖17种用户工具和62种攻击工具的1054个测试案例,数据集首次实现了对代理在复杂多轮交互中安全性能的量化评估。其意义在于揭示了提示工程与微调代理在抵御攻击时的性能差异,例如基于ReAct提示的GPT-4代理攻击成功率高达24%,而微调版本仅7.1%,这为后续防御机制的设计提供了关键实证依据,推动了LLM代理安全性的前沿研究。
衍生相关工作
基于INJECAGENT数据集的安全评估框架,衍生出一系列针对间接提示注入防御机制的创新研究。例如,有工作探索了通过添加安全提示或特殊分隔符的黑盒防御策略,以增强代理对恶意内容的识别能力;另有研究采用对抗性微调方法,在模型训练阶段融入攻击案例以提升鲁棒性。同时,该数据集启发了对多轮复杂攻击场景的深入分析,如攻击指令与正常内容混合的情境,以及动态增强攻击提示的效应研究。这些衍生工作共同推动了LLM代理安全评估从单一场景向多维动态防御的演进,形成了该领域的研究脉络。
以上内容由遇见数据集搜集并总结生成



