five

Agent Security Bench (ASB)|大型语言模型数据集|安全评估数据集

收藏
arXiv2024-10-04 更新2024-10-05 收录
大型语言模型
安全评估
下载链接:
https://github.com/agiresearch/ASB
下载链接
链接失效反馈
资源简介:
Agent Security Bench (ASB) 是一个综合性的基准框架,旨在规范化、基准化和评估基于大型语言模型(LLM)的代理在不同场景下的攻击和防御策略。该数据集涵盖了10个场景(如电子商务、自动驾驶、金融),10个代理,超过400个工具和任务,用于评估LLM代理的安全性。数据集包含近90,000个测试案例,涉及23种不同的攻击/防御方法和8个评估指标。ASB的创建过程包括设计多种攻击和防御类型,针对代理的系统提示、用户提示处理、工具使用和内存检索等关键操作步骤。该数据集主要应用于评估和提升LLM代理在复杂任务中的安全性和鲁棒性,旨在解决代理在实际应用中的安全漏洞问题。
提供机构:
浙江大学, 罗格斯大学
创建时间:
2024-10-04
原始信息汇总

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

数据集概述

ASB数据集旨在系统地形式化和全面评估基于LLM(大型语言模型)的代理在10个不同场景中的对抗攻击和防御策略,包括学术咨询、心理辅导、投资和法律建议等。

攻击框架

ASB包含以下攻击类型:

  • DPI (Direct Prompt Injection): 直接篡改用户提示。
  • OPI (Observation Prompt Injection): 篡改观察数据。
  • Plan-of-Thought (PoT) Backdoor: 在特定输入下触发隐藏动作。
  • Memory Poisoning Attacks: 向代理的记忆中注入恶意计划。

防御策略

ASB提供了针对上述攻击的防御方法:

  • Delimiters: 防御DPI和OPI。
  • Sandwich Prevention: 防御OPI。
  • Instructional Prevention: 防御DPI和OPI。
  • Paraphrasing: 防御DPI和PoT Backdoor。
  • Shuffle: 防御PoT Backdoor。

实验结果

攻击效果

评估了5种攻击类型在13种LLM上的平均攻击结果,包括攻击成功率(ASR)和攻击响应率(RR)。

防御效果

针对DPI、OPI、Memory Poisoning和PoT Backdoor的防御效果进行了评估,结果显示防御机制在某些情况下有效,但在其他情况下效果有限。

可用的LLM

ASB中使用的LLM包括开源和闭源模型,如Gemma2、LLaMA3、Mixtral、Qwen2、Claude-3.5 Sonnet、GPT-3.5 Turbo和GPT-4o等。

自定义参数

用户可以通过YAML文件自定义攻击和防御参数,包括使用的LLM、攻击类型、防御类型等。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Agent Security Bench (ASB) 数据集的构建旨在全面评估基于大型语言模型(LLM)的代理在不同攻击和防御策略下的安全性。ASB 框架涵盖了10个不同场景(如电子商务、自动驾驶、金融等),10个针对这些场景的代理,超过400种工具,23种不同类型的攻击/防御方法,以及8个评估指标。通过ASB,我们基准测试了10种提示注入攻击、一种内存中毒攻击、一种新颖的思维计划后门攻击、一种混合攻击以及10种相应的防御措施,涵盖了13种LLM骨干网络,总计近90,000个测试案例。
使用方法
ASB 数据集的使用方法包括对LLM代理在不同攻击和防御场景下的性能进行基准测试。研究者和开发者可以通过ASB评估其代理在面对各种攻击时的鲁棒性,并测试不同防御策略的有效性。此外,ASB 还提供了详细的实验配置和结果分析,帮助用户理解和复现实验结果,从而推动LLM代理安全性的进一步研究和发展。
背景与挑战
背景概述
随着大型语言模型(LLMs)的快速发展,基于LLMs的智能体(agents)在处理复杂现实任务方面展现出巨大潜力。这些智能体能够利用外部工具和记忆机制来执行任务,如内容生成、问答、工具调用和编码等。然而,这种能力也带来了严重的安全漏洞。尽管已有一些研究评估了针对LLM智能体的攻击和防御,但这些评估往往不够全面。为了解决这一问题,Hanrong Zhang等研究人员在浙江大学和罗格斯大学的支持下,于2024年引入了Agent Security Bench(ASB),这是一个旨在形式化、基准化和评估LLM智能体攻击和防御的综合框架。ASB涵盖了10个场景、10个智能体、超过400个工具、23种不同类型的攻击/防御方法和8个评估指标,为LLM智能体的安全性研究提供了重要的资源。
当前挑战
ASB数据集在构建和应用过程中面临多重挑战。首先,所解决的领域问题涉及复杂的攻击和防御策略,需要精确的形式化和基准化。其次,构建过程中遇到的挑战包括如何设计涵盖多种攻击类型的全面框架,以及如何确保评估指标的准确性和全面性。此外,ASB还需要应对不同操作步骤中智能体的脆弱性,如系统提示、用户提示处理、工具使用和记忆检索等阶段的攻击。最后,当前防御措施的有效性有限,揭示了在智能体安全性方面仍有重要工作待完成。
常用场景
经典使用场景
Agent Security Bench (ASB) 数据集的经典使用场景在于评估基于大型语言模型(LLM)的智能体在不同攻击和防御策略下的安全性能。ASB 通过模拟电子商务、自动驾驶、金融等十个不同领域的场景,涵盖了超过400种工具和23种攻击/防御方法,以及8种评估指标,全面评估智能体在面对各种攻击时的表现。
解决学术问题
ASB 数据集解决了当前学术界在评估 LLM 智能体安全性方面的不足,提供了全面且系统的攻击和防御评估框架。通过 ASB,研究人员能够识别智能体在操作的各个阶段(如系统提示、用户提示处理、工具使用和记忆检索)的关键漏洞,从而推动开发更强大的防御机制和更安全的智能体。
实际应用
ASB 数据集在实际应用中具有广泛的前景,特别是在需要高度安全性和可靠性的领域,如金融、医疗和自动驾驶。通过使用 ASB 进行评估和改进,可以显著提高智能体在这些领域的安全性和鲁棒性,确保其在面对恶意攻击时仍能保持正常功能。
数据集最近研究
最新研究方向
近年来,基于大型语言模型(LLM)的智能体在处理复杂现实任务方面展现出巨大潜力,但也引发了严重的安全漏洞问题。Agent Security Bench (ASB) 数据集的最新研究聚焦于形式化和基准化针对LLM智能体的攻击与防御策略。ASB框架涵盖了10个不同场景(如电子商务、自动驾驶、金融等),10个智能体,超过400种工具,以及23种攻击/防御方法和8个评估指标。研究重点包括10种提示注入攻击、一种内存中毒攻击、一种新颖的思维计划后门攻击以及混合攻击,并评估了10种相应的防御措施。研究结果揭示了智能体在操作的不同阶段(如系统提示、用户提示处理、工具使用和内存检索)的严重漏洞,平均攻击成功率高达84.30%,但现有防御措施的有效性有限,凸显了智能体安全领域的重要工作。
相关研究论文
  • 1
    Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents浙江大学, 罗格斯大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题