five

Agent Security Bench (ASB)

收藏
arXiv2024-10-04 更新2024-10-05 收录
下载链接:
https://github.com/agiresearch/ASB
下载链接
链接失效反馈
资源简介:
Agent Security Bench (ASB) 是一个综合性的基准框架,旨在规范化、基准化和评估基于大型语言模型(LLM)的代理在不同场景下的攻击和防御策略。该数据集涵盖了10个场景(如电子商务、自动驾驶、金融),10个代理,超过400个工具和任务,用于评估LLM代理的安全性。数据集包含近90,000个测试案例,涉及23种不同的攻击/防御方法和8个评估指标。ASB的创建过程包括设计多种攻击和防御类型,针对代理的系统提示、用户提示处理、工具使用和内存检索等关键操作步骤。该数据集主要应用于评估和提升LLM代理在复杂任务中的安全性和鲁棒性,旨在解决代理在实际应用中的安全漏洞问题。

Agent Security Bench (ASB) is a comprehensive benchmark framework aimed at standardizing, benchmarking, and evaluating attack and defense strategies of large language model (LLM)-based agents across various scenarios. It encompasses 10 scenarios (such as e-commerce, autonomous driving, finance), 10 agents, as well as more than 400 tools and tasks, all dedicated to assessing the security of LLM agents. The dataset contains nearly 90,000 test cases, involving 23 distinct attack/defense methods and 8 evaluation metrics. The development of ASB includes designing multiple attack and defense types targeting key operational steps of agents, such as system prompt handling, user prompt processing, tool utilization, and memory retrieval. This dataset is primarily applied to evaluate and enhance the security and robustness of LLM agents in complex tasks, with the goal of addressing security vulnerabilities of agents in real-world applications.
提供机构:
浙江大学, 罗格斯大学
创建时间:
2024-10-04
原始信息汇总

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

数据集概述

ASB数据集旨在系统地形式化和全面评估基于LLM(大型语言模型)的代理在10个不同场景中的对抗攻击和防御策略,包括学术咨询、心理辅导、投资和法律建议等。

攻击框架

ASB包含以下攻击类型:

  • DPI (Direct Prompt Injection): 直接篡改用户提示。
  • OPI (Observation Prompt Injection): 篡改观察数据。
  • Plan-of-Thought (PoT) Backdoor: 在特定输入下触发隐藏动作。
  • Memory Poisoning Attacks: 向代理的记忆中注入恶意计划。

防御策略

ASB提供了针对上述攻击的防御方法:

  • Delimiters: 防御DPI和OPI。
  • Sandwich Prevention: 防御OPI。
  • Instructional Prevention: 防御DPI和OPI。
  • Paraphrasing: 防御DPI和PoT Backdoor。
  • Shuffle: 防御PoT Backdoor。

实验结果

攻击效果

评估了5种攻击类型在13种LLM上的平均攻击结果,包括攻击成功率(ASR)和攻击响应率(RR)。

防御效果

针对DPI、OPI、Memory Poisoning和PoT Backdoor的防御效果进行了评估,结果显示防御机制在某些情况下有效,但在其他情况下效果有限。

可用的LLM

ASB中使用的LLM包括开源和闭源模型,如Gemma2、LLaMA3、Mixtral、Qwen2、Claude-3.5 Sonnet、GPT-3.5 Turbo和GPT-4o等。

自定义参数

用户可以通过YAML文件自定义攻击和防御参数,包括使用的LLM、攻击类型、防御类型等。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Agent Security Bench (ASB) 数据集的构建旨在全面评估基于大型语言模型(LLM)的代理在不同攻击和防御策略下的安全性。ASB 框架涵盖了10个不同场景(如电子商务、自动驾驶、金融等),10个针对这些场景的代理,超过400种工具,23种不同类型的攻击/防御方法,以及8个评估指标。通过ASB,我们基准测试了10种提示注入攻击、一种内存中毒攻击、一种新颖的思维计划后门攻击、一种混合攻击以及10种相应的防御措施,涵盖了13种LLM骨干网络,总计近90,000个测试案例。
使用方法
ASB 数据集的使用方法包括对LLM代理在不同攻击和防御场景下的性能进行基准测试。研究者和开发者可以通过ASB评估其代理在面对各种攻击时的鲁棒性,并测试不同防御策略的有效性。此外,ASB 还提供了详细的实验配置和结果分析,帮助用户理解和复现实验结果,从而推动LLM代理安全性的进一步研究和发展。
背景与挑战
背景概述
随着大型语言模型(LLMs)的快速发展,基于LLMs的智能体(agents)在处理复杂现实任务方面展现出巨大潜力。这些智能体能够利用外部工具和记忆机制来执行任务,如内容生成、问答、工具调用和编码等。然而,这种能力也带来了严重的安全漏洞。尽管已有一些研究评估了针对LLM智能体的攻击和防御,但这些评估往往不够全面。为了解决这一问题,Hanrong Zhang等研究人员在浙江大学和罗格斯大学的支持下,于2024年引入了Agent Security Bench(ASB),这是一个旨在形式化、基准化和评估LLM智能体攻击和防御的综合框架。ASB涵盖了10个场景、10个智能体、超过400个工具、23种不同类型的攻击/防御方法和8个评估指标,为LLM智能体的安全性研究提供了重要的资源。
当前挑战
ASB数据集在构建和应用过程中面临多重挑战。首先,所解决的领域问题涉及复杂的攻击和防御策略,需要精确的形式化和基准化。其次,构建过程中遇到的挑战包括如何设计涵盖多种攻击类型的全面框架,以及如何确保评估指标的准确性和全面性。此外,ASB还需要应对不同操作步骤中智能体的脆弱性,如系统提示、用户提示处理、工具使用和记忆检索等阶段的攻击。最后,当前防御措施的有效性有限,揭示了在智能体安全性方面仍有重要工作待完成。
常用场景
经典使用场景
Agent Security Bench (ASB) 数据集的经典使用场景在于评估基于大型语言模型(LLM)的智能体在不同攻击和防御策略下的安全性能。ASB 通过模拟电子商务、自动驾驶、金融等十个不同领域的场景,涵盖了超过400种工具和23种攻击/防御方法,以及8种评估指标,全面评估智能体在面对各种攻击时的表现。
解决学术问题
ASB 数据集解决了当前学术界在评估 LLM 智能体安全性方面的不足,提供了全面且系统的攻击和防御评估框架。通过 ASB,研究人员能够识别智能体在操作的各个阶段(如系统提示、用户提示处理、工具使用和记忆检索)的关键漏洞,从而推动开发更强大的防御机制和更安全的智能体。
实际应用
ASB 数据集在实际应用中具有广泛的前景,特别是在需要高度安全性和可靠性的领域,如金融、医疗和自动驾驶。通过使用 ASB 进行评估和改进,可以显著提高智能体在这些领域的安全性和鲁棒性,确保其在面对恶意攻击时仍能保持正常功能。
数据集最近研究
最新研究方向
近年来,基于大型语言模型(LLM)的智能体在处理复杂现实任务方面展现出巨大潜力,但也引发了严重的安全漏洞问题。Agent Security Bench (ASB) 数据集的最新研究聚焦于形式化和基准化针对LLM智能体的攻击与防御策略。ASB框架涵盖了10个不同场景(如电子商务、自动驾驶、金融等),10个智能体,超过400种工具,以及23种攻击/防御方法和8个评估指标。研究重点包括10种提示注入攻击、一种内存中毒攻击、一种新颖的思维计划后门攻击以及混合攻击,并评估了10种相应的防御措施。研究结果揭示了智能体在操作的不同阶段(如系统提示、用户提示处理、工具使用和内存检索)的严重漏洞,平均攻击成功率高达84.30%,但现有防御措施的有效性有限,凸显了智能体安全领域的重要工作。
相关研究论文
  • 1
    Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents浙江大学, 罗格斯大学 · 2024年
以上内容由AI搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作