Agent Security Bench (ASB)

Name: Agent Security Bench (ASB)
Creator: 浙江大学, 罗格斯大学
Published: 2024-10-04 00:30:47
License: 暂无描述

arXiv2024-10-04 更新2024-10-05 收录

下载链接：

https://github.com/agiresearch/ASB

下载链接

链接失效反馈

官方服务：

资源简介：

Agent Security Bench (ASB) 是一个综合性的基准框架，旨在规范化、基准化和评估基于大型语言模型（LLM）的代理在不同场景下的攻击和防御策略。该数据集涵盖了10个场景（如电子商务、自动驾驶、金融），10个代理，超过400个工具和任务，用于评估LLM代理的安全性。数据集包含近90,000个测试案例，涉及23种不同的攻击/防御方法和8个评估指标。ASB的创建过程包括设计多种攻击和防御类型，针对代理的系统提示、用户提示处理、工具使用和内存检索等关键操作步骤。该数据集主要应用于评估和提升LLM代理在复杂任务中的安全性和鲁棒性，旨在解决代理在实际应用中的安全漏洞问题。

Agent Security Bench (ASB) is a comprehensive benchmark framework designed to standardize, benchmark, and evaluate attack and defense strategies of large language model (LLM)-based agents across diverse scenarios. This dataset encompasses 10 scenarios (e.g., e-commerce, autonomous driving, finance), 10 agents, and over 400 tools and tasks for assessing the security of LLM agents. It contains nearly 90,000 test cases, involving 23 distinct attack/defense methods and 8 evaluation metrics. The creation process of ASB involves designing diverse attack and defense types targeting key operational steps of agents, including system prompt handling, user prompt processing, tool utilization, and memory retrieval. This dataset is primarily utilized to evaluate and improve the security and robustness of LLM agents in complex tasks, with the goal of addressing security vulnerabilities of agents in real-world applications.

提供机构：

浙江大学, 罗格斯大学

创建时间：

2024-10-04

原始信息汇总

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

数据集概述

ASB数据集旨在系统地形式化和全面评估基于LLM（大型语言模型）的代理在10个不同场景中的对抗攻击和防御策略，包括学术咨询、心理辅导、投资和法律建议等。

攻击框架

ASB包含以下攻击类型：

DPI (Direct Prompt Injection): 直接篡改用户提示。
OPI (Observation Prompt Injection): 篡改观察数据。
Plan-of-Thought (PoT) Backdoor: 在特定输入下触发隐藏动作。
Memory Poisoning Attacks: 向代理的记忆中注入恶意计划。

防御策略

ASB提供了针对上述攻击的防御方法：

Delimiters: 防御DPI和OPI。
Sandwich Prevention: 防御OPI。
Instructional Prevention: 防御DPI和OPI。
Paraphrasing: 防御DPI和PoT Backdoor。
Shuffle: 防御PoT Backdoor。

实验结果

攻击效果

评估了5种攻击类型在13种LLM上的平均攻击结果，包括攻击成功率（ASR）和攻击响应率（RR）。

防御效果

针对DPI、OPI、Memory Poisoning和PoT Backdoor的防御效果进行了评估，结果显示防御机制在某些情况下有效，但在其他情况下效果有限。

可用的LLM

ASB中使用的LLM包括开源和闭源模型，如Gemma2、LLaMA3、Mixtral、Qwen2、Claude-3.5 Sonnet、GPT-3.5 Turbo和GPT-4o等。

自定义参数

用户可以通过YAML文件自定义攻击和防御参数，包括使用的LLM、攻击类型、防御类型等。

搜集汇总

数据集介绍

构建方式

Agent Security Bench (ASB) 数据集的构建旨在全面评估基于大型语言模型（LLM）的代理在不同攻击和防御策略下的安全性。ASB 框架涵盖了10个不同场景（如电子商务、自动驾驶、金融等），10个针对这些场景的代理，超过400种工具，23种不同类型的攻击/防御方法，以及8个评估指标。通过ASB，我们基准测试了10种提示注入攻击、一种内存中毒攻击、一种新颖的思维计划后门攻击、一种混合攻击以及10种相应的防御措施，涵盖了13种LLM骨干网络，总计近90,000个测试案例。

使用方法

ASB 数据集的使用方法包括对LLM代理在不同攻击和防御场景下的性能进行基准测试。研究者和开发者可以通过ASB评估其代理在面对各种攻击时的鲁棒性，并测试不同防御策略的有效性。此外，ASB 还提供了详细的实验配置和结果分析，帮助用户理解和复现实验结果，从而推动LLM代理安全性的进一步研究和发展。

背景与挑战

背景概述

随着大型语言模型（LLMs）的快速发展，基于LLMs的智能体（agents）在处理复杂现实任务方面展现出巨大潜力。这些智能体能够利用外部工具和记忆机制来执行任务，如内容生成、问答、工具调用和编码等。然而，这种能力也带来了严重的安全漏洞。尽管已有一些研究评估了针对LLM智能体的攻击和防御，但这些评估往往不够全面。为了解决这一问题，Hanrong Zhang等研究人员在浙江大学和罗格斯大学的支持下，于2024年引入了Agent Security Bench（ASB），这是一个旨在形式化、基准化和评估LLM智能体攻击和防御的综合框架。ASB涵盖了10个场景、10个智能体、超过400个工具、23种不同类型的攻击/防御方法和8个评估指标，为LLM智能体的安全性研究提供了重要的资源。

当前挑战

ASB数据集在构建和应用过程中面临多重挑战。首先，所解决的领域问题涉及复杂的攻击和防御策略，需要精确的形式化和基准化。其次，构建过程中遇到的挑战包括如何设计涵盖多种攻击类型的全面框架，以及如何确保评估指标的准确性和全面性。此外，ASB还需要应对不同操作步骤中智能体的脆弱性，如系统提示、用户提示处理、工具使用和记忆检索等阶段的攻击。最后，当前防御措施的有效性有限，揭示了在智能体安全性方面仍有重要工作待完成。

常用场景

经典使用场景

Agent Security Bench (ASB) 数据集的经典使用场景在于评估基于大型语言模型（LLM）的智能体在不同攻击和防御策略下的安全性能。ASB 通过模拟电子商务、自动驾驶、金融等十个不同领域的场景，涵盖了超过400种工具和23种攻击/防御方法，以及8种评估指标，全面评估智能体在面对各种攻击时的表现。

解决学术问题

ASB 数据集解决了当前学术界在评估 LLM 智能体安全性方面的不足，提供了全面且系统的攻击和防御评估框架。通过 ASB，研究人员能够识别智能体在操作的各个阶段（如系统提示、用户提示处理、工具使用和记忆检索）的关键漏洞，从而推动开发更强大的防御机制和更安全的智能体。

实际应用

ASB 数据集在实际应用中具有广泛的前景，特别是在需要高度安全性和可靠性的领域，如金融、医疗和自动驾驶。通过使用 ASB 进行评估和改进，可以显著提高智能体在这些领域的安全性和鲁棒性，确保其在面对恶意攻击时仍能保持正常功能。

数据集最近研究