five

Agent Security Bench (ASB)|大型语言模型数据集|安全评估数据集

收藏
arXiv2024-10-04 更新2024-10-05 收录
大型语言模型
安全评估
下载链接:
https://github.com/agiresearch/ASB
下载链接
链接失效反馈
资源简介:
Agent Security Bench (ASB) 是一个综合性的基准框架,旨在规范化、基准化和评估基于大型语言模型(LLM)的代理在不同场景下的攻击和防御策略。该数据集涵盖了10个场景(如电子商务、自动驾驶、金融),10个代理,超过400个工具和任务,用于评估LLM代理的安全性。数据集包含近90,000个测试案例,涉及23种不同的攻击/防御方法和8个评估指标。ASB的创建过程包括设计多种攻击和防御类型,针对代理的系统提示、用户提示处理、工具使用和内存检索等关键操作步骤。该数据集主要应用于评估和提升LLM代理在复杂任务中的安全性和鲁棒性,旨在解决代理在实际应用中的安全漏洞问题。
提供机构:
浙江大学, 罗格斯大学
创建时间:
2024-10-04
原始信息汇总

Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents

数据集概述

ASB数据集旨在系统地形式化和全面评估基于LLM(大型语言模型)的代理在10个不同场景中的对抗攻击和防御策略,包括学术咨询、心理辅导、投资和法律建议等。

攻击框架

ASB包含以下攻击类型:

  • DPI (Direct Prompt Injection): 直接篡改用户提示。
  • OPI (Observation Prompt Injection): 篡改观察数据。
  • Plan-of-Thought (PoT) Backdoor: 在特定输入下触发隐藏动作。
  • Memory Poisoning Attacks: 向代理的记忆中注入恶意计划。

防御策略

ASB提供了针对上述攻击的防御方法:

  • Delimiters: 防御DPI和OPI。
  • Sandwich Prevention: 防御OPI。
  • Instructional Prevention: 防御DPI和OPI。
  • Paraphrasing: 防御DPI和PoT Backdoor。
  • Shuffle: 防御PoT Backdoor。

实验结果

攻击效果

评估了5种攻击类型在13种LLM上的平均攻击结果,包括攻击成功率(ASR)和攻击响应率(RR)。

防御效果

针对DPI、OPI、Memory Poisoning和PoT Backdoor的防御效果进行了评估,结果显示防御机制在某些情况下有效,但在其他情况下效果有限。

可用的LLM

ASB中使用的LLM包括开源和闭源模型,如Gemma2、LLaMA3、Mixtral、Qwen2、Claude-3.5 Sonnet、GPT-3.5 Turbo和GPT-4o等。

自定义参数

用户可以通过YAML文件自定义攻击和防御参数,包括使用的LLM、攻击类型、防御类型等。

AI搜集汇总
数据集介绍
main_image_url
构建方式
Agent Security Bench (ASB) 数据集的构建旨在全面评估基于大型语言模型(LLM)的代理在不同攻击和防御策略下的安全性。ASB 框架涵盖了10个不同场景(如电子商务、自动驾驶、金融等),10个针对这些场景的代理,超过400种工具,23种不同类型的攻击/防御方法,以及8个评估指标。通过ASB,我们基准测试了10种提示注入攻击、一种内存中毒攻击、一种新颖的思维计划后门攻击、一种混合攻击以及10种相应的防御措施,涵盖了13种LLM骨干网络,总计近90,000个测试案例。
使用方法
ASB 数据集的使用方法包括对LLM代理在不同攻击和防御场景下的性能进行基准测试。研究者和开发者可以通过ASB评估其代理在面对各种攻击时的鲁棒性,并测试不同防御策略的有效性。此外,ASB 还提供了详细的实验配置和结果分析,帮助用户理解和复现实验结果,从而推动LLM代理安全性的进一步研究和发展。
背景与挑战
背景概述
随着大型语言模型(LLMs)的快速发展,基于LLMs的智能体(agents)在处理复杂现实任务方面展现出巨大潜力。这些智能体能够利用外部工具和记忆机制来执行任务,如内容生成、问答、工具调用和编码等。然而,这种能力也带来了严重的安全漏洞。尽管已有一些研究评估了针对LLM智能体的攻击和防御,但这些评估往往不够全面。为了解决这一问题,Hanrong Zhang等研究人员在浙江大学和罗格斯大学的支持下,于2024年引入了Agent Security Bench(ASB),这是一个旨在形式化、基准化和评估LLM智能体攻击和防御的综合框架。ASB涵盖了10个场景、10个智能体、超过400个工具、23种不同类型的攻击/防御方法和8个评估指标,为LLM智能体的安全性研究提供了重要的资源。
当前挑战
ASB数据集在构建和应用过程中面临多重挑战。首先,所解决的领域问题涉及复杂的攻击和防御策略,需要精确的形式化和基准化。其次,构建过程中遇到的挑战包括如何设计涵盖多种攻击类型的全面框架,以及如何确保评估指标的准确性和全面性。此外,ASB还需要应对不同操作步骤中智能体的脆弱性,如系统提示、用户提示处理、工具使用和记忆检索等阶段的攻击。最后,当前防御措施的有效性有限,揭示了在智能体安全性方面仍有重要工作待完成。
常用场景
经典使用场景
Agent Security Bench (ASB) 数据集的经典使用场景在于评估基于大型语言模型(LLM)的智能体在不同攻击和防御策略下的安全性能。ASB 通过模拟电子商务、自动驾驶、金融等十个不同领域的场景,涵盖了超过400种工具和23种攻击/防御方法,以及8种评估指标,全面评估智能体在面对各种攻击时的表现。
解决学术问题
ASB 数据集解决了当前学术界在评估 LLM 智能体安全性方面的不足,提供了全面且系统的攻击和防御评估框架。通过 ASB,研究人员能够识别智能体在操作的各个阶段(如系统提示、用户提示处理、工具使用和记忆检索)的关键漏洞,从而推动开发更强大的防御机制和更安全的智能体。
实际应用
ASB 数据集在实际应用中具有广泛的前景,特别是在需要高度安全性和可靠性的领域,如金融、医疗和自动驾驶。通过使用 ASB 进行评估和改进,可以显著提高智能体在这些领域的安全性和鲁棒性,确保其在面对恶意攻击时仍能保持正常功能。
数据集最近研究
最新研究方向
近年来,基于大型语言模型(LLM)的智能体在处理复杂现实任务方面展现出巨大潜力,但也引发了严重的安全漏洞问题。Agent Security Bench (ASB) 数据集的最新研究聚焦于形式化和基准化针对LLM智能体的攻击与防御策略。ASB框架涵盖了10个不同场景(如电子商务、自动驾驶、金融等),10个智能体,超过400种工具,以及23种攻击/防御方法和8个评估指标。研究重点包括10种提示注入攻击、一种内存中毒攻击、一种新颖的思维计划后门攻击以及混合攻击,并评估了10种相应的防御措施。研究结果揭示了智能体在操作的不同阶段(如系统提示、用户提示处理、工具使用和内存检索)的严重漏洞,平均攻击成功率高达84.30%,但现有防御措施的有效性有限,凸显了智能体安全领域的重要工作。
相关研究论文
  • 1
    Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents浙江大学, 罗格斯大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

Materials Project

材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)

OpenDataLab 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录