Agent Security Bench (ASB)|大型语言模型数据集|安全评估数据集
收藏Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents
数据集概述
ASB数据集旨在系统地形式化和全面评估基于LLM(大型语言模型)的代理在10个不同场景中的对抗攻击和防御策略,包括学术咨询、心理辅导、投资和法律建议等。
攻击框架
ASB包含以下攻击类型:
- DPI (Direct Prompt Injection): 直接篡改用户提示。
- OPI (Observation Prompt Injection): 篡改观察数据。
- Plan-of-Thought (PoT) Backdoor: 在特定输入下触发隐藏动作。
- Memory Poisoning Attacks: 向代理的记忆中注入恶意计划。
防御策略
ASB提供了针对上述攻击的防御方法:
- Delimiters: 防御DPI和OPI。
- Sandwich Prevention: 防御OPI。
- Instructional Prevention: 防御DPI和OPI。
- Paraphrasing: 防御DPI和PoT Backdoor。
- Shuffle: 防御PoT Backdoor。
实验结果
攻击效果
评估了5种攻击类型在13种LLM上的平均攻击结果,包括攻击成功率(ASR)和攻击响应率(RR)。
防御效果
针对DPI、OPI、Memory Poisoning和PoT Backdoor的防御效果进行了评估,结果显示防御机制在某些情况下有效,但在其他情况下效果有限。
可用的LLM
ASB中使用的LLM包括开源和闭源模型,如Gemma2、LLaMA3、Mixtral、Qwen2、Claude-3.5 Sonnet、GPT-3.5 Turbo和GPT-4o等。
自定义参数
用户可以通过YAML文件自定义攻击和防御参数,包括使用的LLM、攻击类型、防御类型等。

- 1Agent Security Bench (ASB): Formalizing and Benchmarking Attacks and Defenses in LLM-based Agents浙江大学, 罗格斯大学 · 2024年
FER2013
FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。
github 收录
Breast Ultrasound Images (BUSI)
小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。
github 收录
中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
Materials Project
材料项目是一组标有不同属性的化合物。数据集链接: MP 2018.6.1(69,239 个材料) MP 2019.4.1(133,420 个材料)
OpenDataLab 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录