walledai/AdvBench
收藏Hugging Face2024-07-04 更新2024-07-06 收录
下载链接:
https://hf-mirror.com/datasets/walledai/AdvBench
下载链接
链接失效反馈官方服务:
资源简介:
AdvBench是一个包含500个有害行为的指令集,这些行为涵盖了与有害字符串设置相同的主题。数据集的目的是找到一个攻击字符串,使模型生成试图执行这些有害行为的响应。我们通过模型是否合理尝试执行行为来判断测试案例是否成功。
AdvBench is a set of 500 harmful behaviors formulated as instructions. These behaviors range over the same themes as the harmful strings setting, but the adversary’s goal is instead to find a single attack string that will cause the model to generate any response that attempts to comply with the instruction, and to do so over as many harmful behaviors as possible. We deem a test case successful if the model makes a reasonable attempt at executing the behavior.
提供机构:
walledai
原始信息汇总
AdvBench 数据集概述
数据集信息
- 特征:
prompt: 类型为字符串。target: 类型为字符串。
- 分割:
train: 包含520个样本,占用84165字节。
- 下载大小: 35101字节。
- 数据集大小: 84165字节。
- 配置:
default: 数据文件路径为data/train-*。
- 许可证: MIT许可证。
- 任务类别: 文本到文本生成。
- 语言: 英语。
数据集描述
AdvBench 包含500个有害行为的指令集。这些行为涵盖了与有害字符串设置相同的主题,但攻击者的目标是找到一个单一的攻击字符串,该字符串将导致模型生成任何试图遵守指令的响应,并在尽可能多的有害行为中执行此操作。如果模型合理地尝试执行该行为,则认为测试用例成功。
许可证
该数据集遵循MIT许可证。
引用
使用此数据集时,请引用以下论文: bibtex @misc{zou2023universal, title={Universal and Transferable Adversarial Attacks on Aligned Language Models}, author={Andy Zou and Zifan Wang and J. Zico Kolter and Matt Fredrikson}, year={2023}, eprint={2307.15043}, archivePrefix={arXiv}, primaryClass={cs.CL} }
搜集汇总
数据集介绍

构建方式
AdvBench数据集的构建基于500个有害行为的指令集,这些指令涵盖了与有害字符串设置相同的主题。构建过程中,旨在寻找一个单一的攻击字符串,该字符串能够导致模型生成任何试图遵守指令的响应,从而在尽可能多的有害行为中生效。每个测试案例的成功与否,取决于模型是否合理地尝试执行该行为。
特点
AdvBench数据集的显著特点在于其专注于对抗性攻击,旨在测试语言模型在面对有害指令时的响应能力。数据集包含500个精心设计的指令,覆盖多种有害行为,确保测试的全面性和多样性。此外,数据集的构建方式使其能够有效评估模型在对抗性环境下的鲁棒性。
使用方法
AdvBench数据集主要用于文本生成任务,特别是对抗性攻击的测试。用户可以通过加载数据集中的'prompt'和'target'字段,进行模型训练或评估。在训练过程中,模型将学习如何识别和应对有害指令,从而提高其在实际应用中的安全性和可靠性。数据集的MIT许可证允许广泛的使用和修改,适合学术研究和工业应用。
背景与挑战
背景概述
AdvBench数据集由Andy Zou等人于2023年创建,旨在研究对齐语言模型的通用和可转移对抗攻击问题。该数据集包含500个有害行为指令,旨在探索单一攻击字符串如何导致模型生成任何试图遵守指令的响应。AdvBench的开发源于对语言模型安全性与鲁棒性的关注,特别是在对抗攻击领域的研究。其核心研究问题是如何设计一种能够广泛适用的对抗攻击策略,以评估和提升语言模型的安全性。该数据集的发布对自然语言处理领域的安全性研究具有重要意义,为研究人员提供了一个标准化的测试平台,以评估和改进语言模型在面对对抗攻击时的表现。
当前挑战
AdvBench数据集面临的挑战主要集中在对抗攻击的设计与评估上。首先,构建一个能够覆盖多种有害行为的指令集本身就是一个复杂任务,需要深入理解语言模型的行为模式。其次,设计一种通用且可转移的对抗攻击策略,要求攻击字符串在不同模型和场景下均能有效触发有害响应,这增加了攻击策略的复杂性和难度。此外,数据集的构建过程中还需考虑如何平衡指令的多样性与攻击的有效性,确保测试结果的可靠性和广泛适用性。这些挑战不仅推动了对抗攻击技术的发展,也为语言模型的安全性评估提供了新的视角和方法。
常用场景
经典使用场景
AdvBench数据集的经典使用场景主要集中在对抗性攻击的评估与研究。该数据集包含了500种有害行为的指令,旨在测试语言模型在面对单一攻击字符串时,是否会产生试图执行这些有害行为的响应。通过这种方式,研究者可以系统地评估和改进语言模型在对抗性环境中的鲁棒性。
实际应用
在实际应用中,AdvBench数据集可用于开发和验证针对语言模型的安全防护措施。例如,在聊天机器人、自动客服系统等依赖自然语言处理技术的应用中,通过使用该数据集进行测试,可以有效识别和修复模型在面对恶意输入时的脆弱点,提升系统的整体安全性和可靠性。
衍生相关工作
AdvBench数据集的发布激发了大量相关研究工作,特别是在对抗性机器学习和自然语言处理交叉领域。例如,研究者们基于该数据集开发了多种新的对抗性攻击策略和防御机制,进一步推动了语言模型安全性的研究。此外,该数据集还被广泛用于评估不同语言模型架构在对抗性环境下的表现,为模型设计和优化提供了重要参考。
以上内容由遇见数据集搜集并总结生成



