NotInject
收藏arXiv2024-10-30 更新2024-11-01 收录
下载链接:
https://github.com/SaFoLab-WISC/InjecGuard
下载链接
链接失效反馈官方服务:
资源简介:
NotInject数据集由威斯康星大学麦迪逊分校的研究团队创建,旨在评估提示防护模型中的过度防御问题。该数据集包含339个精心设计的良性输入样本,这些样本中嵌入了常见于提示注入攻击中的触发词,以进行细粒度评估。数据集的创建过程包括触发词识别、精炼和语料生成,确保样本的语义一致性和无害性。NotInject数据集主要应用于检测和缓解提示注入攻击,旨在提高大型语言模型在面对恶意输入时的鲁棒性和准确性。
The NotInject dataset was created by a research team from the University of Wisconsin-Madison, aiming to assess the over-defense problem in prompt guard models. This dataset includes 339 meticulously designed benign input samples, which embed trigger words commonly found in prompt injection attacks to support fine-grained evaluation. The dataset's creation process covers trigger word identification, refinement, and corpus generation, ensuring the semantic consistency and harmlessness of the samples. The NotInject dataset is mainly applied to detect and mitigate prompt injection attacks, with the objective of improving the robustness and accuracy of large language models when facing malicious inputs.
提供机构:
威斯康星大学麦迪逊分校
创建时间:
2024-10-30
原始信息汇总
InjecGuard 数据集概述
数据集名称
- NotInject
数据集描述
- NotInject 数据集旨在评估现有防护模型中的过度防御问题。数据集包含339个良性样本,这些样本中嵌入了常见于提示注入攻击中的触发词。
- 数据集分为三个子集,每个子集包含具有一个、两个或三个触发词的句子。
- 每个子集包含113个良性句子,涵盖四个主题:常见查询、技术查询、虚拟创建和多语言查询。
数据集结构
- 子集划分:
- 一个触发词的句子
- 两个触发词的句子
- 三个触发词的句子
- 主题分类:
- 常见查询
- 技术查询
- 虚拟创建
- 多语言查询
数据集用途
- 用于评估提示防护模型在处理包含触发词的良性输入时的性能,特别是检测过度防御问题。
数据集下载
- 数据集可通过 Hugging Face 下载。
相关资源
- 论文:arXiv
- 代码:GitHub
- 演示页面:InjecGuard 演示
引用
@articles{InjecGuard, title={InjecGuard: Benchmarking and Mitigating Over-defense in Prompt Injection Guardrail Models}, author={Hao Li and Xiaogeng Liu and Chaowei Xiao}, journal = {arXiv preprint arXiv:2410.22770}, year={2024} }
搜集汇总
数据集介绍

构建方式
NotInject数据集的构建过程经过精心设计,以系统性地评估现有提示防护模型中的过度防御问题。该数据集包含339个精心设计的良性样本,这些样本中嵌入了常见于提示注入攻击中的触发词。构建过程分为三个主要步骤:触发词识别、触发词精炼和语料生成。首先,通过分析已知的恶意数据集和良性数据集,识别出可能引起过度防御的触发词。接着,利用大型语言模型(LLM)生成包含这些触发词的良性测试用例,确保这些用例在语义上是有意义的,且不包含任何恶意内容。最后,将这些测试用例分为三个难度级别,分别包含1、2和3个触发词,以实现更精细的评估。
使用方法
NotInject数据集主要用于评估和改进提示防护模型的性能,特别是针对过度防御问题。研究人员可以使用该数据集来测试现有模型在处理包含触发词的良性输入时的准确性,从而识别和修正模型的过度防御行为。此外,该数据集还可用于训练新的提示防护模型,通过在训练过程中引入这些精心设计的良性输入,帮助模型学习如何在保持高检测率的同时减少误报。通过这种方式,NotInject数据集为提升大型语言模型在实际应用中的安全性和可靠性提供了宝贵的资源。
背景与挑战
背景概述
随着大型语言模型(LLMs)在各个领域的广泛应用,提示注入攻击(Prompt Injection Attacks)已成为一个严重的安全威胁。这类攻击通过在自然语言输入中插入恶意或操纵性提示,导致模型执行不期望的行为,如目标劫持或敏感数据泄露。为了应对这一问题,提示防护模型(Prompt Guard Models)应运而生,它们通过分析输入数据的语义来检测恶意意图。然而,这些模型在防御过程中存在过度防御(Over-defense)的问题,即错误地将良性输入标记为恶意。为解决这一问题,威斯康星大学麦迪逊分校的研究团队于2024年引入了NotInject数据集,该数据集包含339个经过精心设计的良性样本,这些样本中嵌入了提示注入攻击中常见的触发词,从而能够系统地评估提示防护模型的过度防御问题。
当前挑战
NotInject数据集的构建过程中面临的主要挑战包括:1) 识别和提炼出可能导致过度防御的触发词;2) 生成既包含触发词又保持良性意图的样本。此外,当前的提示防护模型在检测恶意输入时存在过度依赖特定关键词的问题,导致误报率较高。NotInject数据集通过引入包含触发词的良性样本,揭示了现有模型在处理这类输入时的不足,特别是过度防御问题。这不仅对模型的准确性提出了挑战,也促使研究者开发新的训练策略以减少模型对触发词的依赖,从而提高模型的鲁棒性和实用性。
常用场景
经典使用场景
NotInject数据集在评估和缓解提示注入防护模型中的过度防御问题方面具有经典应用场景。该数据集通过包含339个精心设计的良性样本,这些样本富含有常见的提示注入攻击触发词,从而能够对各种提示防护模型进行细致的评估。研究者利用NotInject数据集,系统地测量了现有模型的过度防御问题,发现即使是先进的模型,其准确率也接近随机猜测水平(60%)。这种评估方法为开发更有效的提示防护模型提供了关键的基准数据。
解决学术问题
NotInject数据集解决了在大型语言模型(LLMs)安全研究中常见的过度防御问题。过度防御是指模型由于对特定触发词的偏见,错误地将良性输入标记为恶意,导致误报率增加。通过引入NotInject数据集,研究者能够系统地评估和量化这一问题,揭示了现有模型在处理包含触发词的良性输入时的不足。这不仅提升了对提示注入攻击防御机制的理解,还为开发更鲁棒的模型提供了理论基础和实验依据。
实际应用
NotInject数据集在实际应用中主要用于提升大型语言模型(LLMs)的安全性和可靠性。在虚拟助手、医疗诊断工具等需要即时和可靠访问的交互系统中,提示注入攻击可能导致严重的数据泄露或目标劫持。通过使用NotInject数据集进行模型训练和评估,可以有效减少误报,确保模型在面对包含触发词的良性输入时能够做出正确判断,从而提高系统的整体安全性和用户体验。
数据集最近研究
最新研究方向
在大型语言模型(LLMs)的安全性研究领域,NotInject数据集的最新研究聚焦于解决提示注入攻击中的过度防御问题。提示注入攻击对LLMs构成严重威胁,可能导致目标劫持和数据泄露。尽管现有的提示防护模型在防御方面有效,但它们往往因触发词偏见而错误地将良性输入标记为恶意,从而引发过度防御问题。NotInject数据集通过包含339个带有常见触发词的良性样本,系统地评估了各种提示防护模型的过度防御情况。研究结果表明,最先进的模型在过度防御问题上表现不佳,准确率接近随机猜测水平(60%)。为缓解这一问题,研究者提出了InjecGuard模型,该模型采用了一种新的训练策略——免费缓解过度防御(MOF),显著减少了触发词偏见,并在多个基准测试中表现出色,超越了现有最佳模型30.8%,提供了一个鲁棒且开源的解决方案来检测提示注入攻击。
相关研究论文
- 1InjecGuard: Benchmarking and Mitigating Over-defense in Prompt Injection Guardrail Models威斯康星大学麦迪逊分校 · 2024年
以上内容由遇见数据集搜集并总结生成



