five

BIPIA

收藏
arXiv2024-03-08 更新2024-06-21 收录
下载链接:
https://github.com/microsoft/BIPIA
下载链接
链接失效反馈
官方服务:
资源简介:
BIPIA数据集由中国科学技术大学和微软公司联合开发,旨在评估大型语言模型在间接提示注入攻击下的风险。该数据集包含多种应用场景和攻击目标,总计626,250个训练样本和86,250个测试样本。数据集通过模拟真实世界中的攻击场景,帮助研究人员和开发者理解和防御此类攻击。BIPIA的应用领域包括电子邮件QA、网络QA、表格QA、摘要生成和代码QA等,旨在提高语言模型在处理外部内容时的安全性和可靠性。

The BIPIA dataset, jointly developed by the University of Science and Technology of China and Microsoft Corporation, is designed to assess the risks faced by large language models (LLMs) under indirect prompt injection attacks. This dataset covers diverse application scenarios and attack targets, with a total of 626,250 training samples and 86,250 test samples. By simulating real-world attack scenarios, it enables researchers and developers to understand such attacks and develop corresponding defense strategies. The applicable domains of BIPIA include email QA, web QA, table QA, text summarization, and code QA, among others, with the goal of enhancing the security and reliability of these LLMs when processing external content.
提供机构:
中国科学技术大学
创建时间:
2023-12-21
搜集汇总
数据集介绍
main_image_url
构建方式
BIPIA 数据集的构建基于三个主要因素:应用任务、攻击类型和攻击在第三方内容中的位置。数据集涵盖了电子邮件问答、网页问答、表格问答、摘要和代码问答等应用任务,并针对每个任务设计了特定的提示方案。攻击类型包括任务无关攻击、任务相关攻击和针对性攻击,以确保评估的全面性。攻击位置则分为内容开头、中间和结尾,以探究不同位置对攻击成功率的影响。数据集由外部内容、攻击指令和用户指令组成,通过将攻击指令嵌入到外部内容中,生成各种攻击场景的提示。
特点
BIPIA 数据集的特点在于其全面性和代表性。它涵盖了多种应用任务和攻击类型,能够有效地评估大型语言模型在面对间接提示注入攻击时的脆弱性。数据集的构建考虑了不同攻击位置的影响,并设计了相应的提示方案,以确保评估的准确性。此外,数据集还包含了大量真实的电子邮件、网页、表格和代码样本,使其更加贴近实际应用场景。
使用方法
使用 BIPIA 数据集评估大型语言模型在面对间接提示注入攻击时的脆弱性,可以通过以下步骤进行:首先,根据应用任务选择合适的提示模板,并将攻击指令嵌入到外部内容中,生成各种攻击场景的提示。然后,使用这些提示对目标模型进行评估,记录攻击成功率和模型在正常任务上的表现。最后,根据评估结果,可以分析模型的脆弱性并设计相应的防御策略。此外,BIPIA 数据集还可以用于开发新的防御方法,并通过在数据集上进行实验来验证其有效性。
背景与挑战
背景概述
在大型语言模型(LLMs)与外部内容集成的背景下,诸如微软Copilot等应用得以实现更实时、更广泛的功能。然而,这种集成也使LLMs面临着间接提示注入攻击的风险,攻击者可以在外部内容中嵌入恶意指令,从而影响LLMs的输出并导致其偏离用户预期。为了探究这一问题,我们引入了首个用于评估间接提示注入攻击风险的基准数据集BIPIA,该数据集涵盖了五种应用场景和250个攻击目标,以实现对LLMs安全性的全面评估。此外,通过对BIPIA的评估,我们深入分析了间接提示注入攻击成功的原因,即LLMs无法区分指令和外部内容,以及LLMs缺乏对执行外部内容中指令的意识。基于此分析,我们提出了两种基于提示学习的黑盒防御方法和一种基于对抗性训练的白盒防御方法。
当前挑战
BIPIA数据集的创建旨在评估LLMs在面对间接提示注入攻击时的安全性。尽管该数据集涵盖了多种应用场景和攻击目标,但仍然存在一些挑战。首先,数据集无法保证完全涵盖所有情况,例如不同的用户提示模板、用户指令、恶意指令和多轮对话场景。其次,虽然提出的黑盒防御方法简单且成本低,但它们仍然无法完全消除间接提示注入攻击。第三,尽管白盒防御方法可以有效地降低攻击成功率,但它们需要额外的训练开销。最后,我们的分析假设LLMs不应执行外部内容中的命令,但在某些特殊场景下,基于用户指令的分析,LLMs也应该执行外部内容中的命令。因此,在未来的工作中,我们需要扩大数据集的范围,纳入更广泛的各种用户提示、指令和对话场景,并考虑额外的特殊场景,以确保数据集与最新的攻击方法保持同步。同时,我们也需要与LLMs提供商合作,优化微调技术,并与LLMs集成应用的开发者合作,提高提示策略,以开发更有效、更高效的防御策略,同时保持模型性能。
常用场景
经典使用场景
BIPIA数据集作为首个针对间接提示注入攻击的基准测试,被广泛用于评估大型语言模型(LLM)在处理外部内容时的安全性。该数据集涵盖了五个应用场景,包括电子邮件问答、网络问答、表格问答、摘要和代码问答,以及250个攻击目标,旨在全面评估LLM在处理外部内容时的安全性和可靠性。通过对BIPIA数据集的评估,研究人员可以了解LLM在间接提示注入攻击下的脆弱性,并为LLM的安全性和可靠性提供有力支持。
衍生相关工作
BIPIA数据集的引入促进了LLM安全性和可靠性研究的发展。基于BIPIA数据集的研究成果,研究人员提出了多种防御机制,包括基于提示学习和对抗训练的黑盒防御方法和白盒防御方法。这些防御机制可以有效地降低间接提示注入攻击的成功率,并为LLM的安全性和可靠性提供有力支持。此外,BIPIA数据集的引入还促进了LLM安全性和可靠性研究的深入,为LLM在实际应用中的安全性和可靠性提供了有力支持。
数据集最近研究
最新研究方向
随着大型语言模型(LLMs)与外部内容的集成,如Microsoft Copilot,LLMs在应用中展现出更广泛和更新颖的能力。然而,这种集成也带来了间接提示注入攻击的风险,攻击者可以通过在第三方内容中嵌入恶意指令,使LLMs的输出偏离用户预期,从而危害LLMs的输出完整性和可信度。为了应对这一新兴的安全威胁,本研究引入了首个间接提示注入攻击基准BIPIA,用于评估LLMs在面对此类攻击时的风险。通过分析,本研究揭示了间接提示注入攻击成功的关键原因:LLMs难以区分指令和外部内容,以及LLMs缺乏对执行外部内容中嵌入的指令的意识。基于此分析,本研究提出了基于提示学习和对抗性训练的白盒防御方法,有效降低了攻击成功率。
相关研究论文
  • 1
    Benchmarking and Defending Against Indirect Prompt Injection Attacks on Large Language Models中国科学技术大学 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作