SafeRAG

github2025-02-03 更新2025-02-10 收录

下载链接：

https://github.com/IAAR-Shanghai/SafeRAG

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于评估检索增强生成（RAG）模型的安全性，包含多个知识库和攻击任务，用于测试模型在不同攻击场景下的表现。

This dataset is designed to evaluate the security of Retrieval-Augmented Generation (RAG) models, incorporating multiple knowledge bases and attack tasks to test the models' performance under various attack scenarios.

创建时间：

2025-01-27

搜集汇总

数据集介绍

构建方式

SafeRAG数据集的构建，旨在评估大型语言模型中检索增强生成(RAG)的安全性。该数据集通过模拟不同的攻击场景，包括银噪声(SN)、上下文冲突(ICC)、软广告(SA)以及白名单拒绝服务(WDoS)，创建了特定的知识库，并在这些知识库上添加了相应的攻击，以构建用于评估的向量数据库和实验数据集。

特点

该数据集的主要特点在于其创新性地提出了针对RAG系统的安全性评估框架，并提供了多样化的攻击类型和知识库。它不仅包含了干净的知识库，还包含了针对这些知识库的攻击版本，允许研究者在不同的安全威胁下评估模型的表现。此外，数据集还包含了用于评估生成质量的指标，如BLEU、ROUGE、BERTScore以及多选问答的QuestEval。

使用方法

使用SafeRAG数据集，研究者首先需要安装依赖包，启动milvus-lite服务作为向量数据库，下载预训练的语言模型，并根据需要修改配置文件。之后，通过运行quick_start_nctd.py脚本，可以执行安全性评估实验。脚本中的参数允许用户定义检索器、模型名称、攻击任务、攻击模块、攻击强度等，以灵活地进行不同条件下的安全性测试。

背景与挑战

背景概述

SafeRAG数据集，旨在对检索增强生成（Retrieval-Augmented Generation, RAG）模型的安全性进行评估，该数据集由多个子数据集组成，每个子数据集针对特定的攻击类型构建。SafeRAG的创建，标志着在大型语言模型领域对生成安全性的关注达到了一个新的高度。该数据集由一群专注于自然语言处理安全性的研究人员开发，并于近年推出。SafeRAG不仅为研究人员提供了一个评估RAG模型安全性的统一平台，而且对促进相关防御技术的发展起到了推动作用，对自然语言处理领域的安全研究具有重要影响。

当前挑战

SafeRAG数据集面临的挑战主要涉及两个方面：一是所解决的领域问题，即如何有效地评估和提升RAG模型在对抗攻击下的鲁棒性；二是构建过程中的挑战，包括如何构建具有代表性的攻击知识库，以及如何确保评估指标的准确性和公平性。具体来说，数据集需要包含多种攻击类型，如银噪声（Silver Noise）、上下文冲突（Inter-Context Conflict）、软广告（Soft Ad）和白色拒绝服务（White DoS）等，这些攻击类型的构建和有效评估是该数据集的主要挑战。

常用场景

经典使用场景

SafeRAG数据集作为评估检索增强生成模型（RAG）安全性的基准，其经典使用场景在于对大型语言模型（LLM）在检索增强生成过程中的安全性进行综合评估。通过构建包含特定攻击类型的知识库，该数据集使得研究者在模拟真实攻击情境下，对LLM进行安全性测试，从而确保生成内容的安全性。

衍生相关工作

基于SafeRAG数据集，研究者可开展多种衍生工作，如开发新的防御机制、设计更安全的检索增强生成模型，以及构建针对特定攻击类型的评估指标。这些相关工作进一步推动了文本生成模型安全性研究的深入，促进了相关领域的发展。

数据集最近研究