Granite Guardian

Name: Granite Guardian
Creator: IBM研究院
Published: 2024-12-11 02:17:02
License: 暂无描述

arXiv2024-12-11 更新2024-12-12 收录

下载链接：

https://github.com/ibm-granite/granite-guardian

下载链接

链接失效反馈

官方服务：

资源简介：

Granite Guardian数据集是由IBM研究院创建的一个用于训练风险检测模型的数据集，旨在检测大型语言模型（LLM）中的多种风险，包括社会偏见、暴力、性内容等。该数据集结合了来自不同来源的人类标注和合成数据，确保了标注的高质量。数据集包含7000条独特的（提示，响应）对，用于训练和评估模型。该数据集的应用领域主要集中在确保LLM的安全和负责任使用，解决模型在实际部署中可能遇到的各种风险问题。

提供机构：

IBM研究院

创建时间：

2024-12-11

搜集汇总

数据集介绍

构建方式

Granite Guardian数据集通过结合多样的人类标注数据和合成数据构建而成。人类标注数据来自不同背景的个体，经过多阶段的标注过程，确保标注质量。合成数据则通过精心设计的提示和分类法生成，涵盖了复杂的良性与有害提示、对抗性提示以及RAG（检索增强生成）相关的风险数据。这些数据经过质量控制和交叉验证，确保了数据集的高质量和广泛覆盖。

特点

Granite Guardian数据集具有多维度的风险覆盖，不仅包括传统的安全风险，如社会偏见、暴力、性内容等，还特别关注了RAG相关的风险，如上下文相关性、事实基础性和答案相关性。此外，数据集还涵盖了对抗性攻击（如越狱攻击）和自定义风险检测。通过结合人类标注和合成数据，数据集在风险检测的广度和深度上均表现出色，且具有较高的泛化能力。

使用方法

Granite Guardian数据集可用于训练和评估风险检测模型，特别适用于检测大语言模型（LLM）中的有害内容、对抗性攻击以及RAG相关的幻觉风险。用户可以通过监督微调（SFT）方法使用该数据集训练模型，并根据特定的风险定义进行定制化调整。数据集还提供了详细的标注指南和Python示例代码，帮助用户快速上手并集成到现有的风险检测系统中。

背景与挑战

背景概述

Granite Guardian数据集由IBM研究院于2024年推出，旨在为大型语言模型（LLM）提供风险检测功能，确保其在实际应用中的安全性和责任性。该数据集的核心研究问题是如何在多样化的应用场景中，通过检测用户输入和模型输出的潜在风险，来防止模型的滥用和确保其安全运行。Granite Guardian模型通过结合人类标注和合成数据，覆盖了多个风险维度，包括社会偏见、暴力、性内容、不道德行为、越狱攻击以及检索增强生成（RAG）中的幻觉风险。该数据集的发布不仅推动了负责任的人工智能开发，还通过开源方式促进了社区的广泛应用。

当前挑战

Granite Guardian数据集在构建过程中面临了多重挑战。首先，如何有效检测LLM中的多种风险，尤其是传统风险检测模型容易忽视的越狱攻击和RAG特定问题，是一个技术难题。其次，数据集的构建需要结合多样化的数据源，包括人类标注和合成数据，确保标注的高质量和多样性。此外，合成数据的生成需要针对复杂的对抗性攻击和RAG幻觉风险进行专门设计，以提高模型的鲁棒性。最后，如何在实际应用中平衡检测的准确性和效率，尤其是在资源受限的环境下，也是一个重要的挑战。

常用场景

经典使用场景

Granite Guardian数据集的经典使用场景主要集中在大型语言模型（LLM）的风险检测与安全防护领域。该数据集通过结合人类标注和合成数据，训练出能够检测多种风险维度的模型，包括社会偏见、暴力、性内容、不道德行为、越狱攻击以及检索增强生成（RAG）中的幻觉风险。这些模型可以作为实时内容审核的防护机制，评估生成内容的可靠性，或在RAG管道中确保答案的相关性和真实性。

衍生相关工作

Granite Guardian数据集的发布催生了一系列相关研究工作，特别是在风险检测和负责任AI领域。例如，基于该数据集的研究进一步探索了对抗性攻击的检测方法，提升了模型在复杂场景下的鲁棒性。此外，该数据集还启发了对RAG系统中幻觉风险的研究，推动了检索增强生成技术的改进。这些衍生工作不仅扩展了数据集的应用范围，还为AI系统的安全性和可靠性提供了新的解决方案。

数据集最近研究