Granite Guardian

Name: Granite Guardian
Creator: IBM研究院
Published: 2024-12-11 02:17:02
License: 暂无描述

arXiv2024-12-11 更新2024-12-12 收录

下载链接：

https://github.com/ibm-granite/granite-guardian

下载链接

链接失效反馈

官方服务：

资源简介：

Granite Guardian数据集是由IBM研究院创建的一个用于训练风险检测模型的数据集，旨在检测大型语言模型（LLM）中的多种风险，包括社会偏见、暴力、性内容等。该数据集结合了来自不同来源的人类标注和合成数据，确保了标注的高质量。数据集包含7000条独特的（提示，响应）对，用于训练和评估模型。该数据集的应用领域主要集中在确保LLM的安全和负责任使用，解决模型在实际部署中可能遇到的各种风险问题。

The Granite Guardian dataset, developed by IBM Research, is a resource for training risk detection models aimed at detecting various risks within large language models (LLMs), including social bias, violent content, sexually explicit material, and more. This dataset combines human-annotated data and synthetic data from diverse sources to ensure high-quality labeling. It contains 7,000 unique (prompt, response) pairs for model training and evaluation. Its primary application domains focus on ensuring the safe and responsible use of LLMs, and addressing various risk issues that models may encounter during real-world deployment.

提供机构：

IBM研究院

创建时间：

2024-12-11

搜集汇总

数据集介绍

构建方式

Granite Guardian数据集通过结合多样的人类标注数据和合成数据构建而成。人类标注数据来自不同背景的个体，经过多阶段的标注过程，确保标注质量。合成数据则通过精心设计的提示和分类法生成，涵盖了复杂的良性与有害提示、对抗性提示以及RAG（检索增强生成）相关的风险数据。这些数据经过质量控制和交叉验证，确保了数据集的高质量和广泛覆盖。

特点

Granite Guardian数据集具有多维度的风险覆盖，不仅包括传统的安全风险，如社会偏见、暴力、性内容等，还特别关注了RAG相关的风险，如上下文相关性、事实基础性和答案相关性。此外，数据集还涵盖了对抗性攻击（如越狱攻击）和自定义风险检测。通过结合人类标注和合成数据，数据集在风险检测的广度和深度上均表现出色，且具有较高的泛化能力。

使用方法

Granite Guardian数据集可用于训练和评估风险检测模型，特别适用于检测大语言模型（LLM）中的有害内容、对抗性攻击以及RAG相关的幻觉风险。用户可以通过监督微调（SFT）方法使用该数据集训练模型，并根据特定的风险定义进行定制化调整。数据集还提供了详细的标注指南和Python示例代码，帮助用户快速上手并集成到现有的风险检测系统中。

背景与挑战

背景概述

Granite Guardian数据集由IBM研究院于2024年推出，旨在为大型语言模型（LLM）提供风险检测功能，确保其在实际应用中的安全性和责任性。该数据集的核心研究问题是如何在多样化的应用场景中，通过检测用户输入和模型输出的潜在风险，来防止模型的滥用和确保其安全运行。Granite Guardian模型通过结合人类标注和合成数据，覆盖了多个风险维度，包括社会偏见、暴力、性内容、不道德行为、越狱攻击以及检索增强生成（RAG）中的幻觉风险。该数据集的发布不仅推动了负责任的人工智能开发，还通过开源方式促进了社区的广泛应用。

当前挑战

Granite Guardian数据集在构建过程中面临了多重挑战。首先，如何有效检测LLM中的多种风险，尤其是传统风险检测模型容易忽视的越狱攻击和RAG特定问题，是一个技术难题。其次，数据集的构建需要结合多样化的数据源，包括人类标注和合成数据，确保标注的高质量和多样性。此外，合成数据的生成需要针对复杂的对抗性攻击和RAG幻觉风险进行专门设计，以提高模型的鲁棒性。最后，如何在实际应用中平衡检测的准确性和效率，尤其是在资源受限的环境下，也是一个重要的挑战。

常用场景

经典使用场景

Granite Guardian数据集的经典使用场景主要集中在大型语言模型（LLM）的风险检测与安全防护领域。该数据集通过结合人类标注和合成数据，训练出能够检测多种风险维度的模型，包括社会偏见、暴力、性内容、不道德行为、越狱攻击以及检索增强生成（RAG）中的幻觉风险。这些模型可以作为实时内容审核的防护机制，评估生成内容的可靠性，或在RAG管道中确保答案的相关性和真实性。

衍生相关工作

Granite Guardian数据集的发布催生了一系列相关研究工作，特别是在风险检测和负责任AI领域。例如，基于该数据集的研究进一步探索了对抗性攻击的检测方法，提升了模型在复杂场景下的鲁棒性。此外，该数据集还启发了对RAG系统中幻觉风险的研究，推动了检索增强生成技术的改进。这些衍生工作不仅扩展了数据集的应用范围，还为AI系统的安全性和可靠性提供了新的解决方案。

数据集最近研究