five

Granite Guardian

收藏
arXiv2024-12-11 更新2024-12-12 收录
下载链接:
https://github.com/ibm-granite/granite-guardian
下载链接
链接失效反馈
官方服务:
资源简介:
Granite Guardian数据集是由IBM研究院创建的一个用于训练风险检测模型的数据集,旨在检测大型语言模型(LLM)中的多种风险,包括社会偏见、暴力、性内容等。该数据集结合了来自不同来源的人类标注和合成数据,确保了标注的高质量。数据集包含7000条独特的(提示,响应)对,用于训练和评估模型。该数据集的应用领域主要集中在确保LLM的安全和负责任使用,解决模型在实际部署中可能遇到的各种风险问题。
提供机构:
IBM研究院
创建时间:
2024-12-11
搜集汇总
数据集介绍
main_image_url
构建方式
Granite Guardian数据集通过结合多样的人类标注数据和合成数据构建而成。人类标注数据来自不同背景的个体,经过多阶段的标注过程,确保标注质量。合成数据则通过精心设计的提示和分类法生成,涵盖了复杂的良性与有害提示、对抗性提示以及RAG(检索增强生成)相关的风险数据。这些数据经过质量控制和交叉验证,确保了数据集的高质量和广泛覆盖。
特点
Granite Guardian数据集具有多维度的风险覆盖,不仅包括传统的安全风险,如社会偏见、暴力、性内容等,还特别关注了RAG相关的风险,如上下文相关性、事实基础性和答案相关性。此外,数据集还涵盖了对抗性攻击(如越狱攻击)和自定义风险检测。通过结合人类标注和合成数据,数据集在风险检测的广度和深度上均表现出色,且具有较高的泛化能力。
使用方法
Granite Guardian数据集可用于训练和评估风险检测模型,特别适用于检测大语言模型(LLM)中的有害内容、对抗性攻击以及RAG相关的幻觉风险。用户可以通过监督微调(SFT)方法使用该数据集训练模型,并根据特定的风险定义进行定制化调整。数据集还提供了详细的标注指南和Python示例代码,帮助用户快速上手并集成到现有的风险检测系统中。
背景与挑战
背景概述
Granite Guardian数据集由IBM研究院于2024年推出,旨在为大型语言模型(LLM)提供风险检测功能,确保其在实际应用中的安全性和责任性。该数据集的核心研究问题是如何在多样化的应用场景中,通过检测用户输入和模型输出的潜在风险,来防止模型的滥用和确保其安全运行。Granite Guardian模型通过结合人类标注和合成数据,覆盖了多个风险维度,包括社会偏见、暴力、性内容、不道德行为、越狱攻击以及检索增强生成(RAG)中的幻觉风险。该数据集的发布不仅推动了负责任的人工智能开发,还通过开源方式促进了社区的广泛应用。
当前挑战
Granite Guardian数据集在构建过程中面临了多重挑战。首先,如何有效检测LLM中的多种风险,尤其是传统风险检测模型容易忽视的越狱攻击和RAG特定问题,是一个技术难题。其次,数据集的构建需要结合多样化的数据源,包括人类标注和合成数据,确保标注的高质量和多样性。此外,合成数据的生成需要针对复杂的对抗性攻击和RAG幻觉风险进行专门设计,以提高模型的鲁棒性。最后,如何在实际应用中平衡检测的准确性和效率,尤其是在资源受限的环境下,也是一个重要的挑战。
常用场景
经典使用场景
Granite Guardian数据集的经典使用场景主要集中在大型语言模型(LLM)的风险检测与安全防护领域。该数据集通过结合人类标注和合成数据,训练出能够检测多种风险维度的模型,包括社会偏见、暴力、性内容、不道德行为、越狱攻击以及检索增强生成(RAG)中的幻觉风险。这些模型可以作为实时内容审核的防护机制,评估生成内容的可靠性,或在RAG管道中确保答案的相关性和真实性。
衍生相关工作
Granite Guardian数据集的发布催生了一系列相关研究工作,特别是在风险检测和负责任AI领域。例如,基于该数据集的研究进一步探索了对抗性攻击的检测方法,提升了模型在复杂场景下的鲁棒性。此外,该数据集还启发了对RAG系统中幻觉风险的研究,推动了检索增强生成技术的改进。这些衍生工作不仅扩展了数据集的应用范围,还为AI系统的安全性和可靠性提供了新的解决方案。
数据集最近研究
最新研究方向
Granite Guardian数据集的最新研究方向主要集中在大型语言模型(LLM)的风险检测与安全防护领域。该数据集通过结合人类标注和合成数据,针对多种风险维度进行训练,包括社会偏见、暴力、性内容、不道德行为、越狱攻击以及检索增强生成(RAG)中的幻觉风险等。研究重点在于开发能够广泛覆盖风险检测的模型,特别是针对RAG中的上下文相关性、事实基础性和答案相关性等特定问题。Granite Guardian模型在有害内容和RAG幻觉相关基准测试中表现优异,AUC得分分别为0.871和0.854,展示了其在风险检测领域的领先地位。该数据集的开源发布旨在推动社区在负责任AI开发方面的进一步研究,特别是在确保LLM的安全性和可靠性方面具有重要意义。
相关研究论文
  • 1
    Granite GuardianIBM研究院 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作