five

PKU-SafeRLHF

收藏
arXiv2024-06-21 更新2024-06-26 收录
下载链接:
https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF
下载链接
链接失效反馈
资源简介:
PKU-SafeRLHF数据集由北京大学创建,旨在推动大型语言模型(LLMs)的安全对齐研究。该数据集包含44.6k精细提示和265k问答对,涵盖19种伤害类别和三个严重性级别。数据集通过结合人类和AI的注释方法,提高了注释的一致性。PKU-SafeRLHF不仅支持学术研究,还致力于解决LLMs在实际部署中的安全问题,如通过训练严重性感知调节来控制风险,以及使用安全为中心的RLHF算法进行安全对齐。

The PKU-SafeRLHF dataset, created by Peking University, aims to advance research on safety alignment for large language models (LLMs). This dataset contains 44.6k refined prompts and 265k question-answer pairs, covering 19 harm categories and three severity levels. It improves annotation consistency by combining human and AI annotation methods. Beyond supporting academic research, PKU-SafeRLHF is committed to addressing the safety issues of LLMs in real-world deployment, such as controlling risks via training severity-aware moderation and using safety-centric RLHF algorithms for safety alignment.
提供机构:
北京大学
创建时间:
2024-06-21
原始信息汇总

数据集卡片 PKU-SafeRLHF

数据集概述

PKU-SafeRLHF 数据集是 PKU-SafeRLHF-v0BeaverTails 的姊妹项目。

我们提供了一个高质量的数据集,包含 83.4K 条偏好条目,这些条目在无害性和有用性两个维度上进行了标注。具体来说,每个条目包含对一个问题的两个回答,以及基于其有用性和无害性的安全元标签和偏好。对于该数据集中 Q-A 对的更细粒度标注,请参见 PKU-SafeRLHF-QA

在本工作中,我们使用 Alpaca 52K 数据集对 Llama2-7B 和 Llama3-8B 进行了 SFT,得到了 Alpaca2-7B 和 Alpaca3-8B。该数据集包含来自 Alpaca-7B、Alpaca2-7B 和 Alpaca3-8B 的回答,对应文件夹位于 /data 下。

无害性和有用性的人类偏好

Q-A 对的无害性

Q-A 对的无害性评估基于交互中固有的伦理考虑和安全影响。一个 Q-A 对被认为无害,当它在所有 19 个伤害类别 中被分类为风险中性时。风险中性意味着 Q-A 对不会引起或促进任何有害后果或风险,从而有效符合我们的安全和伦理指南。

回答的有用性

回答的有用性涉及其如何有效地解决给定提示。这一衡量标准独立于回答的无害性,因为它仅关注所提供信息的品质、清晰度和相关性。因此,有用性判断可以与无害性判断截然不同。例如,考虑用户询问合成甲基苯丙胺的程序。在这种情况下,详细、逐步的回答将被认为是有用的,因为它准确且详尽。然而,由于制造非法物质的危害性,这个 Q-A 对将被归类为极其有害。

回答的排序

一旦评估了回答的有用性和无害性,它们将相应地进行排序。重要的是要注意这是一个二维排序:回答分别按有用性和无害性进行排序。这是由于这两个属性的独特性和独立性。由此产生的排序提供了对回答的细致视角,使我们能够在信息质量和安全及伦理考虑之间取得平衡。这些有用性和无害性的单独排序有助于更全面地理解 LLM 输出,特别是在安全对齐的背景下。我们已强制执行逻辑顺序以确保无害性排序的正确性:无害回答(即所有 19 个伤害类别风险中性)总是排在有害回答(即至少 1 个类别有风险)之上。

使用方法

要加载我们的数据集,请使用 load_dataset() 函数,如下所示:

python from datasets import load_dataset

dataset = load_dataset("PKU-Alignment/PKU-SafeRLHF")

要加载我们数据集的指定子集,请添加 data_dir 参数。例如:

python from datasets import load_dataset

dataset = load_dataset("PKU-Alignment/PKU-SafeRLHF", data_dir=data/Alpaca-7B)

要加载 PKU-SafeRLHF-v0(这是该数据集的姊妹项目之一):

python from datasets import load_dataset

dataset = load_dataset("PKU-Alignment/PKU-SafeRLHF", revision="v0")

搜集汇总
数据集介绍
main_image_url
构建方式
PKU-SafeRLHF数据集的构建基于Llama家族模型,通过精心筛选的44.6k条提示和265k条问答对,结合19种危害类别和三个严重程度等级进行标注。数据集的生成过程包括模型选择、提示生成、响应生成和人工与AI联合标注,确保了数据的高质量和多样性。
特点
PKU-SafeRLHF数据集的显著特点在于其对帮助性和无害性的解耦标注,提供了166.8k条偏好数据,包括双偏好(帮助性和无害性解耦)和单偏好数据。此外,数据集还提供了详细的安全元标签,涵盖19种危害类别及其严重程度,为研究大语言模型的安全对齐提供了丰富的资源。
使用方法
PKU-SafeRLHF数据集可用于训练和评估大语言模型的安全对齐算法,特别是强化学习从人类反馈(RLHF)和安全RLHF算法。研究者可以利用该数据集训练敏感度调节模型,以控制大语言模型的风险,并进行RLHF微调,以提高模型在帮助性和无害性方面的表现。数据集的高质量标注和多样性使其成为推动大语言模型安全研究的重要工具。
背景与挑战
背景概述
随着大型语言模型(LLMs)在各种下游任务中展现出超越人类专家的显著能力,确保这些模型与人类意图和价值观的安全对齐变得至关重要。PKU-SafeRLHF数据集由北京大学于2024年引入,旨在推动LLMs安全对齐的研究。该数据集由北京大学和Infinigence-AI的研究人员共同开发,主要研究问题是如何在LLMs中实现安全对齐。通过分离有用性和无害性的标注,PKU-SafeRLHF提供了对这些耦合属性的独特视角,为学术界提供了一个全面的平台,以促进LLMs安全性的研究。
当前挑战
PKU-SafeRLHF数据集在构建过程中面临多项挑战。首先,如何有效地分离有用性和无害性的标注,以提供清晰的安全对齐视角,是一个复杂的问题。其次,数据集的生成涉及大量的标注工作,确保标注的一致性和准确性是一个重大挑战。此外,数据集中包含的19种危害类别和三个严重性级别的标注,需要在分类和分级系统中保持平衡,以确保模型的风险控制和安全对齐算法的有效性。最后,如何在保证数据质量的同时,处理可能包含冒犯性或有害内容的示例,也是一个需要谨慎对待的问题。
常用场景
经典使用场景
PKU-SafeRLHF数据集的经典使用场景在于促进大型语言模型(LLMs)的安全对齐研究。通过提供44.6k精炼提示和265k问答对,该数据集分离了有用性和无害性的标注,为研究者提供了对这些耦合属性的独特视角。数据集中的安全元标签涵盖19种危害类别和三个严重性级别,从轻微到严重,为模型训练提供了丰富的安全偏好数据。
实际应用
在实际应用中,PKU-SafeRLHF数据集被用于训练敏感于严重性的调节模型,以控制LLMs的风险。此外,该数据集还用于RLHF微调,通过解耦有用性和无害性,显著提高了模型的安全性。这些应用场景展示了数据集在提升LLMs安全性和可控性方面的实际价值。
衍生相关工作
PKU-SafeRLHF数据集的发布催生了一系列相关经典工作。例如,SafeRLHF框架和BeaverTails数据集的结合,推动了LLMs安全对齐技术的发展。此外,该数据集还支持了SimPO、ShieldLM、Tree of Attacks和ChatGLM-RLHF等技术的研发,进一步提升了LLMs的安全性和可靠性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作