PKU-SafeRLHF|大型语言模型数据集|安全对齐数据集

arXiv2024-06-21 更新2024-06-26 收录

大型语言模型

安全对齐

下载链接：

https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF

下载链接

链接失效反馈

资源简介：

PKU-SafeRLHF数据集由北京大学创建，旨在推动大型语言模型（LLMs）的安全对齐研究。该数据集包含44.6k精细提示和265k问答对，涵盖19种伤害类别和三个严重性级别。数据集通过结合人类和AI的注释方法，提高了注释的一致性。PKU-SafeRLHF不仅支持学术研究，还致力于解决LLMs在实际部署中的安全问题，如通过训练严重性感知调节来控制风险，以及使用安全为中心的RLHF算法进行安全对齐。

提供机构：

北京大学

创建时间：

2024-06-21

原始信息汇总

数据集卡片 PKU-SafeRLHF

数据集概述

PKU-SafeRLHF 数据集是 PKU-SafeRLHF-v0 和 BeaverTails 的姊妹项目。

我们提供了一个高质量的数据集，包含 83.4K 条偏好条目，这些条目在无害性和有用性两个维度上进行了标注。具体来说，每个条目包含对一个问题的两个回答，以及基于其有用性和无害性的安全元标签和偏好。对于该数据集中 Q-A 对的更细粒度标注，请参见 PKU-SafeRLHF-QA。

在本工作中，我们使用 Alpaca 52K 数据集对 Llama2-7B 和 Llama3-8B 进行了 SFT，得到了 Alpaca2-7B 和 Alpaca3-8B。该数据集包含来自 Alpaca-7B、Alpaca2-7B 和 Alpaca3-8B 的回答，对应文件夹位于 /data 下。

无害性和有用性的人类偏好

Q-A 对的无害性

Q-A 对的无害性评估基于交互中固有的伦理考虑和安全影响。一个 Q-A 对被认为无害，当它在所有 19 个伤害类别中被分类为风险中性时。风险中性意味着 Q-A 对不会引起或促进任何有害后果或风险，从而有效符合我们的安全和伦理指南。

回答的有用性

回答的有用性涉及其如何有效地解决给定提示。这一衡量标准独立于回答的无害性，因为它仅关注所提供信息的品质、清晰度和相关性。因此，有用性判断可以与无害性判断截然不同。例如，考虑用户询问合成甲基苯丙胺的程序。在这种情况下，详细、逐步的回答将被认为是有用的，因为它准确且详尽。然而，由于制造非法物质的危害性，这个 Q-A 对将被归类为极其有害。

回答的排序

一旦评估了回答的有用性和无害性，它们将相应地进行排序。重要的是要注意这是一个二维排序：回答分别按有用性和无害性进行排序。这是由于这两个属性的独特性和独立性。由此产生的排序提供了对回答的细致视角，使我们能够在信息质量和安全及伦理考虑之间取得平衡。这些有用性和无害性的单独排序有助于更全面地理解 LLM 输出，特别是在安全对齐的背景下。我们已强制执行逻辑顺序以确保无害性排序的正确性：无害回答（即所有 19 个伤害类别风险中性）总是排在有害回答（即至少 1 个类别有风险）之上。

使用方法

要加载我们的数据集，请使用 load_dataset() 函数，如下所示：

python from datasets import load_dataset

dataset = load_dataset("PKU-Alignment/PKU-SafeRLHF")

要加载我们数据集的指定子集，请添加 data_dir 参数。例如：

python from datasets import load_dataset

dataset = load_dataset("PKU-Alignment/PKU-SafeRLHF", data_dir=data/Alpaca-7B)

要加载 PKU-SafeRLHF-v0（这是该数据集的姊妹项目之一）：

python from datasets import load_dataset

dataset = load_dataset("PKU-Alignment/PKU-SafeRLHF", revision="v0")

AI搜集汇总

数据集介绍

构建方式

PKU-SafeRLHF数据集的构建基于Llama家族模型，通过精心筛选的44.6k条提示和265k条问答对，结合19种危害类别和三个严重程度等级进行标注。数据集的生成过程包括模型选择、提示生成、响应生成和人工与AI联合标注，确保了数据的高质量和多样性。

特点

PKU-SafeRLHF数据集的显著特点在于其对帮助性和无害性的解耦标注，提供了166.8k条偏好数据，包括双偏好（帮助性和无害性解耦）和单偏好数据。此外，数据集还提供了详细的安全元标签，涵盖19种危害类别及其严重程度，为研究大语言模型的安全对齐提供了丰富的资源。

使用方法

PKU-SafeRLHF数据集可用于训练和评估大语言模型的安全对齐算法，特别是强化学习从人类反馈（RLHF）和安全RLHF算法。研究者可以利用该数据集训练敏感度调节模型，以控制大语言模型的风险，并进行RLHF微调，以提高模型在帮助性和无害性方面的表现。数据集的高质量标注和多样性使其成为推动大语言模型安全研究的重要工具。

背景与挑战

背景概述

随着大型语言模型（LLMs）在各种下游任务中展现出超越人类专家的显著能力，确保这些模型与人类意图和价值观的安全对齐变得至关重要。PKU-SafeRLHF数据集由北京大学于2024年引入，旨在推动LLMs安全对齐的研究。该数据集由北京大学和Infinigence-AI的研究人员共同开发，主要研究问题是如何在LLMs中实现安全对齐。通过分离有用性和无害性的标注，PKU-SafeRLHF提供了对这些耦合属性的独特视角，为学术界提供了一个全面的平台，以促进LLMs安全性的研究。

当前挑战

PKU-SafeRLHF数据集在构建过程中面临多项挑战。首先，如何有效地分离有用性和无害性的标注，以提供清晰的安全对齐视角，是一个复杂的问题。其次，数据集的生成涉及大量的标注工作，确保标注的一致性和准确性是一个重大挑战。此外，数据集中包含的19种危害类别和三个严重性级别的标注，需要在分类和分级系统中保持平衡，以确保模型的风险控制和安全对齐算法的有效性。最后，如何在保证数据质量的同时，处理可能包含冒犯性或有害内容的示例，也是一个需要谨慎对待的问题。

常用场景

经典使用场景

PKU-SafeRLHF数据集的经典使用场景在于促进大型语言模型（LLMs）的安全对齐研究。通过提供44.6k精炼提示和265k问答对，该数据集分离了有用性和无害性的标注，为研究者提供了对这些耦合属性的独特视角。数据集中的安全元标签涵盖19种危害类别和三个严重性级别，从轻微到严重，为模型训练提供了丰富的安全偏好数据。

实际应用

在实际应用中，PKU-SafeRLHF数据集被用于训练敏感于严重性的调节模型，以控制LLMs的风险。此外，该数据集还用于RLHF微调，通过解耦有用性和无害性，显著提高了模型的安全性。这些应用场景展示了数据集在提升LLMs安全性和可控性方面的实际价值。

衍生相关工作

PKU-SafeRLHF数据集的发布催生了一系列相关经典工作。例如，SafeRLHF框架和BeaverTails数据集的结合，推动了LLMs安全对齐技术的发展。此外，该数据集还支持了SimPO、ShieldLM、Tree of Attacks和ChatGLM-RLHF等技术的研发，进一步提升了LLMs的安全性和可靠性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

rag-datasets/rag-mini-bioasq

该数据集主要用于问答和句子相似性任务，涉及生物医学领域。数据集包含两个配置：text-corpus和question-answer-passages，分别对应不同的数据文件路径。数据集来源于BioASQ任务11b的训练数据集，并通过`generate.py`脚本生成了子集。

hugging_face 收录

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

Breast Cancer Dataset

该项目专注于清理和转换一个乳腺癌数据集，该数据集最初由卢布尔雅那大学医学中心肿瘤研究所获得。目标是通过应用各种数据转换技术（如分类、编码和二值化）来创建一个可以由数据科学团队用于未来分析的精炼数据集。

github 收录

猫狗图像数据集

该数据集包含猫和狗的图像，每类各12500张。训练集和测试集分别包含10000张和2500张图像，用于模型的训练和评估。

github 收录