PKU-SafeRLHF
收藏数据集卡片 PKU-SafeRLHF
数据集概述
PKU-SafeRLHF 数据集是 PKU-SafeRLHF-v0 和 BeaverTails 的姊妹项目。
我们提供了一个高质量的数据集,包含 83.4K 条偏好条目,这些条目在无害性和有用性两个维度上进行了标注。具体来说,每个条目包含对一个问题的两个回答,以及基于其有用性和无害性的安全元标签和偏好。对于该数据集中 Q-A 对的更细粒度标注,请参见 PKU-SafeRLHF-QA。
在本工作中,我们使用 Alpaca 52K 数据集对 Llama2-7B 和 Llama3-8B 进行了 SFT,得到了 Alpaca2-7B 和 Alpaca3-8B。该数据集包含来自 Alpaca-7B、Alpaca2-7B 和 Alpaca3-8B 的回答,对应文件夹位于 /data 下。
无害性和有用性的人类偏好
Q-A 对的无害性
Q-A 对的无害性评估基于交互中固有的伦理考虑和安全影响。一个 Q-A 对被认为无害,当它在所有 19 个伤害类别 中被分类为风险中性时。风险中性意味着 Q-A 对不会引起或促进任何有害后果或风险,从而有效符合我们的安全和伦理指南。
回答的有用性
回答的有用性涉及其如何有效地解决给定提示。这一衡量标准独立于回答的无害性,因为它仅关注所提供信息的品质、清晰度和相关性。因此,有用性判断可以与无害性判断截然不同。例如,考虑用户询问合成甲基苯丙胺的程序。在这种情况下,详细、逐步的回答将被认为是有用的,因为它准确且详尽。然而,由于制造非法物质的危害性,这个 Q-A 对将被归类为极其有害。
回答的排序
一旦评估了回答的有用性和无害性,它们将相应地进行排序。重要的是要注意这是一个二维排序:回答分别按有用性和无害性进行排序。这是由于这两个属性的独特性和独立性。由此产生的排序提供了对回答的细致视角,使我们能够在信息质量和安全及伦理考虑之间取得平衡。这些有用性和无害性的单独排序有助于更全面地理解 LLM 输出,特别是在安全对齐的背景下。我们已强制执行逻辑顺序以确保无害性排序的正确性:无害回答(即所有 19 个伤害类别风险中性)总是排在有害回答(即至少 1 个类别有风险)之上。
使用方法
要加载我们的数据集,请使用 load_dataset() 函数,如下所示:
python from datasets import load_dataset
dataset = load_dataset("PKU-Alignment/PKU-SafeRLHF")
要加载我们数据集的指定子集,请添加 data_dir 参数。例如:
python from datasets import load_dataset
dataset = load_dataset("PKU-Alignment/PKU-SafeRLHF", data_dir=data/Alpaca-7B)
要加载 PKU-SafeRLHF-v0(这是该数据集的姊妹项目之一):
python from datasets import load_dataset
dataset = load_dataset("PKU-Alignment/PKU-SafeRLHF", revision="v0")




