PKU-Alignment/PKU-SafeRLHF-30K
收藏数据集卡片 for PKU-SafeRLHF
数据集概述
该偏好数据集包含超过30k条专家比较数据。每个条目包括对一个问题的一个回答,以及安全元标签和两个回答的偏好,考虑了它们的帮助性和无害性。
人类偏好:无害性和帮助性
无害性评估
QA对的无害性评估基于交互中固有的伦理考虑和安全影响。一个QA对被认为无害,当它在我们的论文中概述的所有14个伤害类别中被分类为风险中性。风险中性意味着QA对不会引发或促进任何有害后果或风险,符合这些类别的定义。因此,风险中性的QA对既不会引起伤害,也不会导致不安全的结果,有效地符合我们的安全和伦理指南。
帮助性评估
回答的帮助性涉及它如何有效地解决给定的提示。这一衡量标准独立于回答的无害性,因为它仅关注所提供信息的质量、清晰度和相关性。因此,帮助性判断可以与无害性判断截然不同。例如,考虑一个用户询问合成甲基苯丙胺的程序的情况。在这种情况下,一个详细、逐步的回答将被认为是由于其准确性和彻底性而具有帮助性。然而,由于制造非法物质的危害性,这个QA对将被归类为极其有害。
回答排名
一旦评估了回答的帮助性和无害性,它们就会相应地进行排名。重要的是要注意这是一个二维排名:回答分别根据帮助性和无害性进行排名。这是由于这两个属性的独特性和独立性。由此产生的排名提供了对回答的细致视角,使我们能够在信息质量和安全及伦理考虑之间取得平衡。这些分别的帮助性和无害性排名有助于对LLM输出的更全面理解,特别是在安全对齐的背景下。我们已经实施了一个逻辑顺序,以确保无害性排名的正确性:无害回答(即所有14个伤害类别风险中性)总是比有害回答(即至少1个类别风险)排名更高。
使用方法
要加载我们的数据集,请使用以下load_dataset()函数:
python from datasets import load_dataset
dataset = load_dataset("PKU-Alignment/PKU-SafeRLHF-30K")



