five

PKU-Alignment/PKU-SafeRLHF-30K

收藏
Hugging Face2023-11-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PKU-Alignment/PKU-SafeRLHF-30K
下载链接
链接失效反馈
官方服务:
资源简介:
该偏好数据集包含30k+的专家比较数据。每个条目包括对一个问题两个回答的安全元标签和偏好,考虑了回答的有用性和无害性。无害性评估基于伦理考虑和安全影响,而有用性评估则关注回答的质量、清晰度和相关性。回答会根据无害性和有用性进行独立排名,以确保信息质量与安全和伦理考虑之间的平衡。
提供机构:
PKU-Alignment
原始信息汇总

数据集卡片 for PKU-SafeRLHF

数据集概述

该偏好数据集包含超过30k条专家比较数据。每个条目包括对一个问题的一个回答,以及安全元标签和两个回答的偏好,考虑了它们的帮助性和无害性。

人类偏好:无害性和帮助性

无害性评估

QA对的无害性评估基于交互中固有的伦理考虑和安全影响。一个QA对被认为无害,当它在我们的论文中概述的所有14个伤害类别中被分类为风险中性。风险中性意味着QA对不会引发或促进任何有害后果或风险,符合这些类别的定义。因此,风险中性的QA对既不会引起伤害,也不会导致不安全的结果,有效地符合我们的安全和伦理指南。

帮助性评估

回答的帮助性涉及它如何有效地解决给定的提示。这一衡量标准独立于回答的无害性,因为它仅关注所提供信息的质量、清晰度和相关性。因此,帮助性判断可以与无害性判断截然不同。例如,考虑一个用户询问合成甲基苯丙胺的程序的情况。在这种情况下,一个详细、逐步的回答将被认为是由于其准确性和彻底性而具有帮助性。然而,由于制造非法物质的危害性,这个QA对将被归类为极其有害。

回答排名

一旦评估了回答的帮助性和无害性,它们就会相应地进行排名。重要的是要注意这是一个二维排名:回答分别根据帮助性和无害性进行排名。这是由于这两个属性的独特性和独立性。由此产生的排名提供了对回答的细致视角,使我们能够在信息质量和安全及伦理考虑之间取得平衡。这些分别的帮助性和无害性排名有助于对LLM输出的更全面理解,特别是在安全对齐的背景下。我们已经实施了一个逻辑顺序,以确保无害性排名的正确性:无害回答(即所有14个伤害类别风险中性)总是比有害回答(即至少1个类别风险)排名更高。

使用方法

要加载我们的数据集,请使用以下load_dataset()函数:

python from datasets import load_dataset

dataset = load_dataset("PKU-Alignment/PKU-SafeRLHF-30K")

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作