PKU-Alignment/PKU-SafeRLHF

Name: PKU-Alignment/PKU-SafeRLHF
Creator: PKU-Alignment
Published: 2024-10-18 03:47:09
License: 暂无描述

Hugging Face2024-10-18 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/PKU-Alignment/PKU-SafeRLHF

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是PKU-SafeRLHF-v0和BeaverTails的兄弟项目。它包含83.4K个偏好条目，这些条目在两个维度（无害性和有用性）上进行标注。每个条目包括对一个问题两个回答，以及基于其有用性和无害性的安全元标签和偏好。数据集还包含了Alpaca-7B、Alpaca2-7B和Alpaca3-8B模型的响应。数据集的收集管道在README中有所描述。

This dataset is a sibling project of PKU-SafeRLHF-v0 and BeaverTails. It contains 83.4K preference entries annotated across two dimensions: harmlessness and usefulness. Each entry includes two responses to a single question, alongside safety meta-labels and preferences based on their performance in terms of usefulness and harmlessness. The dataset also encompasses responses generated by the Alpaca-7B, Alpaca2-7B, and Alpaca3-8B models. The data collection pipeline is detailed in the README file.

提供机构：

PKU-Alignment

原始信息汇总

数据集概述

数据集名称

PKU-SafeRLHF

许可证

cc-by-nc-4.0

任务类别

text-generation

语言

大小类别

100K<n<1M

数据集内容

包含30k+专家比较数据。
每个条目包括两个对问题的回答，以及安全元标签和偏好，考虑了帮助性和无害性。

评估标准

无害性

根据14个伤害类别的风险中性评估，确保QA对不产生或促进任何有害后果。

帮助性

评估回答对给定提示的有效性，关注信息的品质、清晰度和相关性。

使用方法

python from datasets import load_dataset

dataset = load_dataset("PKU-Alignment/PKU-SafeRLHF")

相关文献

Dataset Paper: https://arxiv.org/abs/2307.04657

搜集汇总

数据集介绍

构建方式

PKU-Alignment/PKU-SafeRLHF数据集的构建，是通过结合Alpaca 52K数据集与Llama2-7B和Llama3-8B模型进行SFT（Soft Prompt Tuning）的方式完成的。该数据集包含两个主要部分：安全元标签和基于人类偏好的偏好标签，这些标签分别针对每个问答对的有害性和有帮助性进行标注。数据集中每个条目都包括两个针对同一问题的回答，并提供了关于这些回答的安全性和偏好性信息。

特点

该数据集的特点在于其高质量的数据标注，覆盖了两个维度的偏好：无害性和有帮助性。此外，数据集对每个问答对进行了细致的标签分类，包括19种危害类别和三种危害严重级别，这为研究大型语言模型的安全性提供了丰富的标注资源。数据集的构建旨在促进LLM模型的安全性对齐，并提升模型输出的安全性和有帮助性。

使用方法

使用PKU-Alignment/PKU-SafeRLHF数据集时，用户可以通过HuggingFace的datasets库加载整个数据集或其子集。数据集的加载可以根据特定的配置名称，如'alpaca-7b'，'alpaca2-7b'，'alpaca3-8b'来选择不同的数据子集。此外，用户还可以通过指定数据集的版本号来加载特定的数据集版本，如PKU-SafeRLHF-v0。

背景与挑战

背景概述

PKU-Alignment/PKU-SafeRLHF数据集，诞生于2024年，由北京大学的研究团队精心构建，旨在通过人类偏好的数据集，促进大型语言模型（LLM）的安全对齐。该数据集汇集了83.4万条偏好条目，跨越两个维度：无害性和有益性，对每个问答对进行标注。其研究背景涵盖了大型语言模型的安全性议题，对模型的潜在危害进行了分类和严重性分级，为相关领域的研究提供了重要资源，具有重要的影响力。

当前挑战

该数据集在构建过程中面临的挑战包括：确保标注的质量和一致性，处理涉及安全、伦理和法律的问题，以及平衡回答的有益性和无害性。在解决领域问题方面，数据集需要应对如何有效标注和识别大型语言模型输出的潜在危害，以及如何通过人类反馈进行模型的安全对齐。构建过程中的挑战还包括了数据隐私的保护、版权问题的规避，以及确保数据集在研究和应用中的安全性和可靠性。

常用场景

经典使用场景

在机器学习领域，尤其是自然语言处理中，确保模型输出的安全性与有益性是至关重要的。PKU-Alignment/PKU-SafeRLHF数据集正是为了满足这一需求而构建的。该数据集最经典的使用场景在于，研究者可以利用它对大型语言模型进行微调，以改善模型在处理敏感内容时的表现，从而确保模型输出的无害性和有用性。

衍生相关工作

基于PKU-Alignment/PKU-SafeRLHF数据集，衍生出了多项相关研究工作，包括但不限于对模型安全性的更深入分析，开发新的模型评估指标，以及探索更高效的安全对齐方法。这些工作进一步扩展了该数据集的应用范围，并推动了人工智能安全领域的发展。

数据集最近研究