PKU-Alignment/PKU-SafeRLHF
收藏Hugging Face2024-10-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/PKU-Alignment/PKU-SafeRLHF
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是PKU-SafeRLHF-v0和BeaverTails的兄弟项目。它包含83.4K个偏好条目,这些条目在两个维度(无害性和有用性)上进行标注。每个条目包括对一个问题两个回答,以及基于其有用性和无害性的安全元标签和偏好。数据集还包含了Alpaca-7B、Alpaca2-7B和Alpaca3-8B模型的响应。数据集的收集管道在README中有所描述。
This dataset is a sibling project of PKU-SafeRLHF-v0 and BeaverTails. It contains 83.4K preference entries annotated across two dimensions: harmlessness and usefulness. Each entry includes two responses to a single question, alongside safety meta-labels and preferences based on their performance in terms of usefulness and harmlessness. The dataset also encompasses responses generated by the Alpaca-7B, Alpaca2-7B, and Alpaca3-8B models. The data collection pipeline is detailed in the README file.
提供机构:
PKU-Alignment
原始信息汇总
数据集概述
数据集名称
PKU-SafeRLHF
许可证
cc-by-nc-4.0
任务类别
- text-generation
语言
- en
标签
- safe
- safety
- ai-safety
- llm
- lm
- human-feedback
- rlhf
- safe-rlhf
大小类别
- 100K<n<1M
数据集内容
- 包含30k+专家比较数据。
- 每个条目包括两个对问题的回答,以及安全元标签和偏好,考虑了帮助性和无害性。
评估标准
无害性
- 根据14个伤害类别的风险中性评估,确保QA对不产生或促进任何有害后果。
帮助性
- 评估回答对给定提示的有效性,关注信息的品质、清晰度和相关性。
使用方法
python from datasets import load_dataset
dataset = load_dataset("PKU-Alignment/PKU-SafeRLHF")
相关文献
- Dataset Paper: https://arxiv.org/abs/2307.04657
搜集汇总
数据集介绍

构建方式
PKU-Alignment/PKU-SafeRLHF数据集的构建,是通过结合Alpaca 52K数据集与Llama2-7B和Llama3-8B模型进行SFT(Soft Prompt Tuning)的方式完成的。该数据集包含两个主要部分:安全元标签和基于人类偏好的偏好标签,这些标签分别针对每个问答对的有害性和有帮助性进行标注。数据集中每个条目都包括两个针对同一问题的回答,并提供了关于这些回答的安全性和偏好性信息。
特点
该数据集的特点在于其高质量的数据标注,覆盖了两个维度的偏好:无害性和有帮助性。此外,数据集对每个问答对进行了细致的标签分类,包括19种危害类别和三种危害严重级别,这为研究大型语言模型的安全性提供了丰富的标注资源。数据集的构建旨在促进LLM模型的安全性对齐,并提升模型输出的安全性和有帮助性。
使用方法
使用PKU-Alignment/PKU-SafeRLHF数据集时,用户可以通过HuggingFace的datasets库加载整个数据集或其子集。数据集的加载可以根据特定的配置名称,如'alpaca-7b','alpaca2-7b','alpaca3-8b'来选择不同的数据子集。此外,用户还可以通过指定数据集的版本号来加载特定的数据集版本,如PKU-SafeRLHF-v0。
背景与挑战
背景概述
PKU-Alignment/PKU-SafeRLHF数据集,诞生于2024年,由北京大学的研究团队精心构建,旨在通过人类偏好的数据集,促进大型语言模型(LLM)的安全对齐。该数据集汇集了83.4万条偏好条目,跨越两个维度:无害性和有益性,对每个问答对进行标注。其研究背景涵盖了大型语言模型的安全性议题,对模型的潜在危害进行了分类和严重性分级,为相关领域的研究提供了重要资源,具有重要的影响力。
当前挑战
该数据集在构建过程中面临的挑战包括:确保标注的质量和一致性,处理涉及安全、伦理和法律的问题,以及平衡回答的有益性和无害性。在解决领域问题方面,数据集需要应对如何有效标注和识别大型语言模型输出的潜在危害,以及如何通过人类反馈进行模型的安全对齐。构建过程中的挑战还包括了数据隐私的保护、版权问题的规避,以及确保数据集在研究和应用中的安全性和可靠性。
常用场景
经典使用场景
在机器学习领域,尤其是自然语言处理中,确保模型输出的安全性与有益性是至关重要的。PKU-Alignment/PKU-SafeRLHF数据集正是为了满足这一需求而构建的。该数据集最经典的使用场景在于,研究者可以利用它对大型语言模型进行微调,以改善模型在处理敏感内容时的表现,从而确保模型输出的无害性和有用性。
衍生相关工作
基于PKU-Alignment/PKU-SafeRLHF数据集,衍生出了多项相关研究工作,包括但不限于对模型安全性的更深入分析,开发新的模型评估指标,以及探索更高效的安全对齐方法。这些工作进一步扩展了该数据集的应用范围,并推动了人工智能安全领域的发展。
数据集最近研究
最新研究方向
PKU-Alignment/PKU-SafeRLHF数据集针对大型语言模型的安全性问题进行了深入研究,其最新研究方向主要聚焦于通过人类偏好数据实现多级别安全对齐。该研究通过构建包含83.4万条偏好条目的高质量数据集,这些条目根据无害性和有帮助性两个维度进行标注。该数据集的核心理念在于,不仅对问答对进行安全性标注,还引入了人类偏好,以更细致地评估模型输出的安全性。当前研究的前沿方向包括对大型语言模型输出的无害性和有帮助性进行排名,以及根据这些排名进行模型的安全对齐。这一研究对于提升语言模型的安全性,防止有害信息的产生和传播,具有重要的现实意义和深远的影响。
以上内容由遇见数据集搜集并总结生成



