five

PKU-Alignment/PKU-SafeRLHF|人工智能伦理数据集|模型安全数据集

收藏
hugging_face2024-10-18 更新2024-03-04 收录
人工智能伦理
模型安全
下载链接:
https://hf-mirror.com/datasets/PKU-Alignment/PKU-SafeRLHF
下载链接
链接失效反馈
资源简介:
该数据集是PKU-SafeRLHF-v0和BeaverTails的兄弟项目。它包含83.4K个偏好条目,这些条目在两个维度(无害性和有用性)上进行标注。每个条目包括对一个问题两个回答,以及基于其有用性和无害性的安全元标签和偏好。数据集还包含了Alpaca-7B、Alpaca2-7B和Alpaca3-8B模型的响应。数据集的收集管道在README中有所描述。
提供机构:
PKU-Alignment
原始信息汇总

数据集概述

数据集名称

PKU-SafeRLHF

许可证

cc-by-nc-4.0

任务类别

  • text-generation

语言

  • en

标签

  • safe
  • safety
  • ai-safety
  • llm
  • lm
  • human-feedback
  • rlhf
  • safe-rlhf

大小类别

  • 100K<n<1M

数据集内容

  • 包含30k+专家比较数据。
  • 每个条目包括两个对问题的回答,以及安全元标签和偏好,考虑了帮助性和无害性。

评估标准

无害性

  • 根据14个伤害类别的风险中性评估,确保QA对不产生或促进任何有害后果。

帮助性

  • 评估回答对给定提示的有效性,关注信息的品质、清晰度和相关性。

使用方法

python from datasets import load_dataset

dataset = load_dataset("PKU-Alignment/PKU-SafeRLHF")

相关文献

AI搜集汇总
数据集介绍
main_image_url
构建方式
PKU-Alignment/PKU-SafeRLHF数据集的构建,是通过结合Alpaca 52K数据集与Llama2-7B和Llama3-8B模型进行SFT(Soft Prompt Tuning)的方式完成的。该数据集包含两个主要部分:安全元标签和基于人类偏好的偏好标签,这些标签分别针对每个问答对的有害性和有帮助性进行标注。数据集中每个条目都包括两个针对同一问题的回答,并提供了关于这些回答的安全性和偏好性信息。
特点
该数据集的特点在于其高质量的数据标注,覆盖了两个维度的偏好:无害性和有帮助性。此外,数据集对每个问答对进行了细致的标签分类,包括19种危害类别和三种危害严重级别,这为研究大型语言模型的安全性提供了丰富的标注资源。数据集的构建旨在促进LLM模型的安全性对齐,并提升模型输出的安全性和有帮助性。
使用方法
使用PKU-Alignment/PKU-SafeRLHF数据集时,用户可以通过HuggingFace的datasets库加载整个数据集或其子集。数据集的加载可以根据特定的配置名称,如'alpaca-7b','alpaca2-7b','alpaca3-8b'来选择不同的数据子集。此外,用户还可以通过指定数据集的版本号来加载特定的数据集版本,如PKU-SafeRLHF-v0。
背景与挑战
背景概述
PKU-Alignment/PKU-SafeRLHF数据集,诞生于2024年,由北京大学的研究团队精心构建,旨在通过人类偏好的数据集,促进大型语言模型(LLM)的安全对齐。该数据集汇集了83.4万条偏好条目,跨越两个维度:无害性和有益性,对每个问答对进行标注。其研究背景涵盖了大型语言模型的安全性议题,对模型的潜在危害进行了分类和严重性分级,为相关领域的研究提供了重要资源,具有重要的影响力。
当前挑战
该数据集在构建过程中面临的挑战包括:确保标注的质量和一致性,处理涉及安全、伦理和法律的问题,以及平衡回答的有益性和无害性。在解决领域问题方面,数据集需要应对如何有效标注和识别大型语言模型输出的潜在危害,以及如何通过人类反馈进行模型的安全对齐。构建过程中的挑战还包括了数据隐私的保护、版权问题的规避,以及确保数据集在研究和应用中的安全性和可靠性。
常用场景
经典使用场景
在机器学习领域,尤其是自然语言处理中,确保模型输出的安全性与有益性是至关重要的。PKU-Alignment/PKU-SafeRLHF数据集正是为了满足这一需求而构建的。该数据集最经典的使用场景在于,研究者可以利用它对大型语言模型进行微调,以改善模型在处理敏感内容时的表现,从而确保模型输出的无害性和有用性。
衍生相关工作
基于PKU-Alignment/PKU-SafeRLHF数据集,衍生出了多项相关研究工作,包括但不限于对模型安全性的更深入分析,开发新的模型评估指标,以及探索更高效的安全对齐方法。这些工作进一步扩展了该数据集的应用范围,并推动了人工智能安全领域的发展。
数据集最近研究
最新研究方向
PKU-Alignment/PKU-SafeRLHF数据集针对大型语言模型的安全性问题进行了深入研究,其最新研究方向主要聚焦于通过人类偏好数据实现多级别安全对齐。该研究通过构建包含83.4万条偏好条目的高质量数据集,这些条目根据无害性和有帮助性两个维度进行标注。该数据集的核心理念在于,不仅对问答对进行安全性标注,还引入了人类偏好,以更细致地评估模型输出的安全性。当前研究的前沿方向包括对大型语言模型输出的无害性和有帮助性进行排名,以及根据这些排名进行模型的安全对齐。这一研究对于提升语言模型的安全性,防止有害信息的产生和传播,具有重要的现实意义和深远的影响。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

Global Wind Atlas (GWA)

Global Wind Atlas (GWA) 是一个全球风能资源数据集,提供了高分辨率的风速和风能密度数据。该数据集覆盖全球范围,包括陆地和海洋,旨在支持风能项目的规划和评估。数据集提供了多种风速和风能密度指标,以及风向和风能分布图。

globalwindatlas.info 收录

YOLO-dataset

该数据集用于训练YOLO模型,包括分类、检测和姿态识别模型。目前支持v8版本,未来计划支持更多版本。

github 收录

中国交通事故深度调查(CIDAS)数据集

交通事故深度调查数据通过采用科学系统方法现场调查中国道路上实际发生交通事故相关的道路环境、道路交通行为、车辆损坏、人员损伤信息,以探究碰撞事故中车损和人伤机理。目前已积累深度调查事故10000余例,单个案例信息包含人、车 、路和环境多维信息组成的3000多个字段。该数据集可作为深入分析中国道路交通事故工况特征,探索事故预防和损伤防护措施的关键数据源,为制定汽车安全法规和标准、完善汽车测评试验规程、

北方大数据交易中心 收录