PKU-Alignment/PKU-SafeRLHF|人工智能伦理数据集|模型安全数据集

hugging_face2024-10-18 更新2024-03-04 收录

人工智能伦理

模型安全

下载链接：

https://hf-mirror.com/datasets/PKU-Alignment/PKU-SafeRLHF

下载链接

链接失效反馈

资源简介：

该数据集是PKU-SafeRLHF-v0和BeaverTails的兄弟项目。它包含83.4K个偏好条目，这些条目在两个维度（无害性和有用性）上进行标注。每个条目包括对一个问题两个回答，以及基于其有用性和无害性的安全元标签和偏好。数据集还包含了Alpaca-7B、Alpaca2-7B和Alpaca3-8B模型的响应。数据集的收集管道在README中有所描述。

提供机构：

PKU-Alignment

原始信息汇总

数据集概述

数据集名称

PKU-SafeRLHF

许可证

cc-by-nc-4.0

任务类别

text-generation

语言

大小类别

100K<n<1M

数据集内容

包含30k+专家比较数据。
每个条目包括两个对问题的回答，以及安全元标签和偏好，考虑了帮助性和无害性。

评估标准

无害性

根据14个伤害类别的风险中性评估，确保QA对不产生或促进任何有害后果。

帮助性

评估回答对给定提示的有效性，关注信息的品质、清晰度和相关性。

使用方法

python from datasets import load_dataset

dataset = load_dataset("PKU-Alignment/PKU-SafeRLHF")

相关文献

Dataset Paper: https://arxiv.org/abs/2307.04657

AI搜集汇总

数据集介绍

构建方式

PKU-Alignment/PKU-SafeRLHF数据集的构建，是通过结合Alpaca 52K数据集与Llama2-7B和Llama3-8B模型进行SFT（Soft Prompt Tuning）的方式完成的。该数据集包含两个主要部分：安全元标签和基于人类偏好的偏好标签，这些标签分别针对每个问答对的有害性和有帮助性进行标注。数据集中每个条目都包括两个针对同一问题的回答，并提供了关于这些回答的安全性和偏好性信息。

特点

该数据集的特点在于其高质量的数据标注，覆盖了两个维度的偏好：无害性和有帮助性。此外，数据集对每个问答对进行了细致的标签分类，包括19种危害类别和三种危害严重级别，这为研究大型语言模型的安全性提供了丰富的标注资源。数据集的构建旨在促进LLM模型的安全性对齐，并提升模型输出的安全性和有帮助性。

使用方法

使用PKU-Alignment/PKU-SafeRLHF数据集时，用户可以通过HuggingFace的datasets库加载整个数据集或其子集。数据集的加载可以根据特定的配置名称，如'alpaca-7b'，'alpaca2-7b'，'alpaca3-8b'来选择不同的数据子集。此外，用户还可以通过指定数据集的版本号来加载特定的数据集版本，如PKU-SafeRLHF-v0。

背景与挑战

背景概述

PKU-Alignment/PKU-SafeRLHF数据集，诞生于2024年，由北京大学的研究团队精心构建，旨在通过人类偏好的数据集，促进大型语言模型（LLM）的安全对齐。该数据集汇集了83.4万条偏好条目，跨越两个维度：无害性和有益性，对每个问答对进行标注。其研究背景涵盖了大型语言模型的安全性议题，对模型的潜在危害进行了分类和严重性分级，为相关领域的研究提供了重要资源，具有重要的影响力。

当前挑战

该数据集在构建过程中面临的挑战包括：确保标注的质量和一致性，处理涉及安全、伦理和法律的问题，以及平衡回答的有益性和无害性。在解决领域问题方面，数据集需要应对如何有效标注和识别大型语言模型输出的潜在危害，以及如何通过人类反馈进行模型的安全对齐。构建过程中的挑战还包括了数据隐私的保护、版权问题的规避，以及确保数据集在研究和应用中的安全性和可靠性。

常用场景

经典使用场景

在机器学习领域，尤其是自然语言处理中，确保模型输出的安全性与有益性是至关重要的。PKU-Alignment/PKU-SafeRLHF数据集正是为了满足这一需求而构建的。该数据集最经典的使用场景在于，研究者可以利用它对大型语言模型进行微调，以改善模型在处理敏感内容时的表现，从而确保模型输出的无害性和有用性。

衍生相关工作

基于PKU-Alignment/PKU-SafeRLHF数据集，衍生出了多项相关研究工作，包括但不限于对模型安全性的更深入分析，开发新的模型评估指标，以及探索更高效的安全对齐方法。这些工作进一步扩展了该数据集的应用范围，并推动了人工智能安全领域的发展。

数据集最近研究

最新研究方向

PKU-Alignment/PKU-SafeRLHF数据集针对大型语言模型的安全性问题进行了深入研究，其最新研究方向主要聚焦于通过人类偏好数据实现多级别安全对齐。该研究通过构建包含83.4万条偏好条目的高质量数据集，这些条目根据无害性和有帮助性两个维度进行标注。该数据集的核心理念在于，不仅对问答对进行安全性标注，还引入了人类偏好，以更细致地评估模型输出的安全性。当前研究的前沿方向包括对大型语言模型输出的无害性和有帮助性进行排名，以及根据这些排名进行模型的安全对齐。这一研究对于提升语言模型的安全性，防止有害信息的产生和传播，具有重要的现实意义和深远的影响。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像，每张图像均给出对应的人名，共有5749人，且绝大部分人仅有一张图片。每张图片的尺寸为250X250，绝大部分为彩色图像，但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据，包括日照时间、降雨量、温度、风速等关键数据。通过这些数据，可以深入了解气象现象对不同地区的影响，并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

数据堂—103,282张驾驶员行为标注数据

103,282张驾驶员行为标注数据涵盖多年龄段、多时间段、多种行为（危险驾驶行为、疲劳驾驶行为、视线偏移行为）。在标注方面，对人脸72关键点（包括瞳孔）、人脸属性、手势检测框、安全带检测框、瞳孔关键点、行为类别进行标注。本套驾驶员行为标注数据可用于驾驶员行为分析等任务

魔搭社区收录