BeaverTails

arXiv2023-11-07 更新2024-07-30 收录

下载链接：

https://sites.google.com/view/pku-beavertails

下载链接

链接失效反馈

资源简介：

旨在促进大型语言模型（LLMs）安全对齐研究的BeaverTails数据集，独特地将问题-回答对的有用性和无害性注释分开，提供了对这些关键属性的不同视角。总共收集了333,963个问题-答案（QA）对的安全元标签和361,903对专家比较数据，用于有用性和无害性指标。

创建时间：

2023-07-10

AI搜集汇总

数据集介绍

构建方式

在大型语言模型安全对齐的研究背景下，BeaverTails数据集通过严谨的两阶段标注流程构建而成。首先，研究团队从已有的红队提示数据集中筛选出超过16,000个独特的、具有挑衅性的问题，并利用Alpaca-7B模型生成多样化的回答，形成初始的问答对。随后，超过70名经过严格筛选、具备高等教育背景的标注人员参与标注工作。第一阶段，标注人员依据14个潜在危害类别对每个问答对进行多标签分类，并基于风险中和原则判定其安全元标签。第二阶段，标注人员针对同一提示的多个回答，分别依据无害性和有帮助性两个独立维度进行排序比较，从而生成分离的人类偏好数据。整个标注过程辅以质量控制机制，确保数据的一致性与可靠性。

特点

BeaverTails数据集的核心特点在于其开创性地将人类偏好数据中的无害性与有帮助性维度进行分离。该数据集不仅提供了超过33万个问答对的安全元标签和14类危害分类，还分别提供了超过36万对基于无害性和有帮助性的专家比较数据。这种分离设计使得研究者能够独立地评估和优化模型在安全性与实用性上的表现，为深入理解两者间的权衡关系提供了独特视角。此外，数据集采用基于风险中和的评估框架，将问答对视为整体进行安全性判断，而非孤立分析单句毒性，这更符合实际对话场景中上下文相关的安全考量。数据集中涵盖的14个危害类别广泛且具有相关性分析，为细粒度的安全研究奠定了基础。

使用方法

该数据集主要应用于大型语言模型的安全对齐研究。研究者可利用其丰富的标注信息训练自动化内容审核模型，实现对问答对风险的综合评估。在基于人类反馈的强化学习领域，数据集分离的无害性和有帮助性偏好数据可用于独立训练奖励模型和成本模型。具体而言，奖励模型专注于优化回答的有帮助性，而成本模型则用于约束模型输出的潜在危害。随后，结合PPO-Lagrangian等安全强化学习算法，可对基础语言模型进行微调，在提升模型帮助能力的同时，有效降低其产生有害内容的风险。此外，数据集的危害分类标签也可用于构建和评估细粒度的毒性检测或分类模型，推动安全评估技术的多元化发展。

背景与挑战

背景概述

BeaverTails数据集由北京大学人工智能学院于2023年创建，旨在推动大语言模型的安全对齐研究。该数据集创新性地将问答对的有益性与无害性标注分离，提供了超过33万条安全元标签及36万条专家比较数据，覆盖14种潜在危害类别。其核心研究问题聚焦于如何通过精细化的人类偏好数据，促进语言模型在遵循人类价值观的同时保持高效能力，对强化学习从人类反馈及内容审核等领域产生了深远影响。

当前挑战

在解决领域问题方面，BeaverTails致力于应对大语言模型安全对齐中的核心挑战：如何在确保模型无害性的同时不牺牲其有益性，并处理人类对“有益、无害、诚实”标准的多元解读所带来的标注复杂性。在构建过程中，团队面临两大挑战：一是设计两阶段标注流程以协调研究团队与标注团队对复杂安全概念的理解，提升标注一致性；二是处理14种危害类别之间的相关性及数据不平衡问题，例如“儿童虐待”等类别样本稀缺，影响模型训练的全面性。

常用场景

经典使用场景

在大型语言模型安全对齐研究中，BeaverTails数据集被广泛用于训练和评估模型在有害内容识别与风险中和能力方面的表现。该数据集通过分离问答对的有害性与帮助性标注，为研究者提供了独特的双重视角，使得模型能够在遵循人类价值观的同时保持信息提供的有效性。其经典应用场景包括基于人类反馈的强化学习（RLHF）训练，特别是在安全约束下的策略优化过程中，模型利用数据集中精细化的有害类别标签和偏好排序数据，学习生成既安全又有帮助的回应。

解决学术问题

BeaverTails数据集主要解决了大型语言模型安全对齐中的核心学术问题，即如何在保持模型帮助性的同时有效降低其有害输出风险。传统方法常将有害性与帮助性混为一谈，导致模型在安全性与实用性之间难以平衡。该数据集通过解耦这两种属性，并引入基于14种有害类别的风险中和评估框架，使得研究者能够分别优化模型的安全性与帮助性。此外，数据集提供的大规模人类偏好比较数据，为训练可靠的奖励模型与成本模型提供了坚实基础，推动了安全约束下强化学习算法的发展。

衍生相关工作

BeaverTails数据集衍生了一系列重要的研究工作，特别是在安全强化学习与模型对齐领域。基于其解耦的偏好数据，研究者开发了Safe-RLHF框架，将PPO-Lagrangian算法应用于语言模型训练，实现了安全性与帮助性的协同优化。该数据集还促进了多类别有害内容检测模型的进步，例如基于14类有害标签训练的二进制分类器集成系统。此外，许多后续研究借鉴其两阶段标注流程与风险中和评估理念，构建了更细粒度的安全评估基准，并在开源模型如Alpaca、Vicuna的安全微调中得到了广泛应用。

以上内容由AI搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集