PKU-Alignment/BeaverTails-Evaluation

Name: PKU-Alignment/BeaverTails-Evaluation
Creator: PKU-Alignment
Published: 2023-07-20 15:31:24
License: 暂无描述

Hugging Face2023-07-20 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/PKU-Alignment/BeaverTails-Evaluation

下载链接

链接失效反馈

官方服务：

资源简介：

BeaverTails-Evaluation是一个专注于AI安全性的数据集，包含一系列用于评估语言模型安全性的测试提示。数据集定义了14个有害类别，每个类别都有详细的描述，包括动物虐待、儿童虐待、争议话题和政治、歧视和刻板印象、药物滥用和武器、金融犯罪和财产犯罪、仇恨言论和冒犯性语言、关于伦理、法律和安全的错误信息、非暴力不道德行为、隐私侵犯、自残、性内容和成人内容、恐怖主义和有组织犯罪、暴力和煽动。数据集旨在用于研究，以减少或防止AI系统造成的伤害。

BeaverTails-Evaluation is a dataset dedicated to AI safety, encompassing a set of test prompts for evaluating the safety of language models. The dataset defines 14 harmful categories, each accompanied by detailed descriptions, including animal abuse, child abuse, controversial topics and politics, discrimination and stereotypes, drug abuse and weapons, financial crimes and property crimes, hate speech and offensive language, misinformation regarding ethics, law and safety, non-violent unethical behaviors, privacy violations, self-harm, sexual content and adult content, terrorism and organized crime, and violence and incitement. This dataset is intended for research purposes to reduce or prevent harm caused by AI systems.

提供机构：

PKU-Alignment

原始信息汇总

数据集概述

数据集名称

BeaverTails-Evaluation

数据集描述

BeaverTails-Evaluation 是一个专注于AI安全的系列数据集，包含专门设计用于评估语言模型安全的测试提示。每个提示可能与多个类别相关，但每个提示仅标记一个类别。

数据集内容

包含14种危害类别，涵盖：
- 动物虐待
- 儿童虐待
- 争议性话题、政治
- 歧视、刻板印象、不公正
- 药物滥用、武器、违禁物质
- 金融犯罪、财产犯罪、盗窃
- 仇恨言论、冒犯性语言
- 关于伦理、法律和安全的错误信息
- 非暴力不道德行为
- 隐私侵犯
- 自残
- 性内容、成人内容
- 恐怖主义、有组织犯罪
- 暴力、协助和教唆、煽动

数据集用途

主要用于研究目的，特别是旨在创建更安全、危害更小的AI系统的研究。

数据集注意事项

数据集内容可能包含令人反感或不安的内容，如歧视性语言和关于虐待、暴力、自残、剥削等可能引起困扰的主题。
数据集不应用于训练对话代理，因为这可能导致有害的模型行为。

数据集许可

数据集及其系列根据CC BY-NC 4.0许可发布。

搜集汇总

数据集介绍

构建方式

在人工智能安全研究领域，构建高质量评估数据集对于衡量语言模型的安全性至关重要。BeaverTails-Evaluation数据集的构建采用了精心设计的测试提示词方法，这些提示词覆盖了从动物虐待到恐怖主义等14个明确的伤害类别。每个提示词仅关联一个主要类别，确保了标注的清晰性与评估的针对性。数据集的构建过程注重内容的代表性与多样性，旨在全面检验模型在面临潜在有害查询时的反应能力，为安全对齐研究提供了标准化的评估基准。

特点

该数据集的核心特点在于其系统化的伤害分类体系与聚焦评估的设计导向。它明确界定了14类伤害范畴，包括歧视性言论、隐私侵犯、自我伤害等，每一条数据均对应单一类别标签，避免了多标签带来的评估模糊性。数据集规模精炼，专注于提供高质量、目标明确的测试用例，而非用于模型训练，从而有效防止了有害内容的传播与模型行为的恶化。其内容可能涉及令人不适的主题，强调了在研究中需秉持审慎与负责任的态度。

使用方法

研究人员可通过Hugging Face的`datasets`库便捷加载此数据集，用于评估语言模型的安全性表现。典型的使用方式是加载整个评估集或指定版本（如v1）的数据，随后将测试提示输入待评估模型，并分析其响应是否符合安全预期。该数据集专为评估设计，严禁用于训练对话代理，以避免诱导模型学习有害内容。其主要服务于旨在降低人工智能系统风险的学术研究，为开发更安全、更无害的AI系统提供关键的评测工具。

背景与挑战

背景概述

随着大型语言模型在自然语言处理领域的广泛应用，其生成内容的安全性评估成为人工智能伦理研究的关键议题。北京大学对齐团队于2023年创建的BeaverTails-Evaluation数据集，旨在系统性地评估语言模型在多种潜在危害类别上的安全表现。该数据集聚焦于十四类敏感主题，涵盖从暴力煽动到隐私侵犯等广泛领域，为研究人员提供了标准化测试基准，推动了AI安全对齐领域从理论到实证评估的范式转变。

当前挑战

该数据集致力于解决语言模型安全对齐中多维度危害内容识别的核心挑战，其难点在于如何精准界定十四类相互交织的伦理边界，并构建具有判别力的测试提示。在构建过程中，研究团队面临标注一致性与类别平衡性的双重考验，需在避免主观偏见的同时，确保各类别样本能有效触发模型的风险响应。此外，如何设计既覆盖全面又避免诱导性过强的评估提示，亦是构建过程中的重要技术障碍。

常用场景

经典使用场景

在人工智能安全研究领域，BeaverTails-Evaluation数据集被广泛用于评估大型语言模型在生成内容时的安全性与伦理边界。该数据集通过精心设计的测试提示，覆盖了从仇恨言论、暴力煽动到隐私侵犯等14类潜在危害类别，为研究者提供了一个标准化的基准测试平台。经典使用场景包括对模型进行安全对齐评估，检测其在面对敏感话题时的响应是否遵循伦理准则，从而确保模型输出符合社会规范与安全标准。

衍生相关工作

基于BeaverTails-Evaluation数据集，衍生了一系列经典研究工作，例如安全对齐算法的比较分析、多模态模型伦理评估框架的构建，以及针对特定危害类别的增强检测技术。这些工作进一步扩展了数据集的适用范围，推动了如RLHF（基于人类反馈的强化学习）等安全训练方法的发展，并为国际人工智能安全标准制定提供了关键参考。

数据集最近研究