BeaverTails-V

Name: BeaverTails-V
Creator: PKU-Alignment
Published: 2025-03-22 20:53:36
License: 暂无描述

Hugging Face2025-03-22 更新2025-03-23 收录

下载链接：

https://huggingface.co/datasets/PKU-Alignment/BeaverTails-V

下载链接

链接失效反馈

官方服务：

资源简介：

BeaverTails-V数据集是一个包含多种类型有害内容的数据集，旨在用于检测和分类不同种类的风险内容。它包含了心理恐怖和黑暗主题、心理伤害和操纵、危险行为、色情内容、有害健康内容等多种类别。每个类别下都有问题和相应的图像，以及关于图像严重性、回答和回答安全性的信息。数据集分为训练集和评估集，可以用于模型训练和评估。

The BeaverTails-V dataset is a curated collection of diverse harmful content, intended for the detection and classification of various types of risky content. It encompasses multiple categories including psychological horror and dark themes, psychological harm and manipulation, hazardous behaviors, pornographic content, and health-endangering content, among others. For each category, there are accompanying questions, corresponding images, as well as information regarding the severity of the images, the associated responses, and the safety of these responses. The dataset is split into a training set and an evaluation set, which can be employed for model training and evaluation.

提供机构：

PKU-Alignment

创建时间：

2025-03-22

原始信息汇总

BeaverTails-V 数据集概述

数据集基本信息

名称: BeaverTails-V
语言: 英语 (en)
许可证: CC BY-NC 4.0
大小分类: 未指定

数据集结构

BeaverTails-V 数据集包含多个配置（config），每个配置对应不同的主题类别。每个配置包含以下特征（features）：

question: 字符串类型，表示问题。
image: 图像类型，表示与问题相关的图像。
category: 字符串类型，表示问题的类别。
image_severity: 整数类型，表示图像的严重程度。
response: 字符串类型，表示对问题的回答。
is_response_safe: 字符串类型，表示回答是否安全。

数据集配置

数据集包含以下配置，每个配置都有训练集（train）和评估集（evaluation）两个划分：

psychological_horror_and_dark_themes
- 训练集: 5536 个样本，685591887 字节
- 评估集: 58 个样本，4409051 字节
psychological_harm_and_manipulation
- 训练集: 2254 个样本，162564417 字节
- 评估集: 60 个样本，1920687 字节
dangerous_behavior
- 训练集: 5242 个样本，519051999 字节
- 评估集: 60 个样本，1998012 字节
pornographic_content
- 训练集: 3702 个样本，436593841 字节
- 评估集: 60 个样本，4894613 字节
harmful_health_content
- 训练集: 3852 个样本，387021213 字节
- 评估集: 60 个样本，2779967 字节
identity_misuse_and_impersonation
- 训练集: 400 个样本，17528954 字节
- 评估集: 58 个样本，2277011 字节
discriminatory_depictions
- 训练集: 1182 个样本，82069270 字节
- 评估集: 60 个样本，2815323 字节
false_information
- 训练集: 1540 个样本，133736624 字节
- 评估集: 60 个样本，4030957 字节
privacy_invasion_and_surveillance
- 训练集: 2250 个样本，210360982 字节
- 评估集: 60 个样本，3642185 字节
financial_and_academic_fraud
- 训练集: 1336 个样本，93713641 字节
- 评估集: 58 个样本，2525459 字节
sexual_crimes
- 训练集: 2648 个样本，201379908 字节
- 评估集: 60 个样本，4975413 字节
terrorism_or_extremism
- 训练集: 3694 个样本，493722499 字节
- 评估集: 58 个样本，5323185 字节
violence_and_physical_harm
- 训练集: 3732 个样本，515298619 字节
- 评估集: 58 个样本，4920567 字节
deception_in_personal_relationships
- 训练集: 1508 个样本，141717553 字节
- 评估集: 60 个样本，2546418 字节
sensitive_information_in_key_areas
- 训练集: 3196 个样本，438716623 字节
- 评估集: 58 个样本，3344563 字节
horror_and_gore
- 训练集: 4604 个样本，614233172 字节
- 评估集: 60 个样本，3674890 字节
environmental_damage
- 训练集: 4754 个样本，542212724 字节
- 评估集: 56 个样本，3236711 字节
hacking_or_digital_crime
- 训练集: 4296 个样本，436200384 字节
- 评估集: 56 个样本，1706969 字节
animal_abuse
- 训练集: 3156 个样本，364449971 字节
- 评估集: 60 个样本，5968210 字节
insulting_and_harassing_behavior
- 训练集: 766 个样本，28282585 字节
- 评估集: 60 个样本，2053091 字节

数据集大小

总下载大小: 约 3.5 GB
总数据集大小: 约 3.5 GB

数据文件路径

每个配置的数据文件路径如下：

训练集: data/{config_name}/train*
评估集: data/{config_name}/evaluation*

搜集汇总

数据集介绍

构建方式

BeaverTails-V数据集的构建基于多模态数据，涵盖了文本、图像及其相关元信息。数据集通过精心设计的标注流程，确保每个样本包含问题、图像、类别、图像严重程度、回答以及回答是否安全等关键信息。数据集的构建过程注重多样性和代表性，涵盖了多个敏感主题，如心理恐怖、危险行为、色情内容等，确保数据在多个维度上的广泛覆盖。

使用方法

BeaverTails-V数据集可用于多模态模型的训练和评估，特别是在处理敏感内容和安全回答的场景中。用户可以通过加载数据集的不同配置，针对特定主题进行模型训练。数据集提供了详细的元信息，如图像严重程度和回答安全性，可用于模型性能的细粒度评估。此外，数据集的评估集可用于模型在真实场景中的表现测试，确保其在实际应用中的可靠性。

背景与挑战

背景概述

BeaverTails-V数据集是一个专注于多模态内容安全评估的数据集，旨在通过结合文本和图像数据，评估模型在应对敏感和有害内容时的表现。该数据集由多个配置组成，涵盖了心理恐怖、危险行为、色情内容、虚假信息等多个敏感主题。其核心研究问题在于如何通过多模态数据（文本与图像）来检测和过滤有害内容，确保人工智能系统的安全性和可靠性。该数据集的创建为相关领域的研究提供了重要的基准，尤其是在多模态内容安全评估方面，推动了模型在复杂场景下的鲁棒性研究。

当前挑战

BeaverTails-V数据集面临的挑战主要体现在两个方面。首先，数据集所解决的领域问题涉及多模态内容的安全评估，这要求模型不仅能够理解文本内容，还需对图像信息进行准确解析，这对模型的跨模态理解能力提出了极高要求。其次，在数据集的构建过程中，如何确保数据的多样性和代表性是一个关键挑战。由于涉及敏感和有害内容，数据的收集和标注需要极高的伦理标准和技术支持，同时还需平衡不同类别数据的分布，以避免模型在特定类别上出现偏差。此外，如何定义和量化‘安全响应’也是一个复杂的问题，需要结合领域专家的知识和实际应用场景进行精细设计。

常用场景

经典使用场景

BeaverTails-V数据集在心理学、社会学和计算机科学领域具有广泛的应用，尤其是在研究人类对恐怖、暴力、歧视等敏感内容的反应时。该数据集通过结合图像和文本数据，能够帮助研究者深入分析不同情境下人类的情感反应和行为模式。经典的使用场景包括情感分析、内容安全评估以及多模态学习模型的训练与测试。

解决学术问题

BeaverTails-V数据集解决了多模态数据融合中的关键问题，特别是在处理敏感内容时如何确保模型的安全性和伦理合规性。通过提供丰富的图像和文本对，该数据集为研究者提供了评估模型在复杂情境下表现的机会，从而推动了内容安全、情感计算和伦理人工智能领域的研究进展。

实际应用

在实际应用中，BeaverTails-V数据集被广泛用于开发内容过滤系统、社交媒体监控工具以及心理健康支持平台。例如，社交媒体平台可以利用该数据集训练模型，自动识别并过滤有害内容，从而保护用户免受心理伤害。此外，心理健康领域的专家也可以利用该数据集分析用户对特定内容的反应，提供个性化的心理支持。

数据集最近研究