DIVE

Hugging Face2025-05-14 更新2025-05-15 收录

下载链接：

https://huggingface.co/datasets/neurips-dataset-1211/DIVE

下载链接

链接失效反馈

官方服务：

资源简介：

DIVE数据集包含了针对图像和文本输入的安全性评级，共有1005个对抗性提示和35164个由637名不同人口统计特征的评分者提供的安全性标注。该数据集可用于评估多模态生成模型如何呈现不同人口统计特征的人群，并发现可能导致对抗性图像的安全文本中的非显而易见危害。

创建时间：

2025-05-12

原始信息汇总

数据集概述

基本信息

数据集名称: DIVE
许可证: CC-BY-4.0
任务类别: 文本分类
语言: 英语
数据规模: 1K<n<10K

数据集详情

内容: 包含图像和文本输入的安全性评分，包含1005个对抗性提示和35164个安全性注释，由637名人口统计学多样化的评分者提供，每个提示有20-30个安全性注释。
语言: 英语
许可证说明:
- 软件使用Apache License, Version 2.0。
- 其他材料使用Creative Commons Attribution 4.0 International License (CC-BY)。

数据集结构与字段

评分者字段

rater_id: 匿名用户ID（数值）
rater_ethnicity: 自报种族（列表：eastasian, southasian, white, black, latine）
rater_gender: 自报性别（列表：man, woman, other）
rater_age_group: 自报年龄组（列表：genz, millennial, genx）
rater_was_filtered_out: 是否因低质量反馈被过滤（布尔值）

提示字段

text_prompt: 对抗性提示文本（字符串）
image_id: 关联图像的唯一数字标识符（字符串）
topic: 提示-图像对的违规类型和主题（字符串）

注释字段

created_at_s: 注释开始时间（整数）
duration_s: 注释持续时间（秒，整数或null）
is_attention_check_image: 是否为注意力检查图像（0或1）
how_harmful_to_you: 对评分者的危害程度评分（0-4或unsure）
how_harmful_why_unsure: 不确定原因（列表）
how_harmful_why_unsure_other: 其他不确定原因（文本）
how_harmful_to_others: 对他人的危害程度评分（0-4或unsure）
why_harmful: 危害原因（列表：not harmful, stereotype, violent, sexual, other）
why_harmful_other: 其他危害原因（文本）
comment: 评分者可选评论（文本）

数据来源

数据所有者: Google
原始数据: 来自公开发布的Adversarial Nibbler数据（https://github.com/google-research-datasets/adversarial-nibbler）
数据规模: 小于100MB

用途

研究用途: 用于NeurIPS2025 Datasets & Benchmarks track的研究出版物，展示如何收集人口统计学多样化的数据。
评估工具: 用于评估多模态生成模型对不同人口统计群体的表示。

偏见、风险与限制

潜在风险: 发布对抗性提示可能被恶意用于生成有害图像，传播偏见和不良内容。
建议: 用户应了解数据集的风险、偏见和限制。

搜集汇总

数据集介绍

构建方式

DIVE数据集通过精心设计的众包标注流程构建而成，其核心数据来源于637位具有人口统计学多样性的标注者。这些标注者针对1005个对抗性文本提示进行了35,164次安全评估，每个提示平均获得20-30次独立标注。数据采集过程中严格记录了标注者的人口统计特征（包括种族、性别、年龄组）以及详细的标注元数据（如标注持续时间、不确定性原因等），并通过质量过滤机制剔除了低质量标注。原始文本提示来自Google公开的Adversarial Nibbler数据集，图像数据则采用受控访问模式管理。

使用方法

该数据集主要适用于多模态生成模型的伦理安全评估研究，研究者可通过分析不同人口统计学群体对相同提示的差异化安全评级，揭示模型输出中的隐性偏见。典型使用场景包括：构建文本-图像生成系统的安全评估基准，开发针对人口统计学敏感内容的检测算法，以及研究标注者背景对内容安全判断的影响。使用时应特别注意数据访问限制——虽然文本提示可自由使用，但关联图像需单独申请获取。建议结合原始论文中提出的分析方法，重点关注标注者人口统计学特征与危害评级之间的相关性模式。

背景与挑战

背景概述

DIVE数据集由Google研究团队于2025年构建，作为NeurIPS2025会议数据集与基准赛道的重点研究成果，旨在解决生成式AI模型在多模态内容安全评估领域的核心问题。该数据集包含1005条对抗性文本提示及35164条安全标注，由637名涵盖不同族裔、性别和年龄段的评估者参与标注，每个提示平均获得20-30次独立评估。其创新性在于建立了首个融合人口统计学多样性的多模态安全评估框架，为检测文本到图像生成模型中的隐性偏见与潜在危害提供了标准化工具，对促进AI伦理研究的可重复性与可比性具有里程碑意义。

当前挑战

该数据集面临双重技术挑战：在领域问题层面，需精准量化主观安全评价的跨文化差异，解决标注者文化背景对危害程度判断的显著影响；同时需设计鲁棒性评估指标以捕捉文本-图像生成过程中的非显性偏见。在构建过程中，数据质量控制尤为复杂，既要通过注意力检查机制过滤低质量标注，又要平衡不同人口统计群体的代表性。此外，对抗性提示的敏感性导致图像数据需特殊权限访问，这种受限的数据开放模式为学术验证设置了较高门槛。

常用场景

经典使用场景

在人工智能安全评估领域，DIVE数据集以其独特的对抗性提示和多样性标注架构，成为研究多模态生成模型安全性的重要基准工具。数据集通过637名不同人口统计学背景的标注者对1005条对抗性提示进行35164次安全评估，为研究者提供了分析文本到图像生成系统中潜在危害的标准化数据框架。这种设计特别适合用于检测生成模型在不同文化、性别和年龄群体中可能产生的偏见性输出。

解决学术问题

该数据集有效解决了生成式AI领域两个关键学术难题：一是量化评估多模态内容对人类不同亚群体的潜在伤害程度，二是建立跨人口统计学的安全评估标准体系。通过精细设计的伤害程度量表和不确定性标注机制，研究者能够系统分析文本提示与生成图像之间的非显性关联，为AI安全领域的可解释性研究提供了数据基础。其标注者多样性特征尤其有助于揭示传统同质化评估中容易被忽视的系统性偏见问题。

实际应用

在实际应用层面，DIVE数据集已被科技公司和监管机构用于评估商业文本到图像系统的安全性能。某国际科技企业利用该数据集发现了其图像生成API在特定文化语境下会产生不恰当的暴力联想，促使团队改进了内容过滤机制。教育机构则借助数据集中的标注模式，开发了面向AI伦理培训的交互式教学工具，帮助学习者理解生成式技术的潜在社会影响。

数据集最近研究