DIVE

Name: DIVE
Creator: Google DeepMind, Google Research
Published: 2025-07-16 05:02:35
License: 暂无描述

arXiv2025-07-16 更新2025-07-22 收录

下载链接：

https://huggingface.co/datasets/neurips-dataset-1211/DIVE

下载链接

链接失效反馈

官方服务：

资源简介：

DIVE数据集是一个为文本到图像模型的多重对齐而设计的多模态数据集。它通过一个包含1000个提示的大池子，以及来自30个独特人口交叉群体中的637名人类评估者的广泛反馈，实现了对多样安全视角的深度对齐。该数据集的创建旨在捕捉到细微的安全感知，并且包含有35,164个伤害评估。DIVE数据集为理解和解决文本到图像模型中的安全偏见问题提供了基础工具，旨在构建更加公平和对齐的T2I系统。

The DIVE dataset is a multimodal dataset designed for multi-alignment of text-to-image models. It achieves deep alignment with diverse safety perspectives through a large pool of 1,000 prompts and extensive feedback from 637 human evaluators across 30 unique demographic intersectional groups. The dataset is created to capture nuanced safety perceptions and contains 35,164 harm assessments. The DIVE dataset provides foundational tools for understanding and addressing safety bias issues in text-to-image models, aiming to build more equitable and aligned T2I systems.

提供机构：

Google DeepMind, Google Research

创建时间：

2025-07-16

原始信息汇总

DIVE 数据集概述

基本信息

许可证: CC-BY-4.0
任务类别: 文本分类
语言: 英语
数据集名称: DIVE
规模: 1K < n < 10K

数据集内容

包含图像和文本输入的安全评级。
包含1000个对抗性提示和5个注意力检查提示。
包含35164个高质量评分者的安全标注和3246个低质量评分者的安全标注。
总评分数量为38410，与数据集中的行数相同。
所有评分由707个不同人口统计背景的评分者提供，其中637个为高质量评分者，70个为低质量评分者。
每个对抗性提示有20-30个安全标注。
所有评分者均标注了5个注意力提示。

数据集结构与字段

评分者字段

rater_id: 匿名用户ID（数值）
rater_ethnicity: 自报评分者种族（列表：[eastasian, southasian, white, black, latinx]）
rater_gender: 自报评分者性别（列表：[man, woman]）
rater_age_group: 自报评分者年龄组（列表：[genz, millennial, genx]）
rater_was_filtered_out: 是否因低质量反馈被过滤（布尔值：[True, False]）

提示字段

text_prompt: 对抗性提示文本（字符串）
image_id: 关联图像的唯一数字标识符（字符串）
topic: 提示-图像对的违规类型和主题（字符串）

标注字段

created_at_s: 标注开始时间（整数）
duration_s: 标注持续时间（秒）（整数或null）
is_attention_check_image: 是否为注意力检查图像（整数：[0,1]）
how_harmful_to_you: 对评分者的危害程度评分（整数：[0,4]或"unsure"）
how_harmful_why_unsure: 不确定危害程度的原因（列表）
how_harmful_why_unsure_other: 其他不确定原因的自由文本（文本）
how_harmful_to_others: 对他人的危害程度评分（整数：[0,4]或"unsure"）
why_harmful: 危害原因（列表：[not harmful, stereotype, violent, sexual, other]）
why_harmful_other: 其他危害原因的自由文本（文本）
comment: 评分者的可选评论（文本）

数据来源

数据集来源于MLCommons DataPerf Challenge Adversarial Nibbler。
数据公开发布于Google Research Datasets。

用途

用于NeurIPS2025 Datasets and Benchmarks track的研究出版物。
提供多元对齐的丰富探索基础。
可作为训练或微调数据，帮助模型理解多样化的安全问题。

偏见、风险与限制

发布对抗性提示可能被恶意用于生成有害图像。
数据集仅包含图像ID，图像需申请获取。

建议

用户应了解数据集的风险、偏见和限制。

搜集汇总

数据集介绍

构建方式

在文本到图像（T2I）模型日益普及的背景下，DIVE数据集通过精心设计的构建方法，为多元安全评估提供了重要资源。该数据集从Adversarial Nibbler挑战中筛选了1000个提示-图像对，覆盖了12个主题和3种安全违规类型。为确保数据的主观性和多样性，研究团队采用了基于政策评分者分歧信号的贪婪选择策略，优先选择意见分歧较大的样本。此外，通过招募637名来自30种不同人口统计学交叉背景的评分者，确保了反馈的广泛代表性。每个提示-图像对由20至30名评分者进行评估，通过5点Likert量表和开放式解释，捕捉了 nuanced 的安全感知差异。

特点

DIVE数据集的显著特点在于其多元化和深度交叉的人口统计学设计。数据集不仅覆盖了广泛的违规类型和主题，还通过 trisectional 人口统计学分组（如性别、年龄和种族的交叉组合）揭示了不同群体在安全感知上的显著差异。例如，Black评分者在偏见类内容上的评分显著高于其他群体，而女性评分者在所有违规类型上的评分普遍高于男性。此外，数据集通过高重复性评估（每个样本20-30名评分者）和开放式反馈，提供了丰富且可靠的数据支持，为研究多元安全对齐提供了独特视角。

使用方法

DIVE数据集的使用方法灵活多样，适用于多元安全评估和模型对齐研究。研究者可通过分析不同人口统计学群体的评分差异，探索T2I模型的安全盲点。数据集的高重复性设计支持可靠性分析，而开放式反馈则为深入理解评分差异提供了质性数据。此外，数据集还可用于训练或微调大型语言模型（LLMs），以模拟多元人类价值观。例如，通过向模型注入特定人口统计学信息，可评估其在不同视角下的安全判断能力。数据集的提示-图像对和评分数据均公开可用，支持研究者进行跨文化、跨群体的安全对比研究。

背景与挑战

背景概述

DIVE（Diverse Intersectional Visual Evaluation）数据集由Google DeepMind等机构的研究团队于2024年提出，旨在解决文本到图像（T2I）模型在安全评估中忽视人类价值观多样性的核心问题。作为首个面向多元对齐的多模态数据集，DIVE通过637名跨越30个人口统计学交叉分组的标注者，收集了1000个对抗性提示词-图像对的35,164条安全评估数据，涵盖性别、年龄和种族的交叉维度。该数据集创新性地采用五级Likert量表和开放式解释相结合的标注框架，揭示了传统基于单一政策标注与多元群体安全认知间的显著差异，为构建更具包容性的AI安全评估体系提供了实证基础。

当前挑战

DIVE数据集面临双重挑战：在领域问题层面，需解决T2I模型生成的图像内容对多元文化背景群体造成的差异化伤害感知问题，特别是隐性偏见、暴力内容和文化敏感性的主观判定存在显著群体分歧；在构建过程中，需克服三大技术难点：1）平衡人口统计学交叉分组的标注者招募与数据代表性，2）设计能捕捉个人伤害感知与社会群体伤害预期的复合标注框架，3）处理高争议性内容标注引发的标注者心理压力与道德风险。此外，数据集还需解决现有安全评估工具（如LlavaGuard）在识别文化特异性偏见时的系统性盲区问题。

常用场景

经典使用场景

DIVE数据集在文本到图像（T2I）模型的安全性评估中发挥了关键作用，特别是在捕捉多元文化视角下的安全感知差异方面。该数据集通过招募具有不同人口统计学背景的评估者，为研究者提供了丰富的标注数据，用于分析不同群体对AI生成图像中潜在有害内容的敏感度差异。这种多元化的评估视角使得DIVE成为研究T2I模型安全性和偏见问题的黄金标准数据集。

实际应用

在实际应用中，DIVE数据集被广泛用于改进商业T2I系统的安全过滤机制。科技公司利用该数据集训练更敏感的内容审核模型，使其能够识别不同文化背景下可能被视为有害的内容。此外，该数据集还被用于开发可调节的安全策略，允许用户根据自身文化背景定制内容过滤强度，从而提升AI系统的文化适应性和用户体验。

衍生相关工作

基于DIVE数据集，研究者们开展了一系列延伸工作。最具代表性的是开发了基于大语言模型（LLM）的安全评估代理，这些代理被训练来模拟不同人口统计学群体的评估行为。此外，该数据集还启发了多项关于AI系统可调节安全策略的研究，包括如何将多元文化价值观编码到模型决策过程中。这些衍生工作共同推动了AI安全领域向更具包容性和适应性的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集