dices-mm

Hugging Face2025-05-12 更新2025-05-13 收录

下载链接：

https://huggingface.co/datasets/neurips-dataset-1211/dices-mm

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为pluralistic_text-to-image_safety，包含1005个对抗性提示和35164个由637名不同人口统计特征的评分者提供的安全性注释。数据以JSON格式组织，包含了评分者信息、提示信息和注释信息等字段。每个提示都有20-30个安全性注释。数据集还包括了关于评分者的人口统计信息，如种族、性别、年龄等。

创建时间：

2025-05-12

原始信息汇总

数据集概述

基本信息

名称: DIRE
许可证: CC-BY-4.0
任务类别: 文本分类
语言: 英语
数据规模: 1K < n < 10K

数据集详情

数据集描述与结构

内容: 包含图像和文本输入的安全评级数据。
数据量:
- 1005个对抗性提示
- 35164个安全标注（每个提示有20-30个标注）
- 637名不同人口背景的标注者

字段定义

标注者字段

rater_id: 匿名用户ID（数字）
rater_ethnicity: 标注者自我报告的种族（列表：eastasian, southasian, white, black, latine）
rater_gender: 标注者自我报告的性别（列表：man, woman, other）
rater_age_group: 标注者自我报告的年龄组（列表：genz, millennial, genx）
rater_was_filtered_out: 标注者是否因低质量反馈被过滤（布尔值）

提示字段

text_prompt: 对抗性提示的文本（字符串）
image_id: 关联图像的唯一数字标识符（字符串）
topic: 提示-图像对的违规类型和主题（字符串）

标注字段

created_at_s: 标注开始时间（整数）
duration_s: 标注持续时间（秒）（整数或空值）
is_attention_check_image: 是否为注意力检查图像（0或1）
how_harmful_to_you: 对标注者的危害程度评分（0-4或unsure）
how_harmful_why_unsure: 不确定原因（列表）
how_harmful_why_unsure_other: 其他不确定原因的自由文本
how_harmful_to_others: 对他人的危害程度评分（0-4或unsure）
why_harmful: 危害原因（列表：not harmful, stereotype, violent, sexual, other）
why_harmful_other: 其他危害原因的自由文本
comment: 标注者的可选评论（文本）

数据来源

来源数据: 来自Google公开发布的Adversarial Nibbler数据（https://github.com/google-research-datasets/adversarial-nibbler）
数据所有者: Google
是否包含私人或个人数据: 否
是否包含第三方数据: 是
外部存储位置: Kaggle（名称为“pluralistic_text-to-image_safety”）
近似大小: 小于100MB

用途

研究背景: 用于NeurIPS2025 Datasets & Benchmarks track的研究出版物。
目标: 提供一种收集人口多样化数据的新方法，用于评估多模态生成模型对不同人口群体的表示。

数据集创建

创建动机: [未提供]
数据收集与处理: [未提供]
标注者信息: [未提供]
个人与敏感信息: [未提供]

偏见、风险与限制

潜在风险: 发布对抗性提示可能被恶意用于生成有害图像（如传播偏见或露骨内容）。
建议: 用户应了解数据集的风险、偏见和限制。

搜集汇总

数据集介绍

构建方式

该数据集构建于对抗性文本提示与多模态安全评估的研究背景之下，通过系统性采集637名人口统计学特征多样化的标注者（涵盖族裔、性别、年龄等维度）对1005条对抗性提示的35,164条安全标注完成。数据源自公开的Adversarial Nibbler项目，采用分层抽样策略确保样本代表性，每条提示均获得20-30次独立标注以控制主观偏差。标注过程严格记录时间戳、持续时长及注意力检查指标，并通过标准化量表量化危害程度（0-4级）与归因类别（刻板印象、暴力、色情等）。

特点

作为面向生成式AI安全评估的基准数据集，其核心价值体现在三方面：人口统计学元数据的丰富性（包含标注者族裔、性别、年龄等细粒度属性），为研究模型偏见提供了人口结构层面的分析维度；对抗性提示的多样性覆盖文本到图像生成场景中的潜在风险类型；标注体系的科学性通过双维度危害评分（对个人/对他人的危害）和开放式注释字段相结合，既能量化风险等级又可捕捉非显性伤害。数据规模虽属中小型（<10K），但高密度标注策略使其具备较强的统计显著性。

使用方法

该数据集主要服务于生成式AI安全性与公平性研究领域。使用时应结合配套的图像标识符（需单独申请获取）实现多模态联合分析，通过交叉验证文本提示与生成图像的安全关联。典型应用包括：构建文本-图像危害预测模型时作为训练基准；评估不同人口群体对生成内容敏感度的差异；开发去偏见算法时作为验证集。需特别注意数据使用伦理，因包含潜在有害内容，建议在受控研究环境中使用，并遵循CC-BY-4.0协议要求的署名规范。

背景与挑战

背景概述

DIRE数据集作为一项专注于多模态生成模型安全评估的研究工具，由Google Research团队于2025年NeurIPS会议期间首次发布。该数据集基于Adversarial Nibbler项目的公开提示语构建，包含1005条对抗性文本提示和35164条安全标注，由637名具有人口统计学多样性的标注者参与完成。其核心价值在于通过系统化的安全评级机制，揭示了文本到图像生成过程中潜在的隐性危害，特别是对不同 demographic 群体的表征偏差问题。该数据集的创新性体现在标注过程中严格考虑了标注者的人口统计学特征，为研究生成式AI模型的社会伦理影响提供了重要的基准数据。

当前挑战

该数据集面临的核心挑战主要体现在两个维度：在领域问题层面，如何准确量化多模态生成内容对特定 demographic 群体的潜在危害仍存在方法论争议，现有0-4级的危害评分体系难以捕捉文化敏感性等复杂维度；在构建过程中，保持标注者人口统计学分布的均衡性面临实操困难，特别是当某些群体对敏感内容的标注意愿存在显著差异时。此外，数据采集过程中标注质量的控制也颇具挑战，约17%的标注者因反馈质量不足被筛除，反映出对抗性内容标注需要更精细的专家参与机制。图像数据因隐私考量未公开共享的设计，也在客观上限制了研究者在多模态层面的完整评估能力。

常用场景

经典使用场景

在人工智能安全研究领域，dices-mm数据集为评估多模态生成模型的安全性提供了重要基准。该数据集通过收集来自不同人口统计学背景的标注者对对抗性提示的安全评级，为研究者提供了一个标准化的评估工具。其经典使用场景包括分析文本到图像生成模型中潜在的隐性危害，特别是在处理涉及种族、性别等敏感话题的提示时，能够揭示模型可能产生的偏见或有害内容。

实际应用

在实际应用层面，dices-mm数据集已被科技公司和监管机构用于产品安全评估。AI开发团队利用该数据集测试其文本到图像生成系统的稳健性，识别可能产生有害内容的提示模式。监管机构则参考数据集中的安全评估标准，制定更科学的AI内容审核指南。教育机构也将该数据集用于AI伦理课程的教学案例。

衍生相关工作

基于dices-mm数据集，学术界已衍生出多项重要研究。其中包括开发新型的多模态安全评估指标、构建对抗性提示的自动检测系统，以及设计考虑人口统计学因素的公平性评估框架。这些工作显著推进了生成式AI安全领域的发展，部分成果已被纳入主流AI开发框架的安全评估模块。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集