DIRE

Hugging Face2025-05-13 更新2025-05-14 收录

下载链接：

https://huggingface.co/datasets/neurips-dataset-1211/DIRE

下载链接

链接失效反馈

官方服务：

资源简介：

DIRE数据集包含针对图像和文本输入的安全评级。该数据集由637名不同人口统计特征的评分者提供的1005个对抗性提示和35164个安全注释组成，每个提示有20-30个安全注释。数据集包含评分者信息（如匿名ID、种族、性别、年龄组）、提示字段（如文本提示、图像ID、主题）、注释字段（如注释开始时间、持续时间、对他人有害程度评分及原因等）。数据集用于评估多模态生成模型如何表示不同人口统计特征的人群，并发现导致对抗性图像的安全文本中的不明显伤害。

创建时间：

2025-05-12

原始信息汇总

数据集概述：DIRE

基本信息

名称：DIRE
许可证：cc-by-4.0
任务类别：文本分类
语言：英语
数据规模：1K<n<10K

数据集详情

描述与结构

内容：包含图像和文本输入的安全性评分。
数据量：
- 对抗性提示：1005条
- 安全性标注：35164条（每条提示包含20-30条标注）
- 标注者：637名（人口统计学多样化）

字段定义

标注者字段

rater_id：匿名用户ID（数字）
rater_ethnicity：自我报告的种族（[eastasian, southasian, white, black, latine]）
rater_gender：自我报告的性别（[man, woman, other]）
rater_age_group：自我报告的年龄组（[genz, millennial, genx]）
rater_was_filtered_out：标注者是否因低质量反馈被过滤（[True, False]）

提示字段

text_prompt：对抗性提示文本（字符串）
image_id：关联图像的唯一数字标识符（字符串）
topic：提示-图像对的违规类型和主题（字符串）

标注字段

created_at_s：标注开始时间（整数）
duration_s：标注持续时间（秒）（整数或null）
is_attention_check_image：注意力检查图像（[0,1]）
how_harmful_to_you：对个人的危害程度评分（[0,4], unsure）
how_harmful_why_unsure：不确定原因（列表）
how_harmful_why_unsure_other：其他不确定原因（文本）
how_harmful_to_others：对他人的危害程度评分（[0,4], unsure）
why_harmful：危害原因（[not harmful, stereotype, violent, sexual, other]）
why_harmful_other：其他危害原因（文本）
comment：标注者可选评论（文本）

数据来源

来源：Google公开发布的Adversarial Nibbler数据（https://github.com/google-research-datasets/adversarial-nibbler）
是否包含私人或个人数据：否
是否包含第三方数据：是
外部存储位置：Kaggle仓库（名称：“pluralistic_text-to-image_safety”）
近似大小：小于100MB

用途

研究背景：NeurIPS2025 Datasets & Benchmarks track的研究出版物。
目标用户：个人、公司、监管机构等对AI开发和评估感兴趣的第三方。
应用场景：评估多模态生成模型对不同人口统计群体的表示效果。

风险与限制

潜在风险：对抗性提示可能被恶意用于生成有害图像（如传播偏见或露骨内容）。
建议：用户应了解数据集的风险、偏见和限制。

搜集汇总

数据集介绍

构建方式

DIRE数据集构建过程体现了多模态安全评估的前沿理念，其核心数据来源于公开的Adversarial Nibbler项目提示词库。研究团队通过精心设计的众包标注流程，招募了637名具有人口统计学多样性的标注者，每位标注者对1005个对抗性提示词进行20-30次独立安全评估，最终形成包含35164条标注记录的结构化数据集。标注过程中严格记录标注者的人口特征（包括族裔、性别、年龄组）及标注行为数据（如标注持续时间、注意力检查结果），并通过质量控制机制过滤低质量标注。

特点

该数据集最显著的特征在于其多维度的安全评估体系，不仅包含对文本提示词本身的危害性评分（0-4级），还涵盖对生成图像潜在危害的类型标注（如暴力、性暗示、刻板印象等）。独特的标注架构允许标注者表达不确定性原因，并通过开放式文本字段补充说明，为研究非显性危害提供了丰富线索。数据集的另一核心价值在于标注者人口特征的透明披露，这为分析AI系统在不同人群中的感知差异建立了重要基准。

使用方法

作为NeurIPS2025基准数据集，DIRE主要服务于生成式AI安全评估领域。研究者可通过分层抽样利用标注者人口特征数据，分析不同群体对多模态内容安全边界的认知差异。技术团队可将该数据集作为测试集，验证文本-图像生成模型在对抗性提示下的稳健性。使用需注意伦理规范，建议在受控环境中处理敏感提示词，并配合原始论文提供的危害分类框架进行系统化分析。数据集中的图像标识符可用于关联未公开的图像资源（需单独申请获取），实现完整的多模态评估。

背景与挑战

背景概述

DIRE数据集由Google研究团队于2025年发布，作为NeurIPS会议Datasets & Benchmarks赛道的重要研究成果。该数据集聚焦于多模态生成模型的安全评估领域，旨在通过构建包含1005个对抗性提示和35164条安全标注的语料库，解决生成式AI在文本到图像转换过程中潜在的伦理风险问题。数据集创新性地引入人口统计学多样性标注机制，涵盖637位不同种族、性别和年龄段的标注者，为研究生成模型对不同人群的潜在偏见提供了宝贵资源。其核心价值在于帮助研究者识别安全文本中导致对抗性图像的非显性危害，推动了AI安全评估方法学的范式革新。

当前挑战

该数据集面临双重挑战：在领域问题层面，需要精确量化文本-图像生成过程中难以察觉的伦理偏差，如文化敏感性和隐性刻板印象的评估，这类主观判断易受标注者背景影响；在构建过程中，协调637位多元背景标注者保持标注标准一致性存在显著困难，特别是处理‘不确定’标注时的归因分析。数据安全也是关键挑战，对抗性提示若被滥用可能导致有害内容生成，这要求数据集在开放科研与风险管控间取得平衡。

常用场景

经典使用场景

在人工智能安全研究领域，DIRE数据集为评估多模态生成模型的潜在风险提供了重要基准。该数据集通过收集637位不同人口统计学背景标注者对1005个对抗性提示的35164条安全标注，构建了涵盖种族、性别、年龄等多维度的安全评估框架。研究者可基于这些细粒度标注，系统分析文本到图像生成模型中隐含的偏见与危害。

解决学术问题

该数据集有效解决了生成式AI安全评估中的两大核心问题：一是量化了不同文化背景用户对生成内容安全性的感知差异，为消除算法偏见提供了实证基础；二是建立了对抗性提示与潜在危害的映射关系，填补了文本-图像跨模态安全研究的空白。其人口统计学元数据为研究算法公平性提供了新的分析维度。

衍生相关工作

该数据集已催生多项关于多模态安全的前沿研究，包括基于人口统计学特征的危害预测模型、对抗性提示的自动检测框架等。其标注方法论更启发了后续工作如SafeGen的标注协议设计，推动形成跨文化AI安全评估的新范式。相关成果在NeurIPS等顶会持续引发学术讨论。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集