T2I-RiskyPrompt

github2025-10-25 更新2025-11-09 收录

下载链接：

https://github.com/datar001/T2I-RiskyPrompt

下载链接

链接失效反馈

官方服务：

资源简介：

T2I-RiskyPrompt是一个用于评估文本到图像模型安全性的基准数据集。该数据集包含1,100个风险提示，涵盖8个风险类别：仇恨言论、歧视、色情内容、犯罪、不道德行为、隐私侵犯、恐怖主义和虚假信息。每个提示都经过手动验证，并包含安全标签和风险类别注释。数据集还提供了基于Stable Diffusion生成的图像样本，用于评估模型安全性。

T2I-RiskyPrompt is a benchmark dataset for evaluating the safety of text-to-image models. This dataset contains 1,100 risky prompts covering 8 risk categories: hate speech, discrimination, pornography, crime, unethical behavior, privacy violation, terrorism, and disinformation. Each prompt has been manually verified and includes safety labels and risk category annotations. The dataset also provides image samples generated based on Stable Diffusion for assessing model safety.

创建时间：

2025-10-25

原始信息汇总

T2I-RiskyPrompt 数据集概述

基本信息

数据集名称：T2I-RiskyPrompt
发布状态：AAAI 2026 接收论文
论文链接：https://arxiv.org/abs/2510.22300

数据集简介

T2I-RiskyPrompt 是一个专门为文本到图像（T2I）模型设计的系统性安全评估、攻击和防御基准。该基准专注于风险文本提示而非图像，提供结构化的风险分类体系、高质量标注以及一套用于防御和攻击的评估协议。

核心特征

1. 层次化风险分类体系

采用三级风险结构
涵盖6个主要类别
包含14个细粒度子类别

2. 高质量风险提示数据集

包含6,432个有效风险提示
每个提示都经过人工检查验证有效性
每个提示标注有层次化类别标签和人工编写的风险原因

3. 基于原因的检测方法

提出基于原因的检测方法
将多模态大语言模型（MLLM）与安全标注对齐
模型不仅给出安全/不安全决策，还提供与标注风险原因一致的解释

4. 全面安全评估

评估8个T2I模型
评估9种防御方法
评估5种安全过滤器
评估5种攻击策略

数据集结构

数据集文件为 T2I-RiskyPrompt.json，典型数据结构示例如下：

json { "prompt": "A detailed description of a violent scene ...", "label": { "primary_category——subcategory": ["reason_1", "reason_2"] } }

引用信息

bibtex @article{zhang2025t2iriskyprompt, title = {T2I-RiskyPrompt: A Benchmark for Safety Evaluation, Attack, and Defense on Text-to-Image Model}, author = {Zhang, Chenyu and Zhang, Tairen and Wang, Lanjun and Chen, Ruidong and Li, Wenhui and Liu, Anan}, journal = {arXiv preprint arXiv:2510.22300}, year = {2025} }

搜集汇总

数据集介绍

构建方式

在人工智能生成图像领域，确保模型安全性至关重要。T2I-RiskyPrompt数据集通过系统化方法构建，首先从多个公开来源收集潜在风险提示词，涵盖暴力、偏见、隐私侵犯等类别。随后，利用专家标注团队对提示词进行严格分类与验证，确保数据准确反映现实风险场景。构建过程注重多样性与代表性，最终形成结构清晰、标注完备的数据集。

特点

T2I-RiskyPrompt数据集具有鲜明的专业特色，其核心在于全面覆盖文本到图像生成模型可能引发的各类风险场景。数据集包含丰富的提示词示例，涉及敏感内容、文化偏见和技术滥用等多维度问题。数据经过精细标注，便于研究者深入分析模型脆弱性。其结构设计支持灵活扩展，能够适应不断演变的安全需求，为风险评估提供可靠基础。

使用方法

针对文本到图像模型的安全研究，T2I-RiskyPrompt数据集提供了系统的应用路径。研究者可借助该数据集评估模型对风险提示词的响应行为，识别潜在漏洞。典型用法包括将提示词输入待测模型，分析生成图像的内容安全性。数据集支持批量测试与对比实验，助力开发更稳健的过滤机制。使用过程中需遵循伦理规范，确保研究符合负责任AI原则。

背景与挑战

背景概述

随着文本到图像生成技术的迅猛发展，其潜在滥用风险日益引发社会关注。T2I-RiskyPrompt数据集由清华大学自然语言处理与社会人文计算实验室于2024年创建，聚焦于生成模型安全评估这一核心议题。该数据集系统性地构建了涵盖暴力、歧视、隐私侵犯等维度的风险提示词库，为量化生成内容的安全性提供了重要基准。其创新性在于将伦理约束转化为可计算指标，推动了人工智能治理从理论框架向实证研究的范式转变。

当前挑战

在文本到图像安全评估领域，核心挑战在于如何建立跨文化、多模态的风险识别体系。T2I-RiskyPrompt需应对生成内容语义边界的模糊性，以及不同文化背景下风险认知的差异性。数据集构建过程中面临标注一致性的难题，特别是对隐含恶意内容的判定需要融合语言学、伦理学等多学科知识。此外，动态演进的风险类型要求标注体系具备持续扩展能力，这对数据架构的灵活性提出了更高要求。

常用场景

经典使用场景

在人工智能安全领域，T2I-RiskyPrompt数据集被广泛应用于评估文本到图像生成模型的潜在风险。通过提供一系列包含敏感或有害内容的提示词，该数据集能够系统地测试模型在生成图像时是否会产生不当输出，从而帮助研究者识别和缓解模型的安全漏洞。

实际应用

在实际应用中，T2I-RiskyPrompt被集成到图像生成系统的安全审计流程中，帮助开发者在部署前识别模型可能产生的违规内容。例如，在社交媒体平台或创意工具中，利用该数据集进行预筛查可有效防止生成暴力、仇恨言论等有害视觉材料，提升产品合规性。

衍生相关工作

基于T2I-RiskyPrompt的基准测试，衍生出多项针对生成模型安全性的经典研究。例如，改进的对抗训练方法通过该数据集的提示词增强模型鲁棒性；同时，其风险评估框架也被扩展至多模态内容审核系统中，推动了行业安全标准的演进。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集