T2ISafety

Name: T2ISafety
Creator: 上海人工智能实验室, 北京航空航天大学, 哈尔滨工业大学, 香港中文大学（深圳）, 香港中文大学
Published: 2025-01-22 11:29:43
License: 暂无描述

arXiv2025-01-22 更新2025-01-24 收录

下载链接：

https://github.com/adwardlee/t2i_safety

下载链接

链接失效反馈

官方服务：

资源简介：

T2ISafety数据集由上海人工智能实验室等机构开发，旨在评估文本到图像生成模型的安全性。该数据集包含68,000张手动标注的图像，涵盖了毒性、隐私和公平性三个主要领域，数据来源于多个公开数据集和人工编写的提示词。数据集的创建过程包括提示词收集、图像生成和人工标注，确保了数据的高质量和多样性。T2ISafety数据集的应用领域主要集中在文本到图像生成模型的安全性评估，旨在解决模型生成有害、偏见或隐私泄露内容的问题，推动更安全的模型开发。

提供机构：

上海人工智能实验室, 北京航空航天大学, 哈尔滨工业大学, 香港中文大学（深圳）, 香港中文大学

创建时间：

2025-01-22

原始信息汇总

T2ISafety 数据集概述

数据集简介

T2ISafety 是一个用于评估文本到图像（T2I）模型安全性的基准数据集。该数据集旨在解决当前T2I模型在生成有害、偏见或隐私内容方面的潜在风险。T2ISafety 通过三个关键领域（毒性、公平性和偏见）对T2I模型进行评估，并构建了一个包含12个任务和44个类别的详细层次结构。数据集包含70K个对应的提示词，并基于这些提示词生成了68K张手动标注的图像。

数据集特点

紧凑的层次结构分类：T2ISafety 提出了一个包含三个层次的结构化分类体系，涵盖3个领域、12个任务和44个类别。
先进的评估框架：包括专门为图像微调的评估器 ImageGuard。

数据集构建

T2ISafety 数据集的构建过程包括三个关键阶段：提示词构建、图像生成和人工标注。数据集展示了在公平性、毒性和隐私三个主要领域的提示词-图像对。T2ISafety 是从提示词构建阶段后的一个独特子集中衍生出来的。

模型架构

T2ISafety 使用了一个名为 ImageGuard 的评估器，其网络架构包括视觉编码器、感知采样器和LLM（大语言模型）。视觉表示通过视觉编码器提取，经过感知采样器处理后与标记化的查询一起输入LLM。Transformer层中的CMA模块专注于与安全相关的图像区域。对比损失确保视觉特征与其描述之间的一致性，增强了图像-文本的一致性。门控因子控制模态的合并，以实现鲁棒的多模态理解。

评估结果

T2ISafety 对12个著名的扩散模型进行了评估，揭示了多个问题，包括种族公平性的持续问题、生成有毒内容的倾向，以及即使在使用了概念擦除等防御方法后，模型在隐私保护方面的显著差异。

引用

bibtex @article{libenchmarking, title={Benchmarking Ethics in Text-to-Image Models: A Holistic Dataset and Evaluator for Fairness, Toxicity, and Privacy}, author={Li, Lijun and Shi, Zhelun and Hu, Xuhao and Dong, Bowen and Qin, Yiran and Liu, Xihui and Sheng, Lu and Shao, Jing} }

团队

SALAD-Bench Team

搜集汇总

数据集介绍

构建方式

T2ISafety数据集的构建基于一个三层级的分类体系，涵盖了公平性、毒性和隐私三个关键领域，共包含12个任务和44个类别。研究人员从多个公开数据集中收集了70,000条文本提示，并通过多个扩散模型生成对应的图像，最终手动标注了68,000张图像。为确保数据质量，采用了自动标注和人工验证相结合的方式，并通过多模态大语言模型（MLLM）开发了图像安全评估工具ImageGuard，以自动检测生成图像中的潜在风险。

特点

T2ISafety数据集的特点在于其全面性和多样性。它不仅涵盖了公平性、毒性和隐私三大领域，还通过12个任务和44个类别进一步细化了每个领域的具体风险。数据集中包含大量手动标注的图像，确保了评估的准确性。此外，数据集还引入了跨模态注意力机制和对比损失，显著提升了评估工具的性能，使其能够捕捉到以往方法无法识别的风险。

使用方法

T2ISafety数据集的使用方法主要包括三个步骤：首先，用户可以通过数据集提供的文本提示生成图像；其次，使用ImageGuard工具对生成的图像进行安全评估，检测其是否包含有害、偏见或隐私泄露内容；最后，通过安全率和归一化KL散度等指标对模型的公平性、毒性和隐私保护能力进行量化评估。该数据集适用于评估和优化文本到图像生成模型的安全性，帮助研究人员识别和解决模型中的潜在风险。

背景与挑战

背景概述

T2ISafety数据集由上海人工智能实验室、北京航空航天大学、哈尔滨工业大学等机构的研究人员于2025年创建，旨在评估文本到图像（T2I）生成模型在公平性、毒性和隐私方面的表现。随着T2I模型的快速发展，生成高质量图像的能力显著提升，但同时也带来了生成有害、偏见或隐私泄露内容的风险。T2ISafety通过构建一个包含12个任务和44个类别的层次化分类体系，收集了70K条提示词，并生成了68K张手动标注的图像，为T2I模型的安全性评估提供了全面的基准。该数据集的发布推动了T2I模型在安全性方面的研究，尤其是在公平性、毒性和隐私保护等关键领域的深入探索。

当前挑战

T2ISafety数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，T2I模型生成的图像多样性远超现实世界内容，如何准确识别和评估这些图像中的有害内容、偏见和隐私泄露问题是一个复杂的任务。现有的评估方法往往无法全面捕捉这些风险，尤其是在种族公平性、毒性内容生成和隐私保护方面的表现参差不齐。其次，在数据集构建过程中，研究人员面临了数据收集和标注的挑战。为了确保数据的高质量和多样性，研究人员从多个公开数据集中收集提示词，并通过人工标注和自动化工具进行筛选和分类。此外，如何设计一个能够自动、可重复且准确评估T2I模型安全性的评估器也是一个技术难题。

常用场景

经典使用场景

T2ISafety数据集广泛应用于评估文本到图像（T2I）生成模型的安全性，特别是在公平性、毒性和隐私保护方面的表现。研究人员通过该数据集对多个T2I模型进行系统性评估，揭示模型在生成图像时可能存在的偏见、有害内容以及隐私泄露问题。该数据集的使用场景包括但不限于模型安全性测试、生成内容的自动审核以及模型改进的基准测试。

实际应用

在实际应用中，T2ISafety数据集被用于开发自动化的图像安全评估工具，如ImageGuard。该工具能够检测生成图像中的有害内容、偏见和隐私问题，广泛应用于社交媒体平台、内容审核系统以及生成式AI模型的部署中。通过T2ISafety，企业和研究机构能够更好地控制生成内容的质量，减少有害内容的传播，提升用户体验和社会责任感。

衍生相关工作

T2ISafety数据集衍生了一系列相关研究，特别是在图像安全评估和生成模型改进方面。基于该数据集，研究人员开发了ImageGuard等先进的图像安全评估工具，显著提升了生成内容的安全性检测能力。此外，T2ISafety还推动了T2I模型在公平性、毒性和隐私保护方面的改进研究，如通过概念擦除技术减少模型生成有害内容的能力。这些工作为生成式AI的安全应用提供了重要的理论和实践基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集