T2ISafety

Name: T2ISafety
Creator: 上海人工智能实验室, 北京航空航天大学, 哈尔滨工业大学, 香港中文大学（深圳）, 香港中文大学
Published: 2025-01-22T11:29:43+08:00

arXiv2025-01-22 更新2025-01-24 收录

文本生成图像

安全性评估

数据链接：

https://github.com/adwardlee/t2i_safety 数据链接链接失效反馈

官方服务：

资源简介：

T2ISafety数据集由上海人工智能实验室等机构开发，旨在评估文本到图像生成模型的安全性。该数据集包含68,000张手动标注的图像，涵盖了毒性、隐私和公平性三个主要领域，数据来源于多个公开数据集和人工编写的提示词。数据集的创建过程包括提示词收集、图像生成和人工标注，确保了数据的高质量和多样性。T2ISafety数据集的应用领域主要集中在文本到图像生成模型的安全性评估，旨在解决模型生成有害、偏见或隐私泄露内容的问题，推动更安全的模型开发。

The T2ISafety dataset, developed by institutions including the Shanghai AI Laboratory, is designed to evaluate the safety of text-to-image generation models. This dataset contains 68,000 manually annotated images, covering three core domains: toxicity, privacy, and fairness. Its data is sourced from multiple public datasets and human-written prompts. The dataset creation process includes prompt collection, image generation, and manual annotation, ensuring the high quality and diversity of the data. The primary application scope of the T2ISafety dataset focuses on the safety evaluation of text-to-image generation models, aiming to address the issues of harmful, biased or privacy-leaking content generated by models, and promote the development of safer models.

提供机构：

上海人工智能实验室, 北京航空航天大学, 哈尔滨工业大学, 香港中文大学（深圳）, 香港中文大学

创建时间：

2025-01-22

原始信息汇总

T2ISafety 数据集概述

数据集简介

T2ISafety 是一个用于评估文本到图像（T2I）模型安全性的基准数据集。该数据集旨在解决当前T2I模型在生成有害、偏见或隐私内容方面的潜在风险。T2ISafety 通过三个关键领域（毒性、公平性和偏见）对T2I模型进行评估，并构建了一个包含12个任务和44个类别的详细层次结构。数据集包含70K个对应的提示词，并基于这些提示词生成了68K张手动标注的图像。

数据集特点

紧凑的层次结构分类：T2ISafety 提出了一个包含三个层次的结构化分类体系，涵盖3个领域、12个任务和44个类别。
先进的评估框架：包括专门为图像微调的评估器 ImageGuard。

数据集构建

T2ISafety 数据集的构建过程包括三个关键阶段：提示词构建、图像生成和人工标注。数据集展示了在公平性、毒性和隐私三个主要领域的提示词-图像对。T2ISafety 是从提示词构建阶段后的一个独特子集中衍生出来的。

模型架构

T2ISafety 使用了一个名为 ImageGuard 的评估器，其网络架构包括视觉编码器、感知采样器和LLM（大语言模型）。视觉表示通过视觉编码器提取，经过感知采样器处理后与标记化的查询一起输入LLM。Transformer层中的CMA模块专注于与安全相关的图像区域。对比损失确保视觉特征与其描述之间的一致性，增强了图像-文本的一致性。门控因子控制模态的合并，以实现鲁棒的多模态理解。

评估结果

T2ISafety 对12个著名的扩散模型进行了评估，揭示了多个问题，包括种族公平性的持续问题、生成有毒内容的倾向，以及即使在使用了概念擦除等防御方法后，模型在隐私保护方面的显著差异。

引用

bibtex @article{libenchmarking, title={Benchmarking Ethics in Text-to-Image Models: A Holistic Dataset and Evaluator for Fairness, Toxicity, and Privacy}, author={Li, Lijun and Shi, Zhelun and Hu, Xuhao and Dong, Bowen and Qin, Yiran and Liu, Xihui and Sheng, Lu and Shao, Jing} }

团队

SALAD-Bench Team

搜集汇总

数据集介绍

构建方式

T2ISafety数据集的构建基于一个三层级的分类体系，涵盖了公平性、毒性和隐私三个关键领域，共包含12个任务和44个类别。研究人员从多个公开数据集中收集了70,000条文本提示，并通过多个扩散模型生成对应的图像，最终手动标注了68,000张图像。为确保数据质量，采用了自动标注和人工验证相结合的方式，并通过多模态大语言模型（MLLM）开发了图像安全评估工具ImageGuard，以自动检测生成图像中的潜在风险。

特点

T2ISafety数据集的特点在于其全面性和多样性。它不仅涵盖了公平性、毒性和隐私三大领域，还通过12个任务和44个类别进一步细化了每个领域的具体风险。数据集中包含大量手动标注的图像，确保了评估的准确性。此外，数据集还引入了跨模态注意力机制和对比损失，显著提升了评估工具的性能，使其能够捕捉到以往方法无法识别的风险。

使用方法

T2ISafety数据集的使用方法主要包括三个步骤：首先，用户可以通过数据集提供的文本提示生成图像；其次，使用ImageGuard工具对生成的图像进行安全评估，检测其是否包含有害、偏见或隐私泄露内容；最后，通过安全率和归一化KL散度等指标对模型的公平性、毒性和隐私保护能力进行量化评估。该数据集适用于评估和优化文本到图像生成模型的安全性，帮助研究人员识别和解决模型中的潜在风险。

背景与挑战

背景概述

T2ISafety数据集由上海人工智能实验室、北京航空航天大学、哈尔滨工业大学等机构的研究人员于2025年创建，旨在评估文本到图像（T2I）生成模型在公平性、毒性和隐私方面的表现。随着T2I模型的快速发展，生成高质量图像的能力显著提升，但同时也带来了生成有害、偏见或隐私泄露内容的风险。T2ISafety通过构建一个包含12个任务和44个类别的层次化分类体系，收集了70K条提示词，并生成了68K张手动标注的图像，为T2I模型的安全性评估提供了全面的基准。该数据集的发布推动了T2I模型在安全性方面的研究，尤其是在公平性、毒性和隐私保护等关键领域的深入探索。

当前挑战

T2ISafety数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，T2I模型生成的图像多样性远超现实世界内容，如何准确识别和评估这些图像中的有害内容、偏见和隐私泄露问题是一个复杂的任务。现有的评估方法往往无法全面捕捉这些风险，尤其是在种族公平性、毒性内容生成和隐私保护方面的表现参差不齐。其次，在数据集构建过程中，研究人员面临了数据收集和标注的挑战。为了确保数据的高质量和多样性，研究人员从多个公开数据集中收集提示词，并通过人工标注和自动化工具进行筛选和分类。此外，如何设计一个能够自动、可重复且准确评估T2I模型安全性的评估器也是一个技术难题。

常用场景

经典使用场景

T2ISafety数据集广泛应用于评估文本到图像（T2I）生成模型的安全性，特别是在公平性、毒性和隐私保护方面的表现。研究人员通过该数据集对多个T2I模型进行系统性评估，揭示模型在生成图像时可能存在的偏见、有害内容以及隐私泄露问题。该数据集的使用场景包括但不限于模型安全性测试、生成内容的自动审核以及模型改进的基准测试。

实际应用

在实际应用中，T2ISafety数据集被用于开发自动化的图像安全评估工具，如ImageGuard。该工具能够检测生成图像中的有害内容、偏见和隐私问题，广泛应用于社交媒体平台、内容审核系统以及生成式AI模型的部署中。通过T2ISafety，企业和研究机构能够更好地控制生成内容的质量，减少有害内容的传播，提升用户体验和社会责任感。

衍生相关工作

T2ISafety数据集衍生了一系列相关研究，特别是在图像安全评估和生成模型改进方面。基于该数据集，研究人员开发了ImageGuard等先进的图像安全评估工具，显著提升了生成内容的安全性检测能力。此外，T2ISafety还推动了T2I模型在公平性、毒性和隐私保护方面的改进研究，如通过概念擦除技术减少模型生成有害内容的能力。这些工作为生成式AI的安全应用提供了重要的理论和实践基础。

以上内容由遇见数据集搜集并总结生成