AIML-TUDA/i2p
收藏Hugging Face2023-05-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AIML-TUDA/i2p
下载链接
链接失效反馈官方服务:
资源简介:
I2P数据集包含真实用户生成的文本到图像提示,这些提示很可能生成不当图像。数据集用于评估稳定扩散模型中不当内容的对策。不当内容定义包括仇恨、骚扰、暴力等类别,数据收集基于26个关键词,从lexica.art收集了最多250个相关提示。数据集格式详细记录了提示文本、类别、不当内容百分比等信息。
The I2P Dataset consists of real user-generated text-to-image prompts that have a high likelihood of generating inappropriate images. This dataset is designed to evaluate countermeasures against inappropriate content in Stable Diffusion models. The definition of inappropriate content covers categories such as hate speech, harassment, violence, and others. Data collection was carried out based on 26 keywords, with up to 250 relevant prompts collected from lexica.art. The dataset format comprehensively records information including the prompt text, category, inappropriate content percentage, and other related details.
提供机构:
AIML-TUDA
原始信息汇总
Inaproppriate Image Prompts (I2P) 数据集概述
数据集目的
I2P 数据集旨在评估生成文本到图像模型中对抗不适当内容退化的缓解措施。该数据集包含可能生成不适当图像的实际用户提示。
不适当内容的定义
数据集定义的不适当内容基于Gebru等人的研究,包括可能引起冒犯、侮辱、威胁或焦虑的数据。具体包括仇恨、骚扰、暴力、自残、性内容、震惊图像和非法活动等类别。
数据收集
数据集通过26个关键词和短语,针对上述7个概念,收集了每个概念最多250个真实世界的文本提示。这些提示是从lexica.art网站上根据图像与搜索查询在CLIP嵌入空间中的相似性检索得到的。
数据集格式
数据集包含以下字段:
- prompt: 用于模型的文本提示。
- categories: 与提示相关的上述7个类别之一或多。
- hard: 如果至少一半生成的图像被认为是不适当的,则标记为硬提示。
- inappropriate_percentage: 由Q16和NudeNet分类的不适当图像百分比。
- nudity_percentage: 由NudeNet分类的明确裸体图像百分比。
- q16_percentage: 由Q16分类的不适当图像百分比。
- sd_safety_percentage: 由SD NSWF安全检查器分类的不适当图像百分比。
- prompt_toxicity: 文本提示的毒性得分。
- lexica_url: 原始提示及其相关图像在lexica的URL。
- sd_seed: 用于图像生成的稳定扩散种子。
- sd_guidance_scale: 用于图像生成的稳定扩散指导尺度。
- sd_image_width: 用于图像生成的稳定扩散图像宽度。
- sd_image_height: 用于图像生成的稳定扩散图像高度。
搜集汇总
数据集介绍

构建方式
AIML-TUDA/i2P数据集的构建,是基于26个描述不适当内容的关键词和短语,从lexica.art平台收集了250个现实世界中的文本提示。这些提示与CLIP嵌入空间中相似图像的搜索查询相关联,从而确保生成的图像与不适当的概念在CLIP空间中接近。数据集通过去除重复提示并记录每个提示的详细信息,包括种子、指导比例和图像尺寸,构建了一个用于评估文本到图像生成模型中不适当退化缓解措施的测试平台。
特点
该数据集的特点在于其专注于生成可能产生不适当图像的文本提示。它涵盖了包括仇恨、骚扰、暴力、自残、性内容、令人震惊的图像和非法活动在内的七个类别。数据集不仅提供了文本提示,还标注了每个提示的不适当内容百分比、裸露内容百分比、Q16分类器和NudeNet检测器的不适当内容分类百分比,以及文本提示的有毒度评分,为研究人员提供了详尽的评估指标。
使用方法
使用AIML-TUDA/i2P数据集时,研究者可以依据数据集中的文本提示生成图像,并通过所提供的分类百分比和有毒度评分来评估图像内容的不适当性。数据集的每个条目都包含了生成图像所需的种子、指导比例和图像尺寸,使得研究者能够在相同的条件下复现图像生成过程,进而对模型进行有效的评估和优化。
背景与挑战
背景概述
AIML-TUDA/i2P数据集,简称I2P,是在2023年CVPR论文中提出的一个评估基准,旨在针对生成性文到图(text2image)的提示(prompt)可能导致产生不适当图像的概率过高的问题。该数据集的构建,基于对现实世界中用户生成图像的深入分析,其核心旨在评估减轻稳定扩散模型中不适当退化的缓解措施。I2P数据集的创建,是对生成对抗网络在图像生成领域的一个关键挑战——如何避免生成不适当内容——的积极响应,对相关领域产生了显著影响。
当前挑战
I2P数据集在构建过程中面临的挑战主要包括:如何准确定义什么是不适当的内容,这在很大程度上是主观的,并受到文化、社会倾向和个人因素的影响;如何从现实世界收集到足够数量的、能够触发不适当图像生成的文本提示;以及如何有效评估生成的图像是否包含不适当内容。此外,数据集在处理具有争议性的提示时,例如描述地缘政治事件或仇恨符号的提示,也面临伦理和敏感性的挑战。
常用场景
经典使用场景
在当前深度学习模型评估领域,AIML-TUDA/i2P数据集以其独特性成为了一个不可或缺的评测基准。该数据集收集了实际用户生成的文本提示,这些提示极有可能生成不适当内容的图像。其经典使用场景在于,研究者可以利用这一数据集来评估和测试文本到图像生成模型对于不当内容生成的抵御能力,确保模型输出的安全性和合规性。
衍生相关工作
AIML-TUDA/i2P数据集的发布促进了相关领域的研究工作,如不当内容检测、文本提示的安全性评估等。基于该数据集,已经衍生出了一系列的经典研究工作,这些工作不仅提高了模型的安全性,也为图像生成领域的伦理和法规遵守提供了新的视角和方法。
数据集最近研究
最新研究方向
在计算机视觉与生成模型研究领域,AIML-TUDA/i2P数据集的构建与发布,针对生成性文本到图像的提示可能导致生成不适当内容的问题,提供了评估缓解措施的新基准。该数据集的引入,源于2023年CVPR会议论文《Safe Latent Diffusion: Mitigating Inappropriate Degeneration in Diffusion Models》,其旨在通过实证研究,深入探讨生成模型在处理具有文化和社会敏感性的图像生成任务时的稳定性与安全性。i2P数据集的构建,不仅对于优化生成模型,避免生成不适当内容具有重要意义,亦为相关政策和法规的制定提供了科学依据,对促进人工智能技术的健康发展具有深远影响。
以上内容由遇见数据集搜集并总结生成



