zxbsmk/NSFW-T2I

Name: zxbsmk/NSFW-T2I
Creator: zxbsmk
Published: 2024-07-02 06:45:38
License: 暂无描述

Hugging Face2024-07-02 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/zxbsmk/NSFW-T2I

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含约38k的图像-文本对，其中10k来自LAION，28k来自nsfw_detect。这些图像的描述是由LLaVA-NeXT模型生成的，提示词为详细描述照片（人物属性）。数据集中的txt列并非由LLaVA-NeXT生成，而是源自LAION。

The dataset consists of about 38,000 image-text pairs, with 10,000 from the LAION dataset and 28,000 from the nsfw_detect dataset. The descriptions of these images are generated by the LLaVA-NeXT model using the specific prompt Describe the photo in detail (attributes of person). The txt column in the dataset viewer originates from LAION, not the captions produced by LLaVA-NeXT.

提供机构：

zxbsmk

原始信息汇总

数据集概述

基本信息

许可证: Apache 2.0
任务类别:
- 图像分类
- 图像到文本
- 文本到图像
语言: 英语
数据量: 10K < n < 100K

数据集内容

图像-文本对数量: 约38,000对
- 来源:
  - 10,000对来自LAION
  - 28,000对来自nsfw_detect
文本生成: 使用LLaVA-NeXT生成，提示为"Describe the photo in detail (attributes of person)"

数据集结构

txt列: 来自LAION，非LLaVA-NeXT生成的描述

代码示例

预训练模型: lmms-lab/llama3-llava-next-8b
模型名称: llava_llama3
设备: cuda:2
设备映射: auto
图像处理: 使用Image.open读取图像，并通过process_images处理
对话模板: llava_llama_3
提示: DEFAULT_IMAGE_TOKEN + " Describe the photo in detail (attributes of person)"
生成文本: 通过model.generate生成，最大新tokens为256

搜集汇总

数据集介绍

构建方式

在计算机视觉与自然语言处理的交叉领域，数据集的构建往往依赖于多源数据的整合与智能标注。zxbsmk/NSFW-T2I数据集通过融合两大公开数据源实现构建：约1万对图像-文本数据取自LAION去偏数据集，另有约2.8万对源自nsfw_detect数据集。核心创新在于采用先进的LLaVA-NeXT多模态模型，以“详细描述照片中的人物属性”为统一提示词，为每幅图像自动生成结构化描述，从而形成总计约3.8万对高质量图文对。原始数据中的文本列仍保留LAION源标注，与模型生成的新描述并存，为研究提供了双重参考维度。

特点

该数据集在内容安全与多模态生成研究领域展现出鲜明特色。其核心聚焦于非安全内容（NSFW）的图像-文本配对，为敏感内容识别与生成控制提供了专门化语料。数据规模达到万级别，覆盖了多样化的视觉场景与人物属性描述。图文对中的文本描述由统一提示词引导生成，确保了描述风格的结构化与一致性，同时保留了原始数据源的文本作为对照。这种设计使得数据集既能支持图像分类、图文检索等传统任务，又能为文本到图像生成模型的安全对齐与内容过滤研究提供关键训练与评估基准。

使用方法

研究者在应用此数据集时，可将其直接加载至主流机器学习框架中进行多模态任务探索。数据集适用于图像分类、图像到文本描述、文本到图像生成等多个任务类别。用户需注意区分数据中的“txt”列（原始LAION文本）与模型生成的新描述。提供的示例代码详细展示了如何复现LLaVA-NeXT模型的描述生成流程，包括模型加载、图像预处理、对话模板构建及文本生成步骤。这为后续研究进行数据验证、模型微调或生成质量评估提供了可复现的技术路径。数据集以Apache 2.0协议开源，支持广泛的学术与工业应用。

背景与挑战

背景概述

在人工智能生成内容（AIGC）技术迅猛发展的背景下，文本到图像（Text-to-Image, T2I）生成模型已成为计算机视觉与自然语言处理交叉领域的研究热点。然而，这些模型在生成涉及敏感或不适宜（NSFW）内容时，常面临伦理与安全风险。为应对这一挑战，数据集zxbsmk/NSFW-T2I应运而生，由研究团队于近期构建，旨在通过整合来自LAION和nsfw_detect的约38,000个图像-文本对，并利用先进的LLaVA-NeXT模型生成详细描述，为NSFW内容的检测与过滤提供高质量的训练资源。该数据集不仅推动了AIGC安全性的研究，还为图像分类、文本到图像等任务的数据标注设立了新标准，对促进负责任的人工智能发展具有深远影响。

当前挑战

该数据集致力于解决文本到图像生成领域中NSFW内容识别与控制的挑战，核心在于如何精准区分并描述敏感视觉元素，以避免模型生成有害输出。在构建过程中，研究人员面临多重困难：首先，数据来源的多样性与质量不一，需从LAION和nsfw_detect等异构数据集中筛选并整合有效样本，确保内容的代表性与平衡性；其次，自动生成描述依赖LLaVA-NeXT模型，其准确性受限于模型对复杂人物属性的理解能力，可能导致描述偏差或遗漏关键细节。此外，伦理考量要求严格处理敏感图像，避免在数据预处理中引入偏见或错误标注，这些挑战共同凸显了在AIGC安全领域开发可靠数据资源的复杂性。

常用场景

经典使用场景

在图像生成与内容安全交叉领域，NSFW-T2I数据集以其约38k图像-文本对的结构，为文本到图像生成模型的训练与评估提供了关键资源。该数据集通过整合LAION和nsfw_detect来源的图像，并借助LLaVA-NeXT模型生成详细的人物属性描述，典型应用于训练生成对抗网络或扩散模型，以探索在生成过程中如何有效避免产生不当内容，同时保持图像的真实性与多样性。

衍生相关工作

围绕NSFW-T2I数据集，学术界衍生出多项经典研究，包括基于提示工程的图像安全生成方法、多模态内容分类器的改进，以及针对生成模型的对抗性评估框架。这些工作不仅深化了对模型偏差与安全性的理解，还促进了如安全感知的扩散模型和伦理对齐微调技术等创新方向的发展，为构建更可靠的多模态人工智能系统奠定了理论基础。

数据集最近研究