NSFWCorpus
收藏arXiv2025-04-16 更新2025-04-18 收录
下载链接:
https://github.com/shahidmuneer/multimodal-nsfw-defense
下载链接
链接失效反馈官方服务:
资源简介:
NSFWCorpus是一个包含100万对文本和图像样本的大型数据集,由韩国成均馆大学DASH实验室创建。该数据集包含使用开源扩散模型生成的真实样本,以及包含正常和对抗性不雅内容的图像。数据集的构建目的是为了训练出一个能够有效防御多模态对抗性攻击的多模态不雅内容检测模型。
NSFWCorpus is a large-scale dataset containing 1 million text-image pairs, created by the DASH Lab at Sungkyunkwan University, South Korea. This dataset includes real samples generated via open-source diffusion models, as well as images containing both normal and adversarial obscene content. The dataset is constructed for training multimodal obscene content detection models that can effectively defend against multimodal adversarial attacks.
提供机构:
DASH Lab Computer Science and Engineering Department Sungkyunkwan University
创建时间:
2025-04-16
搜集汇总
数据集介绍

构建方式
NSFWCorpus数据集的构建采用了多模态方法,结合了文本和图像两种模态的数据。首先,研究人员从公开的NSFW词汇表中提取了1,599对涉及敏感内容的词汇,并利用大型语言模型(如Mistral-7B)生成详细的图像描述。随后,这些描述被输入到开源的扩散模型(如SDXL Lightning和SDXL Turbo)中生成对应的图像。此外,数据集还包含了通过对抗攻击生成的扰动文本和图像,以增强数据集的多样性和鲁棒性。整个过程生成了100万对文本和图像数据,涵盖了多种敏感内容,如暴力、种族歧视和性别歧视等。
特点
NSFWCorpus数据集的主要特点在于其规模庞大且多模态特性。该数据集包含100万对文本和图像数据,涵盖了广泛的NSFW内容,并通过对抗攻击增强了数据的多样性。数据集中不仅包含自然生成的NSFW内容,还包含了经过扰动的对抗样本,这使得数据集在测试和训练多模态防御模型时更具挑战性。此外,数据集的构建注重上下文关联,能够有效支持文本和图像之间的多模态关系学习,为内容审核和安全防御研究提供了丰富的资源。
使用方法
NSFWCorpus数据集主要用于训练和评估多模态NSFW内容检测和防御模型。研究人员可以利用该数据集进行对抗训练,提升模型在识别自然和对抗性NSFW内容上的性能。数据集中的文本和图像对可以用于多模态融合模型的训练,通过学习文本和图像之间的关联性来增强内容审核的准确性。此外,该数据集还可用于比较不同防御方法在对抗攻击下的表现,为开发更安全的生成模型提供基准测试。
背景与挑战
背景概述
NSFWCorpus数据集由韩国成均馆大学DASH实验室的Muhammad Shahid Muneer和Simon S. Woo团队于2025年构建,旨在应对生成式AI模型可能产生的网络不安全内容(NSFW)问题。随着文本到图像(T2I)和图像到图像(I2I)模型的广泛应用,生成超现实图像的能力带来了新的社会担忧,如生成包含裸体、暴力和种族歧视等不良内容。该数据集包含100万条文本与图像对,涵盖自然和对抗性样本,为开发多模态防御机制提供了重要资源。其创新性在于首次整合了文本提示、生成图像及对抗样本的多模态关联数据,显著提升了现有内容审核系统的鲁棒性,对构建更安全的网络环境具有重要价值。
当前挑战
NSFWCorpus数据集面临的核心挑战体现在两个方面:领域问题层面,现有单模态过滤器和后置安全检查难以有效识别经过对抗攻击的多模态NSFW内容,特别是当文本和图像被协同篡改时防御效果急剧下降;构建过程层面,需平衡数据规模与伦理约束——既要收集足够多样的敏感内容样本(包括18种NSFW类别),又要确保所有数据均为AI生成以避免侵犯隐私。此外,对抗样本的生成需精确控制扰动幅度(如文本扰动范数π?𝐴?≤0.05),使其在保持语义连贯性的同时能绕过传统检测。数据标注还涉及跨文化敏感内容的判定难题,需建立多语言、多文化的评估标准。
常用场景
经典使用场景
NSFWCorpus数据集在文本到图像(T2I)和图像到图像(I2I)生成模型的安全防护研究中具有重要应用。该数据集通过提供大规模的多模态NSFW文本和图像对,为研究人员开发鲁棒的内容过滤系统提供了基础。其经典使用场景包括训练和评估多模态防御模型,以防止生成不安全的网络内容,特别是在对抗性攻击环境下。
解决学术问题
NSFWCorpus解决了生成式AI模型中NSFW内容检测的学术难题。传统方法依赖单模态过滤,易受对抗性攻击影响。该数据集通过结合文本和图像的多模态信息,显著降低了攻击成功率(ASR),并提升了内容分类的准确性、召回率和F1分数,为多模态防御研究提供了可靠的数据支持。
衍生相关工作
基于NSFWCorpus的经典衍生工作包括多模态对抗攻击防御框架(如MMA-Diffusion)的改进研究,以及结合大型语言模型(LLM)的链式推理内容审核系统。此外,该数据集还推动了跨文化、多语言NSFW检测模型的开发,为后续研究提供了标准化基准。
以上内容由遇见数据集搜集并总结生成



