NSFW-Caption

Hugging Face2026-05-05 更新2026-05-06 收录

下载链接：

https://huggingface.co/datasets/HavocK1/NSFW-Caption

下载链接

链接失效反馈

官方服务：

资源简介：

NSFW-Caption是一个多模态数据集，包含NSFW动漫/同人风格图像与详细的Danbooru风格标签配对的标注。该数据集专为训练和微调多模态模型而设计。数据集总共有32,292个样本，分为训练集（25,874个样本）、验证集（3,209个样本）和测试集（3,209个样本）。每个样本包含一个图像、文本标签以及一个用户与助手之间的对话结构。文本标签采用Danbooru风格，用于描述图像内容。该数据集适用于多模态训练、图像标注和视觉-语言对齐任务，特别是针对NSFW/内容审核的应用场景。数据集的图像来源于公共资源，标注通过视觉模型自动生成，并采用80/10/10的比例随机划分为训练、验证和测试集。数据集采用Creative Commons Zero (CC0)许可证发布，允许自由使用、修改和分发。

NSFW-Caption is a multimodal dataset containing NSFW anime/fan-art style images paired with detailed Danbooru-style tags. This dataset is designed for training and fine-tuning multimodal models. The dataset contains a total of 32,292 samples, divided into a training set (25,874 samples), validation set (3,209 samples), and test set (3,209 samples). Each sample includes an image, text tags, and a conversation structure between a user and an assistant. The text tags use Danbooru-style descriptions for image content. The dataset is suitable for multimodal training, image captioning, and vision-language alignment tasks, particularly for NSFW/content moderation applications. The datasets images are sourced from public resources, with annotations automatically generated by vision models, and are randomly split into training, validation, and test sets in an 80/10/10 ratio. The dataset is released under the Creative Commons Zero (CC0) license, allowing free use, modification, and distribution.

创建时间：

2026-05-03

原始信息汇总

数据集概述

NSFW-Caption 是一个面向视觉-语言模型训练与微调的数据集，包含 NSFW 动漫/成人风格图像及其对应的详细 Danbooru 风格标签描述。

数据集规模

数据划分	样本数量
训练集	25,874
验证集	3,209
测试集	3,209
总计	32,292

数据格式

每条样本以用户与助手的对话形式组织，示例如下：

{ "messages": [ { "role": "user", "content": [ {"type": "text", "text": "Use danbooru tags to describe this NSFW image."}, {"type": "image", "image": "images/train_00000.jpg"} ] }, { "role": "assistant", "content": [ {"type": "text", "text": "2girls, blonde hair, blue hair, cowboy shot, ..."} ] } ] }

数据列说明

列名	类型	描述
`image`	`PIL.Image.Image`	图像（加载时自动解码）
`text`	`string`	提取的 Danbooru 标签描述
`messages`	`list[dict]`	包含用户与助手轮次的完整对话字典

特征类型

python { "image": Image(feature=None, decode=True), "text": Value(dtype=string), "messages": Sequence(feature=Sequence(feature=...) }

数据集加载

python from datasets import load_dataset

加载特定数据划分

ds = load_dataset("HavocK1/NSFW-Caption", split="train")

访问一个样本

example = ds[0] image = example["image"] # PIL.Image 对象 caption = example["text"] # Danbooru 标签字符串

使用场景

该数据集适用于以下场景的视觉-语言模型微调：

多模态训练：用于 NSFW/内容审核任务
图像描述生成：密集、结构化的标签式标注
视觉-语言对齐：基于 Danbooru 风格标签的监督学习

数据集构建

图像来源：来自公开来源的 NSFW 图像
标注方式：使用视觉模型自动生成 Danbooru 风格标签
数据划分：80/10/10 训练/验证/测试，已随机打乱

许可证

本数据集采用 Creative Commons Zero (CC0 - 公共领域) 许可证发布。您可以自由使用、复制、编辑、修改和分发本数据集，包括商业用途，无需署名或附加限制。

详细条款请参见：CC0

注意事项

本数据集包含成人/NSFW 图像，仅限研究及模型开发用途
用户必须符合其所在地的法定年龄要求
数据集维护者对不当使用不承担任何责任

联系方式

如有问题或数据集相关咨询，请在该仓库中提交 Issue。

搜集汇总

数据集介绍

构建方式

NSFW-Caption数据集构建于公开来源的NSFW动漫/里番风格图像之上，其标注过程借助视觉模型自动生成Danbooru风格的结构化标签。数据集采用80/10/10的比例划分为训练集、验证集和测试集，共计32,292个样本，所有数据经过随机打乱以确保分布均匀。每个样本以对话形式封装，包含用户指令与助手的标签描述，便于多模态模型的训练与微调。

特点

该数据集的核心特点在于其精细的Danbooru式标签注释，每张图片对应一个描述性的标签字符串，覆盖角色、动作、场景等多元属性。数据格式采用消息列表结构，支持用户与助手的多轮交互，为视觉语言对齐任务提供了自然接口。此外，数据集以CC0公共领域许可发布，允许无限制使用，极大降低了研究与应用的门槛。

使用方法

用户可通过HuggingFace的datasets库便捷加载数据，如使用load_dataset('HavocK1/NSFW-Caption', split='train')获取训练集。每个样本包含image（PIL图像对象）、text（标签字符串）及messages（完整对话字典）三列，可直接用于图像字幕生成、多模态微调或内容审核模型训练。示例代码展示了如何结合Unsloth框架进行视觉模型微调，通过指定图像与文本列实现无缝集成。

背景与挑战

背景概述

NSFW-Caption数据集由开发者HavocK1于近期创建，基于animelover/touhou-images扩展而来，旨在为多模态模型提供配对NSFW动漫风格图像与Danbooru标签描述的训练资源。该数据集包含约32,292个样本，划分为训练集、验证集和测试集（80/10/10比例），图像来源于公开渠道并采用自动标签生成技术。在视觉语言模型日益发展的背景下，该数据集专注于填补成人内容领域的标注空白，尤其服务于内容审核、图像密集标注及多模态对齐等研究任务。通过发布CC0公共领域许可，研究者可自由使用该资源推进相关领域的学术探索与模型开发。

当前挑战

该数据集所面临的挑战集中于三个方面：首先是领域问题，成人图像涉及伦理与法律敏感议题，如何在严格合规的前提下进行精确分类与标注，平衡模型性能与内容安全性成为核心难题。其次，构建过程中，图像来源的多样性与版权问题增加了数据筛选难度，自动生成的Danbooru标签可能存在语义偏差或噪声，导致标注质量参差不齐。此外，该数据集规模有限，且部分图像仅有简要描述，可能限制模型泛化能力的提升，未来仍需扩充数据规模并优化标注算法的可靠性。

常用场景

经典使用场景

NSFW-Caption数据集专为多模态视觉-语言模型的训练与微调而构建，其核心应用场景聚焦于面向NSFW（不宜在工作场所观看）内容的图像描述生成与内容审核。数据集包含约3.2万张动漫风格的NSFW图像，每张图像均配有基于Danbooru标签体系的详尽结构化描述，这些描述以用户-助手对话形式组织，便于直接用于指令微调范式。研究者可借助该数据集，使模型学会从NSFW图像中提取精细的视觉语义，如角色特征、姿态、服饰、场景要素等，并生成符合Danbooru标签规范的准确描述，从而强化模型在特定亚文化视觉内容上的理解与生成能力。

解决学术问题

在学术界，NSFW图像的内容理解与自动标注长期面临标注数据匮乏、标签体系不统一以及伦理审查复杂等挑战。NSFW-Caption数据集通过提供高质量、细粒度且标准化的Danbooru标签描述，有效缓解了上述困境。它使研究者能够系统性地探索多模态模型在敏感内容场景下的视觉语义对齐问题，例如如何平衡描述准确性、标签完备性与内容安全性。该数据集还推动了面向非典型视觉域（如二次元、成人动漫）的视觉语言预训练研究，为模型在边缘化内容上的泛化能力评估提供了重要基准，对内容审核系统的自动化、鲁棒性改进具有显著的学术价值。

衍生相关工作

NSFW-Caption数据集的发布催生了一系列衍生工作。其构建思路启发了针对其他亚文化或敏感内容域的专用标注数据集，例如将Danbooru标签体系迁移至真人NSFW图像或血腥暴力场景的图像描述任务。在模型层面，研究者基于该数据集开发了面向NSFW内容的领域自适应微调方法，如引入对抗训练以提升模型在敏感图像上的描述鲁棒性，或结合安全对齐技术抑制不当生成。此外，该数据集已成为评估多模态模型在极端边缘分布上性能的测试床，相关工作探讨了模型在NSFW内容上的过拟合现象、标签噪声影响以及公平性偏差等问题，推动了可信赖视觉语言模型的研究进展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集