NSFW-Caption
收藏数据集概述
NSFW-Caption 是一个面向视觉-语言模型训练与微调的数据集,包含 NSFW 动漫/成人风格图像及其对应的详细 Danbooru 风格标签描述。
数据集规模
| 数据划分 | 样本数量 |
|---|---|
| 训练集 | 25,874 |
| 验证集 | 3,209 |
| 测试集 | 3,209 |
| 总计 | 32,292 |
数据格式
每条样本以用户与助手的对话形式组织,示例如下:
{ "messages": [ { "role": "user", "content": [ {"type": "text", "text": "Use danbooru tags to describe this NSFW image."}, {"type": "image", "image": "images/train_00000.jpg"} ] }, { "role": "assistant", "content": [ {"type": "text", "text": "2girls, blonde hair, blue hair, cowboy shot, ..."} ] } ] }
数据列说明
| 列名 | 类型 | 描述 |
|---|---|---|
image |
PIL.Image.Image |
图像(加载时自动解码) |
text |
string |
提取的 Danbooru 标签描述 |
messages |
list[dict] |
包含用户与助手轮次的完整对话字典 |
特征类型
python { "image": Image(feature=None, decode=True), "text": Value(dtype=string), "messages": Sequence(feature=Sequence(feature=...) }
数据集加载
python from datasets import load_dataset
加载特定数据划分
ds = load_dataset("HavocK1/NSFW-Caption", split="train")
访问一个样本
example = ds[0] image = example["image"] # PIL.Image 对象 caption = example["text"] # Danbooru 标签字符串
使用场景
该数据集适用于以下场景的视觉-语言模型微调:
- 多模态训练:用于 NSFW/内容审核任务
- 图像描述生成:密集、结构化的标签式标注
- 视觉-语言对齐:基于 Danbooru 风格标签的监督学习
数据集构建
- 图像来源:来自公开来源的 NSFW 图像
- 标注方式:使用视觉模型自动生成 Danbooru 风格标签
- 数据划分:80/10/10 训练/验证/测试,已随机打乱
许可证
本数据集采用 Creative Commons Zero (CC0 - 公共领域) 许可证发布。您可以自由使用、复制、编辑、修改和分发本数据集,包括商业用途,无需署名或附加限制。
详细条款请参见:CC0
注意事项
- 本数据集包含成人/NSFW 图像,仅限研究及模型开发用途
- 用户必须符合其所在地的法定年龄要求
- 数据集维护者对不当使用不承担任何责任
联系方式
如有问题或数据集相关咨询,请在该仓库中提交 Issue。




