AdamCodd/Civitai-8m-prompts
收藏Hugging Face2024-06-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/AdamCodd/Civitai-8m-prompts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是Civitai提供的最大的数据集,包含了截至2024年5月5日从图像中提取的所有提示。数据是通过作者自己的管道从零开始收集的。数据集经过了详细的预处理步骤,包括保留同时包含提示和负面提示的条目、丢弃少于3个标签的提示、移除特定类型的标签、删除重复标签、清理尾随逗号和换行符等。此外,还对URL字段进行了转换,并重新计算了`nsfw`字段。数据集的总条目数为8,655,847条(原始数据集,约40GB未压缩)和7,852,309条(处理后的数据集,约8.7GB未压缩)。
该数据集是Civitai提供的最大的数据集,包含了截至2024年5月5日从图像中提取的所有提示。数据是通过作者自己的管道从零开始收集的。数据集经过了详细的预处理步骤,包括保留同时包含提示和负面提示的条目、丢弃少于3个标签的提示、移除特定类型的标签、删除重复标签、清理尾随逗号和换行符等。此外,还对URL字段进行了转换,并重新计算了`nsfw`字段。数据集的总条目数为8,655,847条(原始数据集,约40GB未压缩)和7,852,309条(处理后的数据集,约8.7GB未压缩)。
提供机构:
AdamCodd
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 标签: 艺术
- 大小: 1M<n<10M
数据集内容
- 包含截至2024年5月5日从图像中提取的所有提示。
- 数据通过自建的管道从零开始收集。
预处理步骤
- 仅保留同时包含提示和负面提示的条目。
- 丢弃少于3个标签的提示。
- 移除LoRA/Locon/Lycoris/hypernet。
- 去除重复标签。
- 清理尾随逗号、换行符、空词及错误包含的元数据。
- 将URL字段转换为功能性URL。
- 重新计算
nsfw字段。 - 保留字段:
url,nsfwLevel,nsfw,stats,prompt,negativePrompt。
数据集分支
- 原始数据集: 包含未处理数据,共8,655,847条记录,约40GB未压缩。
- 处理后数据集: 经过上述预处理,共7,852,309条记录,约8.7GB未压缩。
变更日志
- 05/15: 调整
nsfw字段计算规则,简化预处理。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集名为Civitai-8m-prompts,规模在100万到1000万之间,主要与艺术相关,但包含敏感内容,标记为不适合所有观众。
以上内容由遇见数据集搜集并总结生成



