five

AdamCodd/Civitai-8m-prompts

收藏
Hugging Face2024-06-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/AdamCodd/Civitai-8m-prompts
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是Civitai提供的最大的数据集,包含了截至2024年5月5日从图像中提取的所有提示。数据是通过作者自己的管道从零开始收集的。数据集经过了详细的预处理步骤,包括保留同时包含提示和负面提示的条目、丢弃少于3个标签的提示、移除特定类型的标签、删除重复标签、清理尾随逗号和换行符等。此外,还对URL字段进行了转换,并重新计算了`nsfw`字段。数据集的总条目数为8,655,847条(原始数据集,约40GB未压缩)和7,852,309条(处理后的数据集,约8.7GB未压缩)。

该数据集是Civitai提供的最大的数据集,包含了截至2024年5月5日从图像中提取的所有提示。数据是通过作者自己的管道从零开始收集的。数据集经过了详细的预处理步骤,包括保留同时包含提示和负面提示的条目、丢弃少于3个标签的提示、移除特定类型的标签、删除重复标签、清理尾随逗号和换行符等。此外,还对URL字段进行了转换,并重新计算了`nsfw`字段。数据集的总条目数为8,655,847条(原始数据集,约40GB未压缩)和7,852,309条(处理后的数据集,约8.7GB未压缩)。
提供机构:
AdamCodd
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 标签: 艺术
  • 大小: 1M<n<10M

数据集内容

  • 包含截至2024年5月5日从图像中提取的所有提示。
  • 数据通过自建的管道从零开始收集。

预处理步骤

  1. 仅保留同时包含提示和负面提示的条目。
  2. 丢弃少于3个标签的提示。
  3. 移除LoRA/Locon/Lycoris/hypernet。
  4. 去除重复标签。
  5. 清理尾随逗号、换行符、空词及错误包含的元数据。
  6. 将URL字段转换为功能性URL。
  7. 重新计算nsfw字段。
  8. 保留字段: url, nsfwLevel, nsfw, stats, prompt, negativePrompt

数据集分支

  • 原始数据集: 包含未处理数据,共8,655,847条记录,约40GB未压缩。
  • 处理后数据集: 经过上述预处理,共7,852,309条记录,约8.7GB未压缩。

变更日志

  • 05/15: 调整nsfw字段计算规则,简化预处理。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集名为Civitai-8m-prompts,规模在100万到1000万之间,主要与艺术相关,但包含敏感内容,标记为不适合所有观众。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作