jamarju/sd-4.4M
收藏Hugging Face2023-08-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jamarju/sd-4.4M
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含440万张使用Stable Diffusion 2生成的图像,这些图像是为Kaggle的Stable Diffusion图像到提示词竞赛而生成的。提示词从多个公开数据库中提取,包括Magic Prompt、DiffusionDB、Open Prompts、COCO、Conceptual Captions和LAION-2B-en-aesthetic。数据集对提示词进行了过滤,去除了CLIP token长度超过77的提示词,以及与其他提示词的余弦相似度超过0.9的提示词。数据通过KMeans聚类方法进行了分组,并以webdataset格式提供。每个样本包含提示词的嵌入向量、元数据、提示词文本和生成的图像。此外,还提供了一个包含所有元数据的parquet文件。图像最初以768px分辨率生成,然后调整为512px并保存为无损webp格式。
提供机构:
jamarju
原始信息汇总
数据集概述
数据集内容
- 图像数量:4.4M张图像
- 生成方式:使用Stable Diffusion 2生成
- 用途:用于Kaggle的stable diffusion image to prompt竞赛
数据来源
- 提示词来源:
- Magic Prompt - 1M (mp)
- DiffusionDB (db)
- Open Prompts (op)
- COCO (co)
- Conceptual Captions (cc)
- LAION-2B-en-aesthetic (l0)
数据过滤
- 过滤条件:
- 提示词长度超过77 CLIP tokens的被过滤
- 通过all-MiniLM-L6-v2嵌入计算,余弦相似度大于0.9的提示词对被过滤
数据组织
- 样本聚类:使用KMeans算法,
n_clusters=100 - 数据格式:tar文件,采用webdataset格式
数据集结构
- 数据集键值:
embs.npy:提示词的all-MiniLM-L6-v2嵌入,格式为np.float16数组json:额外元数据,包括ntokens(提示词长度)和cluster(聚类ID)txt:用于生成图像的提示词webp:图像文件,格式为webp
元数据
- 元数据文件:metadata.parquet
- 元数据内容:
original_dataset:原始数据集来源original_index:图像索引prompt:用于生成图像的提示词embs:提示词的all-MiniLM-L6-v2嵌入ntokens:提示词长度cluster:聚类ID
图像处理
- 生成分辨率:768px
- 最终分辨率:512px,使用Lanczos插值调整大小,保存为无损webp格式



