Birchlabs/sdxl-latents-ffhq

Name: Birchlabs/sdxl-latents-ffhq
Creator: Birchlabs
Published: 2023-11-22 22:39:32
License: 暂无描述

Hugging Face2023-11-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Birchlabs/sdxl-latents-ffhq

下载链接

链接失效反馈

官方服务：

资源简介：

Flickr-Faces-HQ (FFHQ) 是一个高质量的人脸图像数据集，最初作为生成对抗网络（GAN）的基准数据集创建。该数据集包含70,000张1024×1024分辨率的高质量PNG图像，涵盖了年龄、种族和图像背景的广泛变化，并且包含了眼镜、太阳镜、帽子等配饰的良好覆盖。图像是从Flickr爬取的，因此继承了该网站的所有偏见，并使用dlib自动对齐和裁剪。仅收集了许可宽松的图像，并通过各种自动过滤器进行筛选，最后使用Amazon Mechanical Turk移除偶尔出现的雕像、绘画或照片的照片。请注意，该数据集不应用于开发或改进面部识别技术。

提供机构：

Birchlabs

原始信息汇总

数据集概述

数据集名称

Flickr-Faces-HQ Dataset (FFHQ)

数据集描述

FFHQ是一个高质量的人脸图像数据集，最初创建作为生成对抗网络（GAN）的基准。该数据集包含70,000张1024x1024分辨率的PNG图像，涵盖了年龄、种族和图像背景的显著变化，以及眼镜、太阳镜、帽子等配饰。图像从Flickr爬取，使用dlib自动对齐和裁剪，并通过Amazon Mechanical Turk进行人工筛选。

数据集创建

数据集通过以下脚本创建：

脚本链接：make_sdxl_latent_dataset.py
VAE编码器使用NATTEN注意力，核大小为17。
未保存均值和logvar，因为方差足够低，不值得为了保留它们而使文件大小翻倍。

数据格式

数据集样本包含以下字段：

__key__: 字符串
__url__: 字符串
img.png: 序列化的PIL图像，1024x1024像素
latent.pth: 序列化的FloatTensor，128x128潜在变量

统计信息

均值 (avg/val.pt): python [-2.8982300758361816, -0.9609659910202026, 0.2416578084230423, -0.307400107383728]
平方和 (avg/sq.pt): python [65.80902099609375, 32.772762298583984, 36.080204010009766, 25.072017669677734]
标准差 (std): python [7.5768914222717285, 5.643518924713135, 6.001816749572754, 4.997751712799072]
标准差倒数 (1/std): python [0.13198024034500122, 0.17719440162181854, 0.16661621630191803, 0.2000899761915207]

许可证

图像作者在Flickr上发布的许可证包括：
- Creative Commons BY 2.0
- Creative Commons BY-NC 2.0
- Public Domain Mark 1.0
- Public Domain CC0 1.0
- U.S. Government Works
数据集本身（包括JSON元数据、下载脚本和文档）由NVIDIA Corporation根据Creative Commons BY-NC-SA 4.0许可证发布。

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是基于Flickr-Faces-HQ (FFHQ)人脸图像数据集构建的，将70,000张高分辨率人脸图像通过SDXL VAE编码为float16格式的潜在表示（latents），同时保留原始图像。数据集主要用于生成模型相关研究，但当前存在数据生成错误，导致预览受限。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集