five

Birchlabs/sdxl-latents-ffhq

收藏
Hugging Face2023-11-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Birchlabs/sdxl-latents-ffhq
下载链接
链接失效反馈
官方服务:
资源简介:
Flickr-Faces-HQ (FFHQ) 是一个高质量的人脸图像数据集,最初作为生成对抗网络(GAN)的基准数据集创建。该数据集包含70,000张1024×1024分辨率的高质量PNG图像,涵盖了年龄、种族和图像背景的广泛变化,并且包含了眼镜、太阳镜、帽子等配饰的良好覆盖。图像是从Flickr爬取的,因此继承了该网站的所有偏见,并使用dlib自动对齐和裁剪。仅收集了许可宽松的图像,并通过各种自动过滤器进行筛选,最后使用Amazon Mechanical Turk移除偶尔出现的雕像、绘画或照片的照片。请注意,该数据集不应用于开发或改进面部识别技术。

Flickr-Faces-HQ (FFHQ) 是一个高质量的人脸图像数据集,最初作为生成对抗网络(GAN)的基准数据集创建。该数据集包含70,000张1024×1024分辨率的高质量PNG图像,涵盖了年龄、种族和图像背景的广泛变化,并且包含了眼镜、太阳镜、帽子等配饰的良好覆盖。图像是从Flickr爬取的,因此继承了该网站的所有偏见,并使用dlib自动对齐和裁剪。仅收集了许可宽松的图像,并通过各种自动过滤器进行筛选,最后使用Amazon Mechanical Turk移除偶尔出现的雕像、绘画或照片的照片。请注意,该数据集不应用于开发或改进面部识别技术。
提供机构:
Birchlabs
原始信息汇总

数据集概述

数据集名称

Flickr-Faces-HQ Dataset (FFHQ)

数据集描述

FFHQ是一个高质量的人脸图像数据集,最初创建作为生成对抗网络(GAN)的基准。该数据集包含70,000张1024x1024分辨率的PNG图像,涵盖了年龄、种族和图像背景的显著变化,以及眼镜、太阳镜、帽子等配饰。图像从Flickr爬取,使用dlib自动对齐和裁剪,并通过Amazon Mechanical Turk进行人工筛选。

数据集创建

数据集通过以下脚本创建:

  • 脚本链接:make_sdxl_latent_dataset.py
  • VAE编码器使用NATTEN注意力,核大小为17。
  • 未保存均值和logvar,因为方差足够低,不值得为了保留它们而使文件大小翻倍。

数据格式

数据集样本包含以下字段:

  • __key__: 字符串
  • __url__: 字符串
  • img.png: 序列化的PIL图像,1024x1024像素
  • latent.pth: 序列化的FloatTensor,128x128潜在变量

统计信息

  • 均值 (avg/val.pt): python [-2.8982300758361816, -0.9609659910202026, 0.2416578084230423, -0.307400107383728]

  • 平方和 (avg/sq.pt): python [65.80902099609375, 32.772762298583984, 36.080204010009766, 25.072017669677734]

  • 标准差 (std): python [7.5768914222717285, 5.643518924713135, 6.001816749572754, 4.997751712799072]

  • 标准差倒数 (1/std): python [0.13198024034500122, 0.17719440162181854, 0.16661621630191803, 0.2000899761915207]

许可证

  • 图像作者在Flickr上发布的许可证包括:
    • Creative Commons BY 2.0
    • Creative Commons BY-NC 2.0
    • Public Domain Mark 1.0
    • Public Domain CC0 1.0
    • U.S. Government Works
  • 数据集本身(包括JSON元数据、下载脚本和文档)由NVIDIA Corporation根据Creative Commons BY-NC-SA 4.0许可证发布。
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是基于Flickr-Faces-HQ (FFHQ)人脸图像数据集构建的,将70,000张高分辨率人脸图像通过SDXL VAE编码为float16格式的潜在表示(latents),同时保留原始图像。数据集主要用于生成模型相关研究,但当前存在数据生成错误,导致预览受限。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作