Flickr-Faces-HQ (FFHQ)

github2019-07-19 更新2024-05-31 收录

下载链接：

https://github.com/AsLegacy/ffhq-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Flickr-Faces-HQ (FFHQ) 是一个高质量的人脸图像数据集，最初是为生成对抗网络(GAN)的基准而创建的。该数据集包含70,000张1024x1024分辨率的PNG图像，涵盖了年龄、种族和图像背景的显著变化，并包括眼镜、太阳镜、帽子等配件的良好覆盖。这些图像是从Flickr网站爬取的，因此继承了该网站的所有偏见，并使用dlib自动对齐和裁剪。只有使用宽松许可证的图像被收集，并使用各种自动过滤器进行修剪，最后使用Amazon Mechanical Turk移除了偶尔的雕像、绘画或照片。

Flickr-Faces-HQ (FFHQ) is a high-quality facial image dataset, originally created for benchmarking Generative Adversarial Networks (GANs). The dataset comprises 70,000 PNG images with a resolution of 1024x1024, showcasing significant variations in age, ethnicity, and image backgrounds, and includes a good coverage of accessories such as glasses, sunglasses, and hats. These images were scraped from the Flickr website, thus inheriting all the biases of the site, and were automatically aligned and cropped using dlib. Only images under a permissive license were collected, and various automatic filters were applied for pruning, with occasional statues, paintings, or photographs removed using Amazon Mechanical Turk.

创建时间：

2019-03-20

原始信息汇总

数据集概述

名称： Flickr-Faces-HQ Dataset (FFHQ)

描述： FFHQ是一个高质量的人脸图像数据集，包含70,000张1024x1024分辨率的PNG格式图片。该数据集在年龄、种族和图像背景方面具有显著的多样性，并广泛覆盖了眼镜、太阳镜、帽子等配件。数据集从Flickr网站爬取，使用dlib自动对齐和裁剪，仅收集了使用许可的图片。

用途： 主要用于生成对抗网络（GAN）的研究和训练。

数据集组成：

主文件夹： 包含所有数据，总大小为2.56 TB。
JSON元数据文件： 包含版权信息、URL等，大小为254 MB。
1024x1024图像： 70,000张，总大小为89.1 GB。
128x128缩略图： 70,000张，总大小为1.95 GB。
原始Flickr图像： 70,000张，总大小为955 GB。
tfrecords文件： 用于StyleGAN和ProGAN的多分辨率数据，总大小为273 GB。

许可证：

图像许可证： 根据原始作者在Flickr上的发布，使用Creative Commons BY 2.0、Creative Commons BY-NC 2.0、Public Domain Mark 1.0、Public Domain CC0 1.0或U.S. Government Works许可证。这些许可证允许免费使用、重新分发和改编非商业用途的图像，部分需要适当引用原作者并指出任何更改。
数据集许可证： 由NVIDIA Corporation根据Creative Commons BY-NC-SA 4.0许可证提供。允许使用、重新分发和改编非商业用途的数据集，需引用论文、指出更改，并使衍生作品遵循相同许可证。

下载和使用：

数据可通过Google Drive直接下载或使用提供的download_ffhq.py脚本下载。脚本支持自动下载、校验和重试，并使用多线程最大化带宽利用。

数据集分割：

前60,000张图像用于训练，剩余10,000张用于验证。

注意事项：

数据集中无重复图像，但in-the-wild文件夹可能包含从同一图像提取的多个不同面部。

元数据：

每个图像的详细信息包括类别（训练或验证）、原始Flickr照片信息、对齐的1024x1024图像信息、缩略图信息和原始Flickr图像信息。

搜集汇总

数据集介绍

构建方式

Flickr-Faces-HQ (FFHQ) 数据集通过从Flickr网站上抓取高质量的人脸图像构建而成，这些图像涵盖了广泛的年龄、种族和背景变化。为了确保图像的质量和一致性，所有图像均通过dlib库进行自动对齐和裁剪，并使用多种自动过滤器进行筛选，最后通过Amazon Mechanical Turk进行人工检查，以确保数据集中不包含非人脸图像。所有收集的图像均遵循宽松的许可协议，允许非商业用途的使用。

使用方法

用户可以通过提供的下载脚本从Google Drive获取数据集，该脚本支持多线程下载并自动验证文件的完整性。数据集可用于训练和验证，前60,000张图像通常用于训练，剩余10,000张用于验证。此外，用户还可以利用元数据中的面部特征点信息，重新生成对齐后的1024×1024图像。数据集适用于生成对抗网络（GAN）等计算机视觉任务的研究。

背景与挑战

背景概述

Flickr-Faces-HQ (FFHQ) 数据集是由NVIDIA的研究团队于2018年创建的高质量人脸图像数据集，旨在为生成对抗网络（GAN）提供基准测试。该数据集由70,000张1024×1024分辨率的PNG格式图像组成，涵盖了年龄、种族、背景和配饰（如眼镜、帽子等）的广泛变化。这些图像从Flickr网站爬取，经过自动对齐和裁剪，并通过Amazon Mechanical Turk进行人工筛选，以确保图像质量。FFHQ数据集的创建主要支持了Tero Karras等人在StyleGAN架构中的研究，该架构在生成对抗网络领域具有重要影响力。

当前挑战

FFHQ数据集在构建过程中面临了多个挑战。首先，从Flickr爬取的图像继承了该网站的固有偏见，如图像多样性和版权问题。其次，自动对齐和裁剪过程中需要处理大量图像，确保每张图像的面部特征准确对齐，这依赖于复杂的算法和计算资源。此外，数据集的构建还需要通过Amazon Mechanical Turk进行人工筛选，以去除非人脸图像，这增加了数据集构建的复杂性和成本。最后，数据集的版权和隐私问题也是一个重要挑战，确保所有图像符合许可协议并尊重作者的隐私权。

常用场景

经典使用场景

Flickr-Faces-HQ (FFHQ) 数据集因其高质量的人脸图像而广泛应用于生成对抗网络 (GAN) 的研究中。其经典使用场景包括训练和评估基于 StyleGAN 等架构的生成模型，这些模型能够生成逼真的人脸图像。由于数据集包含了多样化的年龄、种族和配饰，研究人员可以利用这些图像进行人脸生成、编辑和风格迁移等任务，从而推动生成模型在图像合成领域的应用。

解决学术问题

FFHQ 数据集解决了生成对抗网络在人脸生成任务中的多个学术问题。首先，它提供了高质量、多样化的图像，使得研究人员能够训练出更加逼真和多样化的生成模型。其次，数据集的自动对齐和裁剪功能减少了数据预处理的复杂性，提升了模型的训练效率。此外，FFHQ 数据集的公开性促进了学术界对生成模型性能的统一评估，推动了该领域的技术进步。

实际应用

在实际应用中，FFHQ 数据集被广泛用于人脸识别、虚拟现实、影视制作等领域。例如，在人脸识别系统中，FFHQ 数据集可以用于训练和测试模型，提升其在复杂场景下的识别准确率。在虚拟现实和影视制作中，FFHQ 数据集的高质量图像可以用于生成虚拟角色或进行特效制作，极大地提升了视觉效果的真实感和多样性。

数据集最近研究