Flickr-Faces-HQ (FFHQ)

github2019-02-23 更新2024-05-31 收录

下载链接：

https://github.com/yueyedeai/ffhq-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

Flickr-Faces-HQ (FFHQ)是一个高质量的人脸图像数据集，最初是为生成对抗网络(GAN)的基准而创建的。该数据集包含70,000张1024x1024分辨率的PNG图像，涵盖了年龄、种族和图像背景的显著变化，并良好覆盖了眼镜、太阳镜、帽子等配饰。图像从Flickr网站爬取，使用dlib自动对齐和裁剪，仅收集了使用许可的图像。

Flickr-Faces-HQ (FFHQ) is a high-quality facial image dataset originally created for benchmarking Generative Adversarial Networks (GANs). The dataset comprises 70,000 PNG images with a resolution of 1024x1024, showcasing significant variations in age, ethnicity, and image backgrounds, and provides good coverage of accessories such as glasses, sunglasses, and hats. The images were scraped from the Flickr website, automatically aligned and cropped using dlib, and only images with usage permissions were collected.

创建时间：

2019-02-11

原始信息汇总

Flickr-Faces-HQ Dataset (FFHQ) 概述

数据集基本信息

名称: Flickr-Faces-HQ Dataset (FFHQ)
图像数量: 70,000张
图像格式: PNG
分辨率: 1024×1024
创建目的: 作为生成对抗网络(GAN)的基准

数据集内容

图像来源: 从Flickr网站爬取，自动对齐和裁剪
图像特征: 包含年龄、种族和图像背景的显著变化，以及眼镜、太阳镜、帽子等配件的良好覆盖

数据集结构

主文件夹: ffhq-dataset (2.56 TB)
子文件夹:
- ffhq-dataset-v1.json: 元数据文件 (254 MB)
- images1024x1024: 对齐和裁剪的图像 (89.1 GB)
- thumbnails128x128: 缩略图 (1.95 GB)
- in-the-wild-images: 原始Flickr图像 (955 GB)
- tfrecords: 多分辨率数据 (273 GB)
- zips: 文件夹内容的ZIP存档 (1.28 TB)

数据集使用

训练和验证: 前60,000张图像用于训练，剩余10,000张用于验证
无重复图像: 数据集内无重复图像，但in-the-wild文件夹可能包含同一图像的多个版本

下载与使用

下载脚本: 提供download_ffhq.py脚本，支持自动下载、验证校验和、错误重试等功能
元数据: ffhq-dataset-v1.json包含每张图像的详细信息，包括原始Flickr照片信息和处理后的图像信息

许可证

图像许可证: 根据不同作者在Flickr上的发布，可能包括Creative Commons BY 2.0、Creative Commons BY-NC 2.0、Public Domain Mark 1.0、Public Domain CC0 1.0或U.S. Government Works
数据集许可证: 由NVIDIA Corporation提供的Creative Commons BY-NC-SA 4.0，允许非商业用途的使用、再分发和改编，需适当引用原始论文并标明任何更改

致谢

感谢Jaakko Lehtinen, David Luebke等人的讨论和帮助，以及Janne Hellsten, Tero Kuosmanen等人的计算基础设施支持
特别感谢Vahid Kazemi和Josephine Sullivan在自动人脸检测和校准方面的工作，为数据收集提供了基础

搜集汇总

数据集介绍

构建方式

Flickr-Faces-HQ (FFHQ) 数据集的构建过程体现了高度的自动化和精确性。该数据集通过从Flickr平台爬取图像，并利用dlib库进行自动对齐和裁剪，确保了图像的高质量和一致性。在数据筛选过程中，采用了多种自动化过滤器，并结合Amazon Mechanical Turk进行人工审核，以排除非人脸图像，如雕像、绘画或照片中的照片。所有图像均来自Flickr上具有宽松许可的图片，确保了数据的合法性和可用性。

特点

FFHQ数据集以其高质量和多样性著称，包含70,000张分辨率为1024×1024的PNG格式人脸图像。这些图像涵盖了广泛的年龄、种族和背景，并且包含了丰富的配饰，如眼镜、太阳镜和帽子等。数据集不仅提供了对齐和裁剪后的图像，还包含了原始图像和缩略图，以及多分辨率的TFRecords文件，适用于不同的深度学习模型训练需求。此外，数据集还提供了详细的元数据，包括图像的版权信息、作者信息和面部关键点标注，为研究者提供了丰富的信息支持。

使用方法

FFHQ数据集的使用方法灵活多样，研究者可以通过Google Drive直接下载数据，或使用提供的Python脚本进行自动化下载和校验。数据集被划分为训练集和验证集，前60,000张图像用于训练，后10,000张用于验证。此外，脚本还支持从原始图像重新生成对齐后的图像，便于研究者进行自定义处理。数据集的多分辨率TFRecords文件特别适用于StyleGAN和ProGAN等生成对抗网络的训练，为图像生成任务提供了强大的数据支持。

背景与挑战

背景概述

Flickr-Faces-HQ (FFHQ) 数据集由 NVIDIA 的研究团队于2018年创建，旨在为生成对抗网络（GAN）提供高质量的基准数据。该数据集由 Tero Karras、Samuli Laine 和 Timo Aila 等研究人员主导开发，包含70,000张分辨率为1024×1024的高质量人脸图像。这些图像从 Flickr 平台爬取，涵盖了广泛的年龄、种族和背景多样性，并包含了眼镜、帽子等配饰的丰富变化。FFHQ 数据集在生成模型领域具有重要影响力，尤其是在 StyleGAN 的开发和评估中发挥了关键作用，推动了高质量人脸生成技术的发展。

当前挑战

FFHQ 数据集在构建过程中面临多重挑战。首先，从 Flickr 爬取的图像存在版权和许可问题，需确保所有图像均符合非商业用途的许可要求。其次，尽管自动化的面部检测和对齐工具（如 dlib）被广泛应用，但仍需通过人工筛选（如 Amazon Mechanical Turk）去除不符合要求的图像，如雕像、绘画或照片中的照片。此外，数据集的高分辨率和多样性要求使得数据处理和存储成本显著增加，尤其是在生成多分辨率 TFRecords 格式时，计算资源和时间消耗成为瓶颈。这些挑战不仅影响了数据集的构建效率，也对后续的研究和应用提出了更高的技术要求。

常用场景

经典使用场景

Flickr-Faces-HQ (FFHQ) 数据集在生成对抗网络（GAN）的研究中扮演了重要角色，尤其是在风格迁移和图像生成领域。该数据集以其高分辨率和多样性，为研究者提供了一个理想的基准，用于评估和比较不同GAN模型的性能。通过FFHQ，研究者能够深入探索生成图像的质量、多样性以及模型对复杂面部特征的捕捉能力。

衍生相关工作

FFHQ 数据集催生了许多经典的研究工作，尤其是在GAN领域。例如，NVIDIA的StyleGAN系列模型便是基于FFHQ进行训练和评估的，这些模型在图像生成质量上取得了显著突破。此外，FFHQ还被用于研究人脸属性编辑、图像超分辨率重建等任务，推动了计算机视觉领域的多项技术进步。

数据集最近研究