five

Flickr-Faces-HQ (FFHQ)|人脸识别数据集|生成对抗网络数据集

收藏
github2024-05-24 更新2024-05-31 收录
人脸识别
生成对抗网络
下载链接:
https://github.com/NVlabs/ffhq-dataset
下载链接
链接失效反馈
资源简介:
Flickr-Faces-HQ (FFHQ)是一个高质量的人脸图像数据集,最初是为生成对抗网络(GAN)的基准而创建的。该数据集包含70,000张高质量的PNG图像,分辨率为1024×1024,涵盖了年龄、种族和图像背景的显著变化。它还包括眼镜、太阳镜、帽子等配件的良好覆盖。图像从Flickr网站爬取,因此继承了该网站的所有偏见,并使用dlib自动对齐和裁剪。只收集了使用许可协议的图像。使用了各种自动过滤器来修剪数据集,并最终使用Amazon Mechanical Turk来移除偶尔的雕像、绘画或照片。

Flickr-Faces-HQ (FFHQ) is a high-quality facial image dataset, originally created for benchmarking generative adversarial networks (GANs). The dataset comprises 70,000 high-quality PNG images with a resolution of 1024×1024, showcasing significant variations in age, ethnicity, and image backgrounds. It also provides extensive coverage of accessories such as glasses, sunglasses, and hats. The images were scraped from the Flickr website, thus inheriting all the biases of the site, and were automatically aligned and cropped using dlib. Only images with usage licenses were collected. Various automatic filters were employed to refine the dataset, and Amazon Mechanical Turk was ultimately used to remove occasional statues, paintings, or photographs.
创建时间:
2019-02-04
原始信息汇总

数据集概述

名称: Flickr-Faces-HQ Dataset (FFHQ)

描述: FFHQ是一个高质量的人脸图像数据集,包含70,000张分辨率为1024×1024的PNG格式图片。该数据集在年龄、种族和图像背景方面具有显著的多样性,并涵盖了眼镜、太阳镜、帽子等配饰。数据来源于Flickr网站,经过自动对齐和裁剪处理。

用途: 主要用于生成对抗网络(GAN)的研究,不应用于面部识别技术的开发或改进。

数据集内容

  • 图像数量: 70,000张
  • 图像格式: PNG
  • 分辨率: 1024×1024
  • 数据集大小: 2.56 TB

数据集结构

  • 主文件夹: ffhq-dataset
  • 子文件夹及内容:
    • ffhq-dataset-v2.json: 包含版权信息、URL等的元数据(255 MB)
    • images1024x1024: 对齐和裁剪的1024×1024图像(89.1 GB)
    • thumbnails128x128: 128×128缩略图(1.95 GB)
    • in-the-wild-images: 来自Flickr的原始图像(955 GB)
    • tfrecords: 用于StyleGAN和StyleGAN2的多分辨率数据(273 GB)
    • zips: 每个文件夹内容的ZIP存档(1.28 TB)

数据集使用

  • 下载脚本: 提供download_ffhq.py脚本,用于自动下载和验证数据集文件。
  • 训练与验证: 前60,000张图像用于训练,剩余10,000张用于验证。

版权与许可

  • 图像许可: 根据不同的Creative Commons许可发布,允许免费使用、重新分发和改编,部分许可要求适当引用原作者并标明更改。
  • 数据集许可: 由NVIDIA Corporation根据Creative Commons BY-NC-SA 4.0许可发布,允许非商业用途的使用、重新分发和改编,需引用论文并标明更改,衍生作品需使用相同许可。

隐私保护

  • 数据集仅包含作者明确允许免费使用和重新分发的照片。
  • 提供机制允许用户检查其照片是否被包含,并可请求移除。
AI搜集汇总
数据集介绍
main_image_url
构建方式
Flickr-Faces-HQ (FFHQ) 数据集的构建始于从 Flickr 网站上爬取高质量的人脸图像。这些图像经过 dlib 库的自动对齐和裁剪处理,确保了图像中人脸的中心位置和适当尺寸。为了确保数据集的多样性和质量,使用了多种自动过滤器来筛选图像,并通过 Amazon Mechanical Turk 进一步人工审核,以去除非人脸图像。最终,数据集包含了 70,000 张 1024×1024 分辨率的 PNG 格式图像,涵盖了不同年龄、种族和背景的多样化人脸。
使用方法
使用 FFHQ 数据集时,用户可以通过提供的下载脚本从 Google Drive 获取数据,该脚本支持多线程下载和自动校验文件完整性。数据集的元数据文件 ffhq-dataset-v2.json 提供了详细的图像信息,包括版权、作者、图像尺寸等,便于用户进行数据管理和分析。此外,数据集还提供了用于 StyleGAN 和 StyleGAN2 的多分辨率 TFRecords 格式数据,方便研究人员进行生成对抗网络的训练和评估。
背景与挑战
背景概述
Flickr-Faces-HQ (FFHQ) 数据集是由 NVIDIA 的研究团队于2018年创建的高质量人脸图像数据集,旨在为生成对抗网络(GAN)提供一个基准。该数据集由70,000张1024×1024分辨率的PNG图像组成,涵盖了年龄、种族和图像背景的广泛变化,以及眼镜、太阳镜和帽子等配饰。这些图像从Flickr网站爬取,并通过dlib自动对齐和裁剪,仅收集了许可宽松的图像。FFHQ数据集的创建不仅推动了GAN技术的发展,还为计算机视觉领域的研究提供了丰富的资源。
当前挑战
FFHQ数据集在构建过程中面临了多个挑战。首先,从Flickr爬取的图像继承了该网站的所有偏见,需要通过自动过滤和Amazon Mechanical Turk的人工审核来确保数据质量。其次,确保数据集中没有重复图像,尽管原始的‘in-the-wild’文件夹可能包含同一图像的多个版本。此外,数据集的庞大体积(2.56 TB)和复杂的结构要求高效的下载和管理工具。最后,数据集的使用限制和隐私保护问题也是重要的挑战,确保不用于面部识别技术的开发,并尊重原始作者的版权和隐私权。
常用场景
经典使用场景
Flickr-Faces-HQ (FFHQ) 数据集的经典使用场景主要集中在生成对抗网络 (GAN) 的研究与应用中。该数据集的高质量人脸图像为研究人员提供了丰富的训练素材,特别是在 StyleGAN 和 StyleGAN2 等模型的开发中,FFHQ 数据集被广泛用于生成逼真的人脸图像。此外,FFHQ 数据集的多样性,包括不同年龄、种族和背景的图像,使其成为评估和改进 GAN 模型性能的理想基准。
解决学术问题
FFHQ 数据集解决了在人脸生成领域中常见的学术研究问题,如生成图像的真实性、多样性和细节保真度。通过提供高质量、多样化的训练数据,FFHQ 数据集显著提升了 GAN 模型在生成逼真人脸图像方面的能力,推动了计算机视觉和人工智能领域的发展。其对生成模型性能的提升具有重要意义,为后续研究提供了坚实的基础。
实际应用
在实际应用中,FFHQ 数据集被广泛用于影视制作、虚拟现实、游戏开发等领域,用于生成逼真的人物角色和场景。此外,该数据集还应用于人脸识别技术的改进和测试,尽管其设计初衷并非用于此目的。FFHQ 数据集的高质量图像和多样性使其成为许多实际应用场景中的宝贵资源,推动了相关技术的发展和应用。
数据集最近研究
最新研究方向
在人脸识别与生成对抗网络(GAN)领域,Flickr-Faces-HQ (FFHQ) 数据集因其高质量的图像和丰富的多样性而备受关注。最新的研究方向主要集中在利用FFHQ数据集改进GAN的生成模型,特别是在风格迁移和图像合成方面。研究者们通过分析FFHQ数据集中的面部特征,探索如何更精确地控制生成图像的风格和细节,从而推动了生成对抗网络在艺术创作和虚拟现实等领域的应用。此外,FFHQ数据集也被用于研究面部识别系统的偏见和公平性,旨在通过多样化的数据集来提升识别算法的鲁棒性和公正性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

中国车牌识别数据集(7类,33万张)

这是一个高质量、平衡的中国车牌识别数据集,包含了33万张各类中国车牌的图片。数据集经过精心设计,确保了图像质量的优秀和大部分各类车牌类型的平衡分布。这个数据集非常适合用于训练和评估车牌识别模型。

魔搭社区 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录