RetouchingFFHQ

Name: RetouchingFFHQ
Creator: 复旦大学
Published: 2023-07-20 15:12:56
License: 暂无描述

arXiv2023-07-20 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2307.10642v1

下载链接

链接失效反馈

官方服务：

资源简介：

RetouchingFFHQ是由复旦大学创建的大规模人脸修饰数据集，包含652,568张修饰图像和58,158张未修饰图像。数据集通过Megvii、Alibaba和Tencent的在线API进行修饰，涵盖四种常见的修饰操作：眼睛放大、面部提升、皮肤平滑和面部美白，每种操作分为四个级别：关闭、轻微、中等和重度。该数据集用于训练和测试人脸修饰检测模型，特别适用于细粒度检测和多修饰类型识别，旨在解决社交媒体平台上的真实性问题和欺骗性广告的影响。

RetouchingFFHQ is a large-scale face retouching dataset created by Fudan University. It contains 652,568 retouched images and 58,158 unretouched images. The dataset is generated via the online APIs of Megvii, Alibaba and Tencent, covering four common retouching operations: eye enlargement, face lifting, skin smoothing and face whitening, each of which has four levels: off, mild, moderate and severe. This dataset is used for training and testing face retouching detection models, and is particularly suitable for fine-grained detection and multi-retouching-type recognition, aiming to address the authenticity issues and the impact of deceptive advertisements on social media platforms.

提供机构：

复旦大学

创建时间：

2023-07-20

搜集汇总

数据集介绍

构建方式

在数字媒体真实性日益受到关注的背景下，RetouchingFFHQ数据集的构建依托于高质量的FFHQ人脸图像库。通过严格的清洗流程，剔除了不适合进行美颜处理的图像，如模糊、光线异常或面部不完整等样本，最终保留了58,158张原始人脸图像。利用三家主流商业API（Megvii、Tencent、Alibaba），系统化地生成了四种典型美颜操作（平滑、美白、大眼、瘦脸）的单操作至四操作组合图像，每种操作均标注了精细的强度等级（0、30、60、90），最终形成了包含超过65万张修饰图像的规模化数据集。

特点

RetouchingFFHQ的显著特征在于其规模性与细粒度标注。该数据集拥有超过65万张修饰图像，是目前最大的人脸美颜检测数据集，确保了训练模型的鲁棒性。其标注体系突破了传统的二分类限制，对四种美颜操作类型及四个强度等级进行了多标签精细标注，支持从类型到程度的全面检测。此外，数据集涵盖三家不同API生成的图像，为模型提供了跨平台泛化能力评估的基础，增强了其在真实场景中的应用价值。

使用方法

该数据集适用于人脸美颜检测任务的模型训练与评估。研究者可将数据按80%、10%、10%的比例划分为训练、验证和测试集，用于训练多标签分类模型，以同时预测美颜操作的类型与强度。数据集支持同API内评估与跨API泛化测试，有助于验证模型在不同美颜算法下的稳定性。此外，通过引入随机有损压缩等数据增强策略，可进一步提升模型对实际传输中质量退化图像的检测鲁棒性。

背景与挑战

背景概述

随着短视频平台的广泛普及，人脸美化滤镜的滥用引发了数字外观真实性及欺骗性广告影响的担忧。为应对这一挑战，复旦大学与英伟达的研究团队于2023年联合构建了RetouchingFFHQ数据集，旨在推动细粒度人脸美化检测技术的发展。该数据集基于高质量的FFHQ人脸图像，通过调用多家商业API生成了超过50万张条件性美化图像，涵盖眼放大、脸提升、平滑和美白四种典型操作及其多级强度标注。其大规模、细粒度及跨API特性，显著拓展了传统二分类检测的范畴，为社交媒体内容真实性验证提供了关键数据支撑。

当前挑战

在细粒度人脸美化检测领域，现有数据集普遍面临规模有限与标注粗糙的双重挑战。例如，早期数据集如FFHQR仅包含7万张图像，且多数仅提供二分类标签，难以捕捉美化类型与程度的复杂多样性。构建RetouchingFFHQ时，研究团队需克服数据清洗的复杂性，剔除闭眼、光照异常等不适用于真实美化场景的图像，并协调不同API的美化强度量化标准。此外，跨API泛化性验证要求模型能够适应各异的美化算法特性，这进一步增加了检测任务的难度。

常用场景

经典使用场景

在数字媒体真实性验证领域，RetouchingFFHQ数据集为细粒度人脸美化检测提供了关键基准。该数据集通过整合四种典型的美化操作（如眼部放大、面部提拉、皮肤平滑和美白），并标注不同强度等级，使得研究者能够训练模型精准识别单一或复合美化效果。其大规模和高品质特性，使得基于深度学习的检测算法能够在复杂场景下实现高精度分类，推动了人脸美化检测从二值判断向多标签细粒度分析的演进。

衍生相关工作

基于RetouchingFFHQ数据集，研究者已衍生出多项经典工作，如多粒度注意力模块（MAM）的提出，该模块通过自适应令牌聚类与跨尺度表征学习，显著提升了CNN主干网络的美化检测性能。此外，该数据集还激发了跨API泛化检测、抗压缩攻击的鲁棒性研究，以及结合Transformer架构的混合模型探索，为人脸美化检测领域的算法优化与工程落地提供了丰富范例。

数据集最近研究