LCAF

Name: LCAF
Creator: 复旦大学
Published: 2022-10-26 15:16:58
License: 暂无描述

arXiv2022-10-26 更新2024-06-21 收录

下载链接：

http://hzzone.github.io/MTLFace

下载链接

链接失效反馈

官方服务：

资源简介：

LCAF数据集是由复旦大学收集并发布的一个大规模跨年龄人脸数据集，包含170万张人脸图像，每张图像都标注了年龄和性别信息。该数据集旨在推动年龄不变人脸识别（AIFR）和人脸年龄合成（FAS）的研究。数据集的创建过程涉及使用公共的Azure面部API对来自MS-Celeb-1M数据集的面部进行年龄和性别估计，随后通过随机抽样和人工校正确保标注的准确性。LCAF数据集不仅适用于AIFR和FAS的研究，还可用于其他面部相关的研究任务，如面部年龄估计的预训练。此外，为了促进追踪长期失踪儿童的应用，该数据集还构建了一个新的基准，包含相同身份的儿童和成人面部图像，专门设计用于跨年龄人脸识别的未来评估。

The LCAF dataset is a large-scale cross-age face dataset collected and released by Fudan University, comprising 1.7 million face images, each annotated with age and gender information. This dataset aims to advance research in Age-Invariant Face Recognition (AIFR) and Face Age Synthesis (FAS). The construction of the dataset involved using the public Azure Face API to estimate age and gender for faces from the MS-Celeb-1M dataset, followed by random sampling and manual verification to ensure annotation accuracy. The LCAF dataset is not only applicable to AIFR and FAS research, but also can be used for other facial-related research tasks, such as pre-training for face age estimation. Furthermore, to facilitate applications related to tracking long-term missing children, the dataset has also established a new benchmark containing child and adult face images of identical identities, specifically designed for future evaluations of cross-age face recognition.

提供机构：

复旦大学

创建时间：

2022-10-17

搜集汇总

数据集介绍

构建方式

LCAF数据集通过一个系统化的三阶段流程构建而成。首先，利用微软Azure面部API对经清洗的MS-Celeb-1M数据集中的海量人脸图像进行年龄与性别估算。其次，从约五百万张人脸中随机抽取样本进行人工核查与校正，尤其针对API在低龄群体中常见的误标问题。最终，通过平衡年龄与性别分布，构建出一个包含一百七十万张人脸的大规模跨年龄数据集，并从中抽取了一个包含约五十万张图像、一万二千个个体的子集（SCAF），以支持公平的性能对比。

使用方法

LCAF数据集主要用于训练和评估年龄不变人脸识别（AIFR）与面部年龄合成（FAS）的联合多任务学习框架。使用时，研究者可将图像对齐至112×112像素，并采用五个人脸关键点进行归一化。在训练中，数据集被划分为七个非重叠年龄组（如10岁以下至61岁以上），以支持细粒度的年龄变换。该数据集配合提出的MTLFace框架，通过基于注意力的特征分解和身份条件模块，可实现身份保持的跨年龄人脸合成与识别，并在多个基准测试集上验证其优越性能。

背景与挑战

背景概述

LCAF（Large-scale Cross-Age Face Dataset）是由复旦大学黄志忠、张军平、单洪明等研究人员于2021年提出的大规模跨年龄人脸数据集，旨在解决年龄变化对人脸识别性能的显著影响。该数据集包含约170万张来自跨年龄名人的面部图像，并提供了年龄和性别标注，通过平衡年龄与性别分布构建而成。其核心研究问题聚焦于年龄不变性人脸识别（AIFR）与人脸年龄合成（FAS）两大任务，旨在提取身份相关且年龄无关的判别性特征，同时生成逼真的年龄变换图像。LCAF的发布为相关领域提供了大规模、均衡的训练数据，推动了跨年龄人脸识别与合成技术的研究进展，并特别针对寻找失踪儿童等实际应用场景设立了新基准ECAF，具有重要的学术与应用价值。

当前挑战

LCAF数据集面临的挑战主要涵盖两个方面。在领域问题层面，年龄变化导致的面部外观差异显著增加类内距离，使得跨年龄人脸识别性能严重下降；同时，人脸年龄合成过程复杂，涉及老化与年轻化，需在保持身份的同时实现自然的面部纹理与形状变化，而现有方法常因组级变换产生伪影或身份信息丢失。在构建过程层面，收集大规模配对儿童与成人面部图像极为困难，导致训练数据中低龄样本稀缺，影响模型对儿童面孔的识别能力；此外，年龄与性别标注的准确性依赖于自动化工具（如Azure Facial API），低龄样本易出现误标，需人工校正，增加了数据清洗的复杂性与成本。

常用场景

经典使用场景

在人脸识别与计算机视觉领域，LCAF数据集作为大规模跨年龄人脸数据集，经典地应用于年龄不变性人脸识别（AIFR）和面部年龄合成（FAS）两大核心任务的联合建模。该数据集包含约170万张来自跨年龄名人的面部图像，并精心平衡了年龄与性别分布，为研究者提供了训练多任务学习框架的坚实基础，使其能够在提取身份相关判别特征的同时，生成逼真的年龄变换图像，从而推动跨年龄人脸识别技术的边界拓展。

解决学术问题

LCAF数据集有效解决了当前学术研究中两大关键问题：一是年龄变化导致的人脸识别性能显著下降，尤其是大年龄跨度的身份匹配难题；二是面部年龄合成中因群体级编码导致的身份信息丢失与伪影问题。通过提供大规模、年龄平衡的标注数据，该数据集支持研究者训练模型解耦身份与年龄特征，实现年龄不变性识别，同时借助高质量合成图像提升模型可解释性，为跨年龄人脸分析领域树立了新的基准。

实际应用

在实际应用中，LCAF数据集的核心价值体现在追踪失踪儿童等社会公益场景。通过构建包含成对儿童与成人面部的ECAF基准测试集，该数据集使得人脸识别系统能够在极端年龄变化下（如数十年的跨度）准确匹配身份，助力执法机构识别长期失踪人员。此外，其在通用人脸识别领域的竞争力表明，该数据集训练的模型可在安防监控、身份认证等现实场景中保持稳健性能，推动技术从实验室走向真实部署。

数据集最近研究