WebFace260M

Name: WebFace260M
Creator: 清华大学
Published: 2022-04-21 22:56:53
License: 暂无描述

arXiv2022-04-21 更新2024-06-21 收录

下载链接：

https://www.face-benchmark.org

下载链接

链接失效反馈

官方服务：

资源简介：

WebFace260M是一个包含2.6亿张人脸图像的大规模数据集，旨在推动深度人脸识别技术的发展。该数据集由清华大学等机构的研究人员创建，通过自动化的清理流程（CAST）净化数据，确保高质量的训练数据。数据集涵盖了400万身份，适用于多种人脸识别任务，包括标准、带口罩和无偏见的人脸识别。此外，数据集还支持时间约束评估协议（FRUITS），以模拟实际应用场景中的识别挑战。

WebFace260M is a large-scale dataset consisting of 260 million face images, designed to advance the development of deep face recognition technologies. Created by researchers from Tsinghua University and other institutions, this dataset uses an automated cleaning pipeline named CAST to purify the data and ensure high-quality training samples. It covers 4 million distinct identities and supports multiple face recognition tasks, including standard, mask-wearing, and bias-free face recognition. In addition, the dataset provides a time-constrained evaluation protocol (FRUITS) to simulate recognition challenges in real-world application scenarios.

提供机构：

清华大学

创建时间：

2022-04-21

搜集汇总

数据集介绍

构建方式

WebFace260M数据集的构建方式首先是从互联网上收集了400万个名人名单，并下载了2.65亿张人脸图像。然后，研究人员设计了一种名为Cleaning Automatically utilizing Self-Training (CAST)的自训练流程，用于清洗这庞大的WebFace260M数据集。CAST流程首先使用在公开数据集MS1MV2上训练的教师模型对原始图像进行清洗，接着在清洗后的图像上训练学生模型。通过迭代地将学生模型作为新的教师模型，最终获得了高质量的WebFace42M数据集，包含200万个身份和4200万张人脸图像。

特点

WebFace260M数据集的特点在于其庞大的规模和高质量的清洗过程。WebFace260M包含2600万张人脸图像，而WebFace42M则是迄今为止最大的公开人脸识别训练集，包含200万个身份和4200万张人脸图像。此外，WebFace42M的噪声比例低于10%，相较于MegaFace2和MS1M等公开数据集，其数据质量和多样性都有显著提升。WebFace42M还提供了7种人脸属性标注，包括姿态、年龄、种族、性别、帽子、眼镜和口罩，进一步丰富了数据集的应用场景。

使用方法

WebFace42M数据集的使用方法主要分为训练和评估两个阶段。在训练阶段，研究人员可以利用WebFace42M训练深度人脸识别模型，并通过分布式训练框架实现高效优化。在评估阶段，研究人员可以参考Face Recognition Under Inference Time conStraint (FRUITS)协议，在具有丰富属性的测试集上对模型进行综合评估。FRUITS协议包括100ms、500ms和1000ms三个时间限制的赛道，分别对应于移动设备、本地监控和服务器端的人脸识别应用场景。通过在FRUITS协议下进行评估，研究人员可以全面了解模型的性能和适用性，从而推动人脸识别技术的发展。

背景与挑战

背景概述

随着深度学习技术的飞速发展，人脸识别领域取得了显著的成果。然而，学术研究在训练数据集的规模和质量上与工业界存在差距，这限制了人脸识别技术的进一步突破。WebFace260M数据集的创建旨在缩小这一差距。该数据集由XForwardAI于2021年3月发布，包含2600万张人脸图像，涵盖了400万个人物身份。研究人员通过从互联网上收集海量人脸图像，并利用CAST（Cleaning Automatically utilizing SelfTraining）流程进行数据清洗，最终得到了一个高质量的训练集WebFace42M，包含2000万个身份和4200万张人脸图像。WebFace42M被认为是目前最大的公开人脸识别训练集，其规模和质量对于推动人脸识别技术的发展具有重要意义。

当前挑战

WebFace260M数据集的创建和应用面临多项挑战。首先，在解决领域问题方面，大规模人脸识别技术在实际应用中需要考虑推理时间限制，例如在移动设备上进行人脸解锁。现有的评估协议往往只关注准确性，而忽略了推理时间。为了解决这个问题，研究人员设计了FRUITS（Face Recognition Under Inference Time conStraint）协议，该协议在不同的推理时间限制下评估人脸识别系统的性能。其次，在构建过程中，数据清洗是一个关键挑战。由于互联网上的人脸图像存在大量噪声，例如身份重叠和图像质量差等问题，因此需要有效的数据清洗方法。CAST流程利用自训练技术，通过迭代地训练和更新模型，实现了自动化的数据清洗，提高了数据质量。然而，如何进一步提高数据清洗的效率和准确性仍然是需要进一步研究的问题。

常用场景

经典使用场景

WebFace260M 数据集作为百万级人脸识别的基准数据集，其经典的使用场景主要集中于大规模人脸识别模型的训练与评估。研究者可以利用该数据集进行深度学习模型的训练，以提升模型在人脸识别任务上的准确性和鲁棒性。此外，WebFace260M 数据集还包含丰富的属性标注，如姿态、年龄、种族、性别等，使得研究者可以针对不同属性的人脸识别任务进行专门的模型设计和优化。

实际应用

WebFace260M 数据集在实际应用场景中具有重要的价值。它可以为安防、门禁、支付等领域的身份认证系统提供数据支持，帮助提升系统的人脸识别准确率和效率。此外，WebFace260M 数据集还可以用于开发轻量级的人脸识别模型，使其能够在移动设备等资源受限的平台上运行。

衍生相关工作

WebFace260M 数据集的发布推动了人脸识别领域的研究进展，衍生出了一系列相关的研究工作。例如，研究者可以利用 WebFace260M 数据集进行人脸识别模型的轻量化设计，以适应移动设备等资源受限的平台的计算需求。此外，WebFace260M 数据集还可以用于研究人脸识别模型的鲁棒性，使其能够在不同光照、姿态、表情等条件下保持较高的识别准确率。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集