FARFACE

Name: FARFACE
Creator: 印度理工学院卡拉格普尔分校, 印度 2马克斯普朗克软件系统研究所, 德国
Published: 2024-07-26 21:57:32
License: 暂无描述

arXiv2024-07-26 更新2024-07-24 收录

下载链接：

https://forms.gle/2Nd9ntNcc71vvwEJ7

下载链接

链接失效反馈

官方服务：

资源简介：

FARFACE数据集由印度理工学院卡拉格普尔分校和马克斯普朗克软件系统研究所共同开发，专注于全球南部地区的板球运动员面部图像，共计6579条数据。该数据集通过从ESPNCRICINFO网站抓取图像并进行预处理和清洗，确保了图像质量和多样性。主要用于审计和减轻面部识别系统中的偏见，特别是在性别预测和地区预测等应用中。

The FARFACE dataset was co-developed by the Indian Institute of Technology Kharagpur and the Max Planck Institute for Software Systems. It focuses on facial images of cricket players from the Global South, with a total of 6579 samples. This dataset was constructed by scraping images from the ESPNCRICINFO website, followed by preprocessing and cleaning to ensure image quality and diversity. It is primarily used to audit and mitigate bias in facial recognition systems, particularly in applications such as gender prediction and regional prediction.

提供机构：

印度理工学院卡拉格普尔分校, 印度 2马克斯普朗克软件系统研究所, 德国

创建时间：

2024-07-23

搜集汇总

数据集介绍

构建方式

FARFACE数据集的构建基于来自世界八个国家的6579名独特男女体育人士（板球运动员）的面部图像。数据集中超过50%的个体来自全球南方国家，具有人口多样性。为了帮助对抗性审计和鲁棒模型训练，数据集中每张图像都包含了四种对抗性变体，共超过40000张独特图像。数据集的收集和预处理过程包括使用Selenium工具从ESPNCRICINFO网站上的球员页面抓取图像和球员元数据，并通过YOLOv5模型裁剪和调整图像大小，以显示仅面部区域。

特点

FARFACE数据集的特点包括地理多样性、对抗性变体和人口多样性。数据集中超过50%的个体来自全球南方国家，具有不同肤色的多样性。此外，数据集中的每张图像都包含了四种对抗性变体，包括RGB、扩散、灰度和口罩，用于测试模型对现实世界对抗性输入的鲁棒性。数据集的性别分布为85.98%男性，14.02%女性，反映了社会中存在的性别不平衡现象。

使用方法

FARFACE数据集可用于对抗性审计和鲁棒模型训练。数据集可用于评估和改进面部识别系统在性别预测任务上的性能，并识别模型中存在的性别和地区偏见。此外，数据集中的对抗性变体可用于测试模型对现实世界对抗性输入的鲁棒性。数据集也可用于研究如何通过微调和对比学习等技术减轻面部识别系统中的偏见。

背景与挑战

背景概述

面部识别系统（FRSs）正在以惊人的速度在全球范围内开发和部署。然而，大多数平台都是在有限的几个国家设计和部署的，而没有考虑到其他地区特定的需求。这对于全球南方国家来说尤其成问题，这些国家缺乏强大的立法来保护那些面临这些系统不公平性能的人。数据集的不可用性、对FRSs如何工作的缺乏理解以及低资源偏差缓解措施加剧了这些问题。在这项工作中，我们提出了一个由6,579名来自世界八个国家的独特男女体育人士（板球运动员）组成的自制面部数据集。超过50%的数据集由来自全球南方国家的个人组成，人口统计数据多样化。为了帮助对抗审计和鲁棒的模型训练，我们对数据集中的每张图片进行了四种对抗性变体，导致超过40,000张不同的图片。我们还使用这个数据集来对五个流行的面部识别系统（FRSs）进行基准测试，包括商业和开源FRSs，用于性别预测（以及对于开源模型中的一个作为红队任务的示例，用于国家预测）。在工业FRSs上的实验揭示了从98.2%（Azure的情况）到38.1%（Face++的情况）的准确率，在Global South的男性和女性之间存在很大差异（Face++的情况下最大差异为38.5%）。在所有FRSs中也观察到Global North和South的女性之间存在偏差（最大差异约为50%）。Grad-CAM分析表明，鼻子、额头和嘴巴是开源FRSs感兴趣的区域。基于这个关键观察，我们设计了一些简单、低资源的偏差缓解解决方案，使用少样本和新的对比学习技术，在一种情况下将男性和女性之间的差异从50%减少到1.5%，从而显著提高了准确率。对于使用开源Deepface模型的红队实验，我们发现简单的微调没有太大作用，而对比学习则带来了稳定的收益。

当前挑战

FARFACE数据集的研究背景表明，面部识别系统在Global South国家面临的主要挑战是缺乏足够的数据集来训练和评估模型，特别是在对抗性输入的情况下。此外，现有的面部数据集主要来自Global North，缺乏Global South的代表性，这导致了面部识别系统在这些地区的不公平表现。为了解决这个问题，FARFACE数据集提供了来自Global South国家的丰富数据，并包含了对抗性变体，以帮助评估和提高模型的鲁棒性和公平性。另一个挑战是解释FRSs的预测，以了解为什么某些面孔会被错误分类。为了解决这个问题，FARFACE数据集使用Grad-CAM分析来揭示模型关注的区域，并帮助设计解决方案来减少错误分类和差异。最后，FARFACE数据集还旨在缓解FRSs中的偏差，特别是在性别预测任务中。为了解决这个问题，研究人员采用了少样本学习和对比学习技术来微调开源Deepface模型，以减少偏差并提高准确率。这些挑战表明，FARFACE数据集在促进面部识别系统的公平性和鲁棒性方面发挥着重要作用。

常用场景

经典使用场景

FARFACE数据集主要应用于人脸识别系统（FRSs）的审计和偏差缓解。该数据集包含了来自全球八个国家的6579个独特的男性与女性运动员（板球运动员）的面部图像，其中超过50%的图像来自全球南方国家，具有人口多样性。数据集中的每个图像都有四个对抗性变体，共有超过40000个独特的图像，这有助于对抗性审计和鲁棒的模型训练。

解决学术问题

FARFACE数据集解决了当前人脸识别系统中存在的地域偏差问题。由于大多数FRSs的开发和部署都在少数几个国家进行，而在其他地区部署时缺乏对地区特定要求的充分检查，这给全球南方国家带来了问题。FARFACE数据集提供了一个包含更多全球南方人口数据的基准数据集，有助于审计和缓解FRSs中的偏差。通过在FARFACE数据集上进行实验，研究揭示了现有FRSs在性别预测任务中的性能差异，特别是在全球南方国家和女性群体中表现出的偏差。此外，研究还通过Grad-CAM分析揭示了FRSs的决策过程，并提出了基于少样本学习和对比学习的偏差缓解方法，这些方法在提高模型准确性的同时，也显著降低了性别之间的差异。

衍生相关工作

FARFACE数据集的发布促使了一系列相关研究的发展。例如，一些研究基于FARFACE数据集对现有的FRSs进行了审计，揭示了它们在不同地区和人口群体中的性能差异和偏差问题。另外一些研究则利用FARFACE数据集开发了新的偏差缓解技术，例如少样本学习和对比学习，以提高FRSs的公平性和鲁棒性。此外，FARFACE数据集还被用于训练和测试新的FRSs，以提高其在不同地区和人口群体中的准确性和鲁棒性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集