five

nateraw/fairface

收藏
Hugging Face2022-10-14 更新2024-06-25 收录
下载链接:
https://hf-mirror.com/datasets/nateraw/fairface
下载链接
链接失效反馈
官方服务:
资源简介:
FairFace数据集是一个用于平衡种族、性别和年龄的人脸属性数据集。该数据集包含108,501张图像,旨在解决现有公共人脸数据集中对高加索人种(白人)的强烈偏见,以及其他种族(如拉丁裔)显著不足的问题。数据集定义了7个种族群体:白人、黑人、印度人、东亚人、东南亚人、中东人和拉丁裔。图像从YFCC-100M Flickr数据集中收集,并标注了种族、性别和年龄组。

FairFace数据集是一个用于平衡种族、性别和年龄的人脸属性数据集。该数据集包含108,501张图像,旨在解决现有公共人脸数据集中对高加索人种(白人)的强烈偏见,以及其他种族(如拉丁裔)显著不足的问题。数据集定义了7个种族群体:白人、黑人、印度人、东亚人、东南亚人、中东人和拉丁裔。图像从YFCC-100M Flickr数据集中收集,并标注了种族、性别和年龄组。
提供机构:
nateraw
原始信息汇总

数据集卡片 - FairFace

数据集描述

数据集概述

现有的公开人脸数据集在 Caucasian 面孔上存在强烈偏见,而其他种族(如 Latino)则显著不足。这可能导致模型准确性不一致,限制人脸分析系统对非白人种族群体的适用性,并可能对基于这种偏斜数据的研究结果产生不利影响。为了缓解这些数据集中的种族偏见,我们构建了一个新的人脸图像数据集,包含 108,501 张图像,强调数据集中种族成分的平衡。我们定义了 7 个种族群体:White, Black, Indian, East Asian, Southeast Asian, Middle East, 和 Latino。这些图像从 YFCC-100M Flickr 数据集中收集,并标记了种族、性别和年龄组。我们在现有的人脸属性数据集以及新的图像数据集上进行了评估,以测量泛化性能。我们发现,从我们的数据集训练的模型在新数据集上的准确性显著更高,并且在种族和性别组之间的准确性是一致的。

数据集结构

数据字段

  • img_bytes: 表示图像的字节
  • age: 图像中人物的年龄
  • gender: 图像中人物的性别
  • race: 图像中人物的种族

数据实例

json { "age": 6, "gender": 1, "img_bytes": "b\\\\xff\\\\xd8...", "race": 1 }

搜集汇总
数据集介绍
main_image_url
构建方式
在计算机视觉领域,人脸属性分析常受限于数据集的种族分布不均,FairFace数据集针对此问题进行了系统性构建。该数据集从YFCC-100M Flickr数据集中精心筛选出108,501张图像,并依据严格的种族平衡原则进行标注。标注过程涵盖了七个种族类别:白人、黑人、印度人、东亚人、东南亚人、中东人及拉丁裔,同时每张图像均标注了年龄与性别属性,确保了数据在多个维度上的均衡性。
特点
FairFace数据集的核心特征在于其卓越的种族平衡性,有效缓解了传统人脸数据集中普遍存在的对高加索人种的偏向。该数据集不仅提供了种族标签,还同步标注了年龄与性别,构成了一个多维属性分析的基础。其图像均来源于真实世界的Flickr平台,涵盖了丰富的光照、姿态与背景变化,增强了数据的多样性与现实代表性,为开发公平、鲁棒的人脸分析模型奠定了坚实基础。
使用方法
研究人员可通过Hugging Face的`datasets`库便捷加载FairFace数据集。加载后,原始的字节流图像数据需通过自定义转换函数转换为PIL图像对象,以便于后续的模型训练与评估。该数据集主要适用于图像分类任务,特别是多类别的人脸属性(如种族、性别、年龄)识别,可用于训练模型、评估算法在不同人口统计学分组上的性能表现,以及进行偏见检测与缓解的相关研究。
背景与挑战
背景概述
在计算机视觉领域,人脸属性分析一直是研究热点,但长期以来公开的人脸数据集存在显著的种族分布不平衡问题,多数数据偏向高加索人种,导致模型在其他种族群体上表现不佳。为应对这一挑战,研究团队于2019年构建了FairFace数据集,该数据集由108,501张图像组成,强调种族、性别和年龄的平衡性。其核心研究问题在于通过提供均衡的数据分布,提升人脸属性识别模型在不同人口统计学群体上的泛化能力和公平性,对推动公平人工智能的发展具有重要影响力。
当前挑战
FairFace数据集旨在解决人脸属性识别中因数据偏见导致的模型性能不一致问题,其挑战在于如何确保模型在不同种族、性别和年龄群体上均能保持高准确率,避免算法歧视。在构建过程中,挑战包括从YFCC-100M Flickr数据集中筛选并标注图像,以精确划分7个种族类别,同时平衡数据分布,克服现有数据集中拉丁裔等群体代表性不足的局限,确保数据质量与多样性。
常用场景
经典使用场景
在计算机视觉领域,人脸属性分析一直是研究热点,但传统数据集常因种族分布不均而存在偏差。FairFace数据集以其平衡的种族、性别和年龄构成,成为训练和评估人脸属性分类模型的经典基准。研究者广泛利用该数据集开发公平、鲁棒的算法,确保模型在不同人口统计学群体上表现一致,从而推动人脸识别、属性预测等任务的科学进展。
实际应用
在实际应用中,FairFace数据集为开发公平的人脸分析系统提供了关键支持。例如,在安防监控、社交媒体内容审核、医疗诊断辅助以及个性化推荐系统中,基于该数据集训练的模型能够更准确地识别不同种族、性别和年龄的用户,减少技术歧视风险。这不仅提升了商业产品的用户体验,也助力公共服务实现更广泛的包容性,符合全球多元文化社会的需求。
衍生相关工作
自FairFace数据集发布以来,已衍生出多项经典研究工作。例如,研究者利用其平衡特性开发了去偏损失函数和公平性正则化方法,以优化模型在不同群体间的性能一致性。此外,该数据集常被用于基准测试,如评估人脸属性分类、年龄估计和性别识别算法的公平性,并激发了跨数据集迁移学习、偏差可视化工具以及伦理AI框架的进一步发展,丰富了计算机视觉领域的学术生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作