tpremoli/CelebA-attrs-20k

Name: tpremoli/CelebA-attrs-20k
Creator: tpremoli
Published: 2024-02-23 14:20:43
License: 暂无描述

Hugging Face2024-02-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tpremoli/CelebA-attrs-20k

下载链接

链接失效反馈

官方服务：

资源简介：

CelebA-128x128数据集是一个包含人脸图像及其属性标注的数据集，图像分辨率为128x128。属性为二值属性（0或1），数据集已经分为训练集、验证集和测试集。训练集包含19999个样本，验证集包含2451个样本，测试集包含2440个样本。数据集的下载大小为175240272字节，总大小为184617904.26字节。

提供机构：

tpremoli

原始信息汇总

数据集概述

数据集信息

特征

image: 图像数据
5_o_Clock_Shadow: 胡须
Arched_Eyebrows: 弯眉毛
Attractive: 吸引力
Bags_Under_Eyes: 眼袋
Bald: 秃头
Bangs: 刘海
Big_Lips: 大嘴唇
Big_Nose: 大鼻子
Black_Hair: 黑发
Blond_Hair: 金发
Blurry: 模糊
Brown_Hair: 棕发
Bushy_Eyebrows: 浓眉毛
Chubby: 圆胖
Double_Chin: 双下巴
Eyeglasses: 眼镜
Goatee: 山羊胡
Gray_Hair: 灰发
Heavy_Makeup: 浓妆
High_Cheekbones: 高颧骨
Male: 男性
Mouth_Slightly_Open: 微张嘴
Mustache: 胡子
Narrow_Eyes: 小眼睛
No_Beard: 无胡须
Oval_Face: 椭圆脸
Pale_Skin: 苍白皮肤
Pointy_Nose: 尖鼻子
Receding_Hairline: 后退发际线
Rosy_Cheeks: 红润脸颊
Sideburns: 鬓角
Smiling: 微笑
Straight_Hair: 直发
Wavy_Hair: 卷发
Wearing_Earrings: 戴耳环
Wearing_Hat: 戴帽子
Wearing_Lipstick: 涂口红
Wearing_Necklace: 戴项链
Wearing_Necktie: 戴领带
Young: 年轻
prompt_string: 提示字符串

数据分割

train: 19999个样本，148170817.19字节
validation: 2451个样本，18181812.67字节
test: 2440个样本，18265274.4字节

数据集大小

下载大小: 175240272字节
数据集大小: 184617904.26字节

配置

default:
- train: data/train-*
- validation: data/validation-*
- test: data/test-*

数据集描述

属性为二元属性。
数据集已分为训练集、验证集和测试集。
数据集已缩减，训练样本为20000个。

引用

bibtex @inproceedings{liu2015faceattributes, title = {Deep Learning Face Attributes in the Wild}, author = {Liu, Ziwei and Luo, Ping and Wang, Xiaogang and Tang, Xiaoou}, booktitle = {Proceedings of International Conference on Computer Vision (ICCV)}, month = {December}, year = {2015} }

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，人脸属性分析是理解面部特征多样性的关键任务。CelebA-attrs-20k数据集基于广泛使用的CelebA数据集构建，通过精选原始数据中的两万张训练样本，并统一将图像分辨率调整为128x128像素。该数据集保留了原始的二元属性标注体系，涵盖了四十种精细的面部特征，如发型、配饰及面部结构等。数据划分严格遵循预设的训练、验证与测试集，确保了评估过程的标准化与可复现性。

使用方法

研究人员可通过Hugging Face平台直接加载该数据集，利用其标准化的数据分割进行模型训练与评估。在应用时，图像数据可直接输入卷积神经网络进行特征提取，而丰富的属性标签则支持监督学习下的多任务学习框架。该数据集常被用于训练属性预测模型，或作为条件生成对抗网络的输入以进行可控的人脸图像合成。其清晰的划分与标注结构也便于进行跨数据集的迁移学习实验，推动人脸分析技术的进步。

背景与挑战

背景概述

CelebA数据集由香港中文大学多媒体实验室于2015年发布，其核心研究在于推动人脸属性识别与生成模型在非受控环境下的发展。该数据集包含大量名人面部图像，并标注了40种二元属性，如发型、配饰及面部特征等，为计算机视觉领域提供了丰富的多标签学习与细粒度分析资源。其广泛的应用涵盖了人脸识别、属性编辑及生成对抗网络的研究，显著提升了模型在复杂真实场景中的泛化能力与可解释性。

当前挑战

CelebA数据集所针对的人脸属性识别任务，面临属性间高度相关性与类别不平衡的挑战，例如某些属性如‘金发’与‘男性’的共现概率较低，增加了模型分离特征的难度。在构建过程中，数据标注依赖于人工，易引入主观偏差，且原始图像的分辨率与光照条件差异显著，需进行复杂的预处理以确保一致性。此外，数据集的多样性虽高，但在种族、年龄等人口统计学维度上仍存在分布不均的问题，可能影响模型在广泛群体上的公平性与鲁棒性。

常用场景

经典使用场景

在计算机视觉领域，人脸属性识别是基础且关键的研究方向。CelebA-attrs-20k数据集以其大规模、高质量的人脸图像及丰富的二元属性标注，成为训练和评估深度神经网络模型的经典资源。该数据集常用于构建多标签分类模型，使模型能够同时预测人脸的多种视觉特征，如性别、年龄、发型及面部表情等。通过这一场景，研究者能够深入探索模型在复杂视觉模式下的表征能力与泛化性能。

解决学术问题

该数据集有效应对了人脸属性分析中的若干核心学术挑战。它提供了标准化的大规模标注数据，缓解了传统研究中因数据稀缺或标注不一致导致的模型偏差问题。其多元属性标注支持多任务学习框架的构建，促进了属性间关联性的挖掘，有助于解决属性共现与冲突的建模难题。此外，数据集的规范划分为模型性能的公平比较奠定了基础，推动了人脸属性识别领域的算法创新与理论进展。

实际应用

在实际应用层面，CelebA-attrs-20k数据集支撑了众多现实场景的技术落地。基于该数据集训练的模型可集成于智能安防系统，实现实时人脸属性分析，辅助身份核查与人群监控。在娱乐与社交领域，它驱动了滤镜生成、虚拟形象定制等个性化应用。同时，在医疗辅助诊断中，模型可协助分析面部特征与某些生理状态的潜在关联，为健康监测提供非侵入性参考。

数据集最近研究