tpremoli/CelebA-attrs-80k

Name: tpremoli/CelebA-attrs-80k
Creator: tpremoli
Published: 2024-02-23 14:25:26
License: 暂无描述

Hugging Face2024-02-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tpremoli/CelebA-attrs-80k

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: mit dataset_info: features: - name: image dtype: image - name: 5_o_Clock_Shadow dtype: int64 - name: Arched_Eyebrows dtype: int64 - name: Attractive dtype: int64 - name: Bags_Under_Eyes dtype: int64 - name: Bald dtype: int64 - name: Bangs dtype: int64 - name: Big_Lips dtype: int64 - name: Big_Nose dtype: int64 - name: Black_Hair dtype: int64 - name: Blond_Hair dtype: int64 - name: Blurry dtype: int64 - name: Brown_Hair dtype: int64 - name: Bushy_Eyebrows dtype: int64 - name: Chubby dtype: int64 - name: Double_Chin dtype: int64 - name: Eyeglasses dtype: int64 - name: Goatee dtype: int64 - name: Gray_Hair dtype: int64 - name: Heavy_Makeup dtype: int64 - name: High_Cheekbones dtype: int64 - name: Male dtype: int64 - name: Mouth_Slightly_Open dtype: int64 - name: Mustache dtype: int64 - name: Narrow_Eyes dtype: int64 - name: No_Beard dtype: int64 - name: Oval_Face dtype: int64 - name: Pale_Skin dtype: int64 - name: Pointy_Nose dtype: int64 - name: Receding_Hairline dtype: int64 - name: Rosy_Cheeks dtype: int64 - name: Sideburns dtype: int64 - name: Smiling dtype: int64 - name: Straight_Hair dtype: int64 - name: Wavy_Hair dtype: int64 - name: Wearing_Earrings dtype: int64 - name: Wearing_Hat dtype: int64 - name: Wearing_Lipstick dtype: int64 - name: Wearing_Necklace dtype: int64 - name: Wearing_Necktie dtype: int64 - name: Young dtype: int64 - name: prompt_string dtype: string splits: - name: train num_bytes: 595884212.447 num_examples: 79999 - name: validation num_bytes: 73107405.93 num_examples: 9810 - name: test num_bytes: 73120666.79 num_examples: 9763 download_size: 700256101 dataset_size: 742112285.167 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* - split: test path: data/test-* --- # CelebA-128x128 CelebA with attrs at 128x128 resolution. ## Dataset Information The attributes are binary attributes. The dataset is already split into train/test/validation sets. This dataset has been reduced so there's 80k train samples. ## Citation ```bibtex @inproceedings{liu2015faceattributes, title = {Deep Learning Face Attributes in the Wild}, author = {Liu, Ziwei and Luo, Ping and Wang, Xiaogang and Tang, Xiaoou}, booktitle = {Proceedings of International Conference on Computer Vision (ICCV)}, month = {December}, year = {2015} } ```

许可证：MIT许可证数据集信息：特征字段： - 名称：图像（image），数据类型：图像 - 名称：胡茬（5_o_Clock_Shadow），数据类型：64位整数 - 名称：弯眉（Arched_Eyebrows），数据类型：64位整数 - 名称：面容姣好（Attractive），数据类型：64位整数 - 名称：眼袋（Bags_Under_Eyes），数据类型：64位整数 - 名称：秃头（Bald），数据类型：64位整数 - 名称：齐刘海（Bangs），数据类型：64位整数 - 名称：厚嘴唇（Big_Lips），数据类型：64位整数 - 名称：大鼻子（Big_Nose），数据类型：64位整数 - 名称：黑发（Black_Hair），数据类型：64位整数 - 名称：金发（Blond_Hair），数据类型：64位整数 - 名称：画面模糊（Blurry），数据类型：64位整数 - 名称：棕发（Brown_Hair），数据类型：64位整数 - 名称：浓眉（Bushy_Eyebrows），数据类型：64位整数 - 名称：面部丰满（Chubby），数据类型：64位整数 - 名称：双下巴（Double_Chin），数据类型：64位整数 - 名称：佩戴眼镜（Eyeglasses），数据类型：64位整数 - 名称：山羊胡（Goatee），数据类型：64位整数 - 名称：灰发（Gray_Hair），数据类型：64位整数 - 名称：浓妆（Heavy_Makeup），数据类型：64位整数 - 名称：高颧骨（High_Cheekbones），数据类型：64位整数 - 名称：男性（Male），数据类型：64位整数 - 名称：微张嘴唇（Mouth_Slightly_Open），数据类型：64位整数 - 名称：小胡子（Mustache），数据类型：64位整数 - 名称：小眼（Narrow_Eyes），数据类型：64位整数 - 名称：无胡须（No_Beard），数据类型：64位整数 - 名称：鹅蛋脸（Oval_Face），数据类型：64位整数 - 名称：肤色苍白（Pale_Skin），数据类型：64位整数 - 名称：尖鼻子（Pointy_Nose），数据类型：64位整数 - 名称：发际线后移（Receding_Hairline），数据类型：64位整数 - 名称：脸颊红润（Rosy_Cheeks），数据类型：64位整数 - 名称：鬓角明显（Sideburns），数据类型：64位整数 - 名称：微笑（Smiling），数据类型：64位整数 - 名称：直发（Straight_Hair），数据类型：64位整数 - 名称：波浪发（Wavy_Hair），数据类型：64位整数 - 名称：佩戴耳环（Wearing_Earrings），数据类型：64位整数 - 名称：佩戴帽子（Wearing_Hat），数据类型：64位整数 - 名称：涂抹口红（Wearing_Lipstick），数据类型：64位整数 - 名称：佩戴项链（Wearing_Necklace），数据类型：64位整数 - 名称：佩戴领带（Wearing_Necktie），数据类型：64位整数 - 名称：年轻（Young），数据类型：64位整数 - 名称：提示字符串（prompt_string），数据类型：字符串数据划分： - 名称：训练集，占用字节数：595884212.447，样本数：79999 - 名称：验证集，占用字节数：73107405.93，样本数：9810 - 名称：测试集，占用字节数：73120666.79，样本数：9763 下载总大小：700256101 数据集总占用大小：742112285.167 配置项： - 配置名称：默认，数据文件路径： - 训练集：data/train-* - 验证集：data/validation-* - 测试集：data/test-* # CelebA-128×128 数据集分辨率为128×128的带属性标注CelebA数据集。 ## 数据集说明该数据集的标注均为二分类属性，且已预先划分为训练集、验证集与测试集。本次数据集经缩减后，训练集样本量为8万条。 ## 引用 bibtex @inproceedings{liu2015faceattributes, title = {Deep Learning Face Attributes in the Wild}, author = {Liu, Ziwei and Luo, Ping and Wang, Xiaogang and Tang, Xiaoou}, booktitle = {Proceedings of International Conference on Computer Vision (ICCV)}, month = {December}, year = {2015} }

提供机构：

tpremoli

原始信息汇总

CelebA-128x128 数据集概述

数据集信息

特征

image: 图像数据
5_o_Clock_Shadow: 胡渣
Arched_Eyebrows: 弯眉
Attractive: 有吸引力
Bags_Under_Eyes: 眼袋
Bald: 秃头
Bangs: 刘海
Big_Lips: 大嘴唇
Big_Nose: 大鼻子
Black_Hair: 黑发
Blond_Hair: 金发
Blurry: 模糊
Brown_Hair: 棕发
Bushy_Eyebrows: 浓眉
Chubby: 圆胖
Double_Chin: 双下巴
Eyeglasses: 眼镜
Goatee: 山羊胡
Gray_Hair: 灰发
Heavy_Makeup: 浓妆
High_Cheekbones: 高颧骨
Male: 男性
Mouth_Slightly_Open: 微张嘴
Mustache: 胡子
Narrow_Eyes: 小眼睛
No_Beard: 无胡须
Oval_Face: 椭圆脸
Pale_Skin: 苍白皮肤
Pointy_Nose: 尖鼻子
Receding_Hairline: 后退的发际线
Rosy_Cheeks: 红润的脸颊
Sideburns: 鬓角
Smiling: 微笑
Straight_Hair: 直发
Wavy_Hair: 卷发
Wearing_Earrings: 戴耳环
Wearing_Hat: 戴帽子
Wearing_Lipstick: 涂口红
Wearing_Necklace: 戴项链
Wearing_Necktie: 戴领带
Young: 年轻
prompt_string: 提示字符串

数据分割

train: 训练集，包含79999个样本，大小为595884212.447字节
validation: 验证集，包含9810个样本，大小为73107405.93字节
test: 测试集，包含9763个样本，大小为73120666.79字节

数据集大小

下载大小: 700256101字节
数据集大小: 742112285.167字节

配置

default: 默认配置
- train: 数据路径为data/train-*
- validation: 数据路径为data/validation-*
- test: 数据路径为data/test-*

搜集汇总

数据集介绍

构建方式

在计算机视觉领域，人脸属性分析是理解面部特征多样性的关键任务。CelebA-attrs-80k数据集基于CelebA原始数据构建，通过精选约80,000张训练样本，将图像统一调整为128x128分辨率，并保留了40种二进制属性标注。数据集的构建过程严格遵循原始CelebA的划分逻辑，确保了训练、验证和测试集的独立性，为模型训练提供了结构化的基准。

特点

该数据集的核心特点在于其精细的属性标注体系，涵盖了从面部毛发、发型到配饰佩戴等40个二元特征，如“5点阴影”、“ arched眉毛”、“佩戴耳环”等。这些标注以整数形式编码，便于机器学习模型直接处理。图像均以统一尺寸呈现，减少了预处理复杂度，同时数据规模的缩减提升了训练效率，使其成为人脸属性识别研究的理想资源。

使用方法

使用该数据集时，研究人员可借助HuggingFace平台直接加载数据，利用其预定义的训练、验证和测试分割进行模型开发。每个样本包含图像数据和对应的属性标签，支持端到端的监督学习任务，如多标签分类或生成模型训练。通过引用原始论文，用户能确保学术合规性，并基于该数据集推动人脸分析技术的创新。

背景与挑战

背景概述

CelebA数据集由香港中文大学多媒体实验室于2015年发布，其核心研究聚焦于大规模人脸属性识别与生成任务。该数据集包含超过20万张名人图像，每张图像均标注了40种二元属性，如微笑、戴眼镜、发型等，为计算机视觉领域的人脸分析研究提供了丰富的结构化数据。作为人脸属性识别领域的基准数据集，CelebA极大地推动了人脸生成、编辑及属性预测等方向的发展，成为生成对抗网络（GAN）和卷积神经网络（CNN）模型训练与评估的重要资源。

当前挑战

CelebA数据集所解决的核心领域挑战在于复杂环境下的人脸属性细粒度识别，其属性标注需克服光照、姿态、遮挡及表情变化带来的干扰。在构建过程中，数据采集面临名人肖像权与隐私伦理问题，而大规模人工标注则需保证40种属性标注的一致性与准确性，避免主观偏差。此外，数据分布的偏差，如某些属性样本不均衡，可能影响模型训练的公平性与泛化能力，对后续研究的鲁棒性提出更高要求。

常用场景

经典使用场景

在计算机视觉与面部属性分析领域，CelebA-attrs-80k数据集以其大规模标注的人脸图像成为经典基准。该数据集常被用于训练和评估多标签分类模型，研究者利用其丰富的二元属性标签，如微笑、眼镜佩戴、发型等，构建能够同时识别多种面部特征的深度学习系统。通过高分辨率图像与精细标注的结合，该数据集为模型提供了学习复杂视觉模式的基础，推动了人脸属性识别技术的标准化进程。

实际应用

在实际应用层面，CelebA-attrs-80k数据集支撑了众多智能化系统的开发。基于其训练的模型已广泛应用于人脸检索、个性化内容推荐、虚拟形象生成以及辅助安全验证等领域。例如，在社交媒体平台中，属性识别技术可用于自动照片分类与标签生成；在安防监控场景下，则有助于快速筛选特定外貌特征的目标人物，展现了从学术研究到产业落地的顺畅衔接。

衍生相关工作

围绕该数据集已衍生出一系列具有影响力的研究工作。早期经典如DeepFace等模型利用其进行多属性联合预测的探索；后续研究进一步拓展至生成对抗网络，例如StarGAN等利用属性标签进行可控人脸图像编辑。此外，该数据集也常被用作公平性评估基准，用于检测模型在性别、年龄等属性上的偏见，催生了人脸分析领域关于算法伦理与可解释性的深入探讨。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集