Skin Tone In the Wild Dataset (STW)

github2026-04-30 更新2026-05-02 收录

下载链接：

https://github.com/vitorpmh/STW

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含处理脚本和数据组织结构，用于面部肤色识别。数据集整合了多个来源，提供了全帧和分割的面部图像以及相应的肤色注释。数据集包含大约40k张图像，涉及3.5k个个体。

This dataset contains processing scripts and data organization structures for facial skin tone recognition. It aggregates data from multiple sources, offering full-frame and segmented facial images paired with corresponding skin tone annotations. The dataset includes roughly 40,000 images spanning 3,500 individuals.

创建时间：

2026-04-15

原始信息汇总

根据您提供的README文件内容，以下是对该数据集详情页面的总结：

数据集概述

数据集名称：野外肤色数据集（Skin Tone In the Wild Dataset，简称 STW）

数据集规模：包含约 40,000 张图像，涵盖 3,500 个个体。

主要用途：用于野外场景下的人脸肤色识别，提供全帧和分割后的人脸图像及其对应的肤色标注。

数据构成与来源

数据集整合了多个来源的数据，主要包括以下外部数据集（需自行下载）：

数据集名称	来源	获取要求
CASIA-Face-Africa	IdealTest（https://www.idealtest.org/）	需注册账号
CASIA-FaceV5	IdealTest（https://www.idealtest.org/）	需注册账号
CelebA	MMLab（https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html）	下载 "Align&Cropped Images"（`img_align_celeba.zip`、`identity_CelebA.txt`）

此外，部分预处理后的图像和数据集划分文件可从作者的 Google Drive 文件夹（https://drive.google.com/drive/u/0/folders/1jPVDyY0m_WH9VRwS6uaEtLyAhiWKF7ye）直接下载。

数据组织与处理

数据目录结构：

data/ ├── OpenData/ # 存放原始外部数据集 │ ├── CASIA-Face-Africa/ │ ├── CASIA-FaceV5/ │ └── data_celeb_a/ │ └── img_align_celeba/ ├── images/ # 从 Google Drive 下载的图像 └── splits/ # 训练/测试集划分文件（从 Google Drive 下载）

数据处理流程：

将外部数据集放入 data/OpenData/ 目录。
运行脚本 data/dataset_creation/create_data.sh，该脚本会：
- 生成全帧图像和分割后的人脸裁剪图像。
- 将生成的图像填充到 images/ 子文件夹中。
- 重构 annotation.csv 文件，使其路径与仓库一致。
- 创建个体级别和图像级别的数据划分。

标注信息

提供了 annotation 文件夹，用户可根据需要重写其中的脚本，以便在自己的数据上进行肤色标注。

许可与引用

许可：目前尚未确定具体许可协议，建议遵循各子数据集的许可协议。
引用：若使用本数据集，请引用以下论文：

bibtex @misc{matias2026largescaledatasetbenchmarkskin, title={Large-Scale Dataset and Benchmark for Skin Tone Classification in the Wild}, author={Vitor Pereira Matias and Márcus Vinícius Lobo Costa and João Batista Neto and Tiago Novello de Brito}, year={2026}, url={https://arxiv.org/abs/2603.02475}, }

搜集汇总

数据集介绍

构建方式

皮肤色调野外数据集（STW）的构建源于对自然界中人类面部肤色多样性的深度关切。该数据集整合了多个来源的图片资源，包括CASIA-Face-Africa、CASIA-FaceV5和CelebA，提供了一个包含约3.5千名个体、4万张图像的全帧与分割面部图像集。通过运行自动化的数据处理脚本，数据集被生成全图像和分割的面部裁剪，并整理了一致的注释CSV文件与个体及图像的分割定义，确保了结构的统一性与可复现性。

使用方法

使用皮肤色调野外数据集需要按照预设的目录结构配置环境。首先，从Google Drive下载核心图像与分割文件，并将外部数据集（如CASIA与CelebA）置于指定的OpenData文件夹中。随后，运行创建数据集的Shell脚本以自动生成面部裁剪与注释。目前，训练脚本与详细使用指南正在完善中，但用户可以尝试修改注释文件夹中的脚本来为自身数据添加标注，同时在使用时需遵循各原始数据集的许可协议，并引用相关研究工作。

背景与挑战

背景概述

皮肤色调的自动识别在计算机视觉领域具有重要意义，特别是在人脸分析、医疗诊断以及公平性研究中扮演着关键角色。现有数据集多受限于实验室环境或小规模样本，难以反映真实世界中肤色分布的多样性与复杂性。为此，由Vitor Pereira Matias、Márcus Vinícius Lobo Costa、João Batista Neto和Tiago Novello de Brito等研究人员于2026年创建的Skin Tone In the Wild Dataset (STW)应运而生。该数据集整合了CASIA-Face-Africa、CASIA-FaceV5和CelebA等多个公开数据集，通过全帧图像与分割面部裁剪两种形式提供了约4万张、涵盖3500个独立个体的面部图像，并标注了相应的皮肤色调类别。STW旨在解决野外环境下大规模、多族裔肤色分类基准缺失的核心问题，为人脸识别、图像检索及跨领域肤色分析研究提供了标准化的评测平台，其开源性也极大促进了相关领域的公平性探讨与算法迭代。

当前挑战

STW数据集所面临的核心挑战首先在于领域问题的复杂性：真实世界中光照条件、拍摄角度、表情变化及遮挡等因素对皮肤色调感知的干扰十分显著，加之不同族裔间肤色的细微差异与皮肤疾病造成的局部色差，使得模型难以在保持高准确率的同时兼顾泛化能力与公平性。其次，在数据集构建过程中，整合来自多个来源的图像面临着数据一致性难题，包括不同数据集间的色彩空间差异、图像采集设备与压缩格式的多样性，以及预定义标注标准（如肤色分类体系）的不统一。此外，数据许可与隐私问题也构成了显著障碍：部分子数据集（如CASIA系列）需要申请账户方可获取，而CelebA的版权条款进一步限制了直接分发，导致用户必须自行下载并处理原始数据，增加了复现研究的门槛与学习成本。

常用场景

经典使用场景

在计算机视觉与人机交互领域，肤色作为人脸分析的关键属性，长期受限于小规模、受控环境下的数据集，难以支撑鲁棒模型的训练。Skin Tone In the Wild Dataset (STW) 应运而生，它汇聚了来自CASIA-Face-Africa、CASIA-FaceV5及CelebA等多元来源的约4万张图像，覆盖3500余名个体，并提供全帧与分割后的面部图像及对应肤色标注。该数据集最常见的经典使用场景是作为大规模、真实场景下肤色分类与估计任务的基准，研究者可利用其丰富的图像变体、跨种族与光照变化的多样性，训练和评估深度学习模型在非约束环境下对肤色进行精准判定的能力，进而推动肤色分析技术从实验室走向实际应用。

解决学术问题

学术界在肤色相关研究中长期面临两大困境：一是现有数据集规模小、人口统计学覆盖不足，导致模型泛化性差；二是缺乏统一、公开的标注规范与评估协议，使得不同研究结果难以横向比较。STW数据集通过整合多源数据并构建标准化的训练-测试划分，系统性地缓解了数据稀缺与评估混乱的问题。其意义在于为肤色分类任务提供了一个大规模、标注一致、涵盖多种真实场景的基准平台，使研究者能够公平地对比算法性能，深入探究光照、遮挡、表情等干扰因素对肤色识别的影响，进而推动人脸理解、公平性分析及机器学习伦理等交叉领域的学术进展。

实际应用

在现实世界中，肤色识别的应用横跨生物识别、数字娱乐与医疗服务等多个行业。例如，在智能安防与人脸支付系统中，STW数据集可用于训练对光照变化与种族差异具有鲁棒性的肤色检测模块，提升身份验证的准确性与公平性。在社交媒体与影像编辑软件中，基于该数据集开发的肤色估计算法能够自动优化美颜滤镜的美白程度，避免种族偏见的产生，实现更包容的视觉体验。此外，在皮肤科远程诊疗中，STW衍生的模型可辅助医生从患者面部图像中提取肤色特征，用于红斑、色素沉着等皮肤病变的初步筛查，降低诊断对主观经验的依赖。

数据集最近研究