Skin Tone In the Wild Dataset (STW)
收藏根据您提供的README文件内容,以下是对该数据集详情页面的总结:
数据集概述
数据集名称:野外肤色数据集(Skin Tone In the Wild Dataset,简称 STW)
数据集规模:包含约 40,000 张图像,涵盖 3,500 个个体。
主要用途:用于野外场景下的人脸肤色识别,提供全帧和分割后的人脸图像及其对应的肤色标注。
数据构成与来源
数据集整合了多个来源的数据,主要包括以下外部数据集(需自行下载):
| 数据集名称 | 来源 | 获取要求 |
|---|---|---|
| CASIA-Face-Africa | IdealTest(https://www.idealtest.org/) | 需注册账号 |
| CASIA-FaceV5 | IdealTest(https://www.idealtest.org/) | 需注册账号 |
| CelebA | MMLab(https://mmlab.ie.cuhk.edu.hk/projects/CelebA.html) | 下载 "Align&Cropped Images"(img_align_celeba.zip、identity_CelebA.txt) |
此外,部分预处理后的图像和数据集划分文件可从作者的 Google Drive 文件夹(https://drive.google.com/drive/u/0/folders/1jPVDyY0m_WH9VRwS6uaEtLyAhiWKF7ye)直接下载。
数据组织与处理
数据目录结构:
data/ ├── OpenData/ # 存放原始外部数据集 │ ├── CASIA-Face-Africa/ │ ├── CASIA-FaceV5/ │ └── data_celeb_a/ │ └── img_align_celeba/ ├── images/ # 从 Google Drive 下载的图像 └── splits/ # 训练/测试集划分文件(从 Google Drive 下载)
数据处理流程:
- 将外部数据集放入
data/OpenData/目录。 - 运行脚本
data/dataset_creation/create_data.sh,该脚本会:- 生成全帧图像和分割后的人脸裁剪图像。
- 将生成的图像填充到
images/子文件夹中。 - 重构
annotation.csv文件,使其路径与仓库一致。 - 创建个体级别和图像级别的数据划分。
标注信息
提供了 annotation 文件夹,用户可根据需要重写其中的脚本,以便在自己的数据上进行肤色标注。
许可与引用
- 许可:目前尚未确定具体许可协议,建议遵循各子数据集的许可协议。
- 引用:若使用本数据集,请引用以下论文:
bibtex @misc{matias2026largescaledatasetbenchmarkskin, title={Large-Scale Dataset and Benchmark for Skin Tone Classification in the Wild}, author={Vitor Pereira Matias and Márcus Vinícius Lobo Costa and João Batista Neto and Tiago Novello de Brito}, year={2026}, url={https://arxiv.org/abs/2603.02475}, }




