亚洲人脸数据集

github2024-04-22 更新2024-05-31 收录

下载链接：

https://github.com/yeyupiaoling/FaceDataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集专注于收集和处理亚洲人脸图片，用于人脸识别和相关研究。数据集的制作过程包括从互联网上爬取明星人脸图片，进行清洗和标注，确保每张图片只包含一张人脸。

This dataset is dedicated to the collection and processing of Asian facial images, intended for use in facial recognition and related research. The dataset creation process involves scraping celebrity facial images from the internet, followed by cleaning and annotation to ensure each image contains only one face.

创建时间：

2019-03-27

原始信息汇总

数据集概述

数据集名称

名称: FaceDataset
目的: 制作亚洲人脸数据集

数据集制作流程

第一阶段：人脸图片的获取和简单清洗

明星名字获取: 通过get_star_name.py脚本从网络获取中国明星的名字。
图片下载: 使用download_image.py脚本，根据明星名字从网络下载人脸图片。
图片清洗:
- 删除损坏图片: 通过delete_error_image.py脚本删除损坏或格式错误的图片。
- 删除不符合条件图片: 通过delete_more_than_one.py脚本删除包含多个人脸或无人脸的图片。

第二阶段：人脸图片的高级清洗和标注

选择主图片: 使用find_same_person.py脚本从同一明星的多张图片中选择一张作为主图片。
删除非同一人图片: 通过delete_not_same_person.py脚本删除与主图片不匹配的图片。
清理URL列表: 执行delete_surplus_url.py脚本，从image_url_list.txt中删除已删除图片对应的URL。
人脸标注: 运行annotate_image.py脚本，使用百度人脸检测服务对图片进行标注，包括年龄、性别、脸型等信息。

依赖环境

Python库: baidu-aip, tqdm, pillow, tensorflow==1.14.0, mtcnn, opencv-python, face_recognition

使用方法

执行一系列Python脚本以完成数据集的制作和标注。

免责声明

使用该数据集需遵守中国法律法规及百度AI开放平台服务协议，仅供学习使用，禁止商业用途。

搜集汇总

数据集介绍

构建方式

亚洲人脸数据集的构建过程分为两个主要阶段。首先，通过网络爬虫技术获取中国明星的名字，并以此为关键词从互联网上下载相关图片。随后，对下载的图片进行初步清洗，删除损坏的图片以及不符合要求的多人脸图片。第二阶段则涉及高级清洗和标注，包括选择每个明星的主人脸图片，通过人脸识别技术对比其他图片以确保一致性，并最终利用百度的人脸检测服务对图片进行详细标注，生成包含人脸特征的标注文件。

特点

亚洲人脸数据集的显著特点在于其针对亚洲人脸的专门构建，确保了数据集的区域特异性。此外，数据集经过多层次的清洗和标注，确保了图片的质量和信息的准确性。通过百度的人脸检测服务，数据集不仅包含基本的人脸信息，还涵盖了年龄、性别、脸型、表情、颜值等多维度特征，为深度学习和人脸识别研究提供了丰富的数据支持。

使用方法

使用亚洲人脸数据集时，用户需按照提供的脚本顺序执行各项操作。首先，运行获取明星名字的脚本，接着下载相关图片并进行初步清洗。随后，通过人脸识别技术选择主图片并删除不一致的图片，最后进行详细标注。用户需确保遵守相关法律法规和百度AI开放平台的服务协议，仅限于学习和研究使用，不得用于商业或其他盈利目的。

背景与挑战

背景概述

亚洲人脸数据集是由中国研究人员创建的一个专注于亚洲人脸识别的数据集。该数据集的构建始于对亚洲人脸特征的深入研究，旨在解决人脸识别技术在不同种族和地区间的差异性问题。主要研究人员通过爬取中国明星的图片，并利用百度的人脸识别服务进行数据清洗和标注，最终形成了一个高质量的人脸数据集。该数据集的创建不仅推动了亚洲人脸识别技术的发展，也为全球人脸识别领域的多样性研究提供了宝贵的资源。

当前挑战

亚洲人脸数据集的构建过程中面临了多重挑战。首先，数据获取阶段需要从互联网上爬取大量图片，这不仅涉及技术难题，还可能面临法律和隐私问题。其次，数据清洗过程中需要删除损坏的图片、无人脸或多人脸的图片，这要求高效的图像处理算法。最后，高级清洗和标注阶段需要确保每张图片的标注准确性，这依赖于复杂的人脸识别和对比技术。这些挑战不仅考验了技术实现的可行性，也提出了对数据质量和标注准确性的高要求。

常用场景

经典使用场景

亚洲人脸数据集在人脸识别和图像处理领域具有广泛的应用。其经典使用场景包括但不限于人脸检测、人脸识别、人脸属性分析以及人脸表情识别等。通过该数据集，研究人员可以训练和验证各种人脸相关的深度学习模型，从而提升算法在亚洲人脸特征上的表现。

衍生相关工作

基于亚洲人脸数据集，已衍生出多项经典工作，包括但不限于针对亚洲人脸特征优化的深度学习模型、跨种族人脸识别算法的研究以及人脸属性分析的新方法。这些工作不仅提升了人脸识别技术的准确性和鲁棒性，还推动了相关领域的技术革新和应用拓展。

数据集最近研究