Wild Selﬁe Dataset (WSD)

Name: Wild Selﬁe Dataset (WSD)
Creator: 印度信息技术学院，斯里城
Published: 2023-02-15 02:43:21
License: 暂无描述

arXiv2023-02-15 更新2024-08-06 收录

下载链接：

http://arxiv.org/abs/2302.07245v1

下载链接

链接失效反馈

官方服务：

资源简介：

Wild Selﬁe Dataset (WSD) 是一个专为自拍图像中的人脸识别而设计的数据集，由印度信息技术学院，斯里城创建。该数据集包含45,424张来自42个不同个体的自拍图像，其中女性24人，男性18人。数据集分为40,862张训练图像和4,562张测试图像。WSD数据集的创建过程包括原始数据收集、预处理、近似重复消除、人脸检测和边界框标注、人工筛选和标注以及人脸标注。该数据集旨在解决自拍图像中人脸识别的挑战，如增强现实滤镜、镜像反射、模糊图像、部分人脸、遮挡、光照变化、尺度、表情、视角、宽高比、模糊、部分人脸、旋转和校准等问题。WSD数据集的应用领域主要集中在提升自拍图像中人脸识别技术的性能。

Wild Selfie Dataset (WSD) is a dataset specifically designed for face recognition in selfie images, created by the Indian Institute of Information Technology, Sri City. It contains 45,424 selfie images from 42 distinct individuals, among which 24 are female and 18 are male. The dataset is divided into 40,862 training images and 4,562 test images. The creation process of the WSD dataset includes raw data collection, preprocessing, approximate duplicate removal, face detection and bounding box annotation, manual screening and annotation, as well as face annotation. This dataset aims to address the challenges of face recognition in selfie images, such as augmented reality filters, mirror reflections, blurry images, partial faces, occlusions, lighting variations, scale, expressions, viewpoints, aspect ratios, blurriness, partial faces, rotations and calibrations. The application fields of the WSD dataset mainly focus on improving the performance of face recognition technologies in selfie images.

提供机构：

印度信息技术学院，斯里城

创建时间：

2023-02-15

搜集汇总

数据集介绍

构建方式

在自拍图像人脸识别研究领域，Wild Selfie Dataset (WSD) 的构建过程体现了对真实场景数据采集的严谨追求。该数据集通过邀请42位参与者（包括24名女性和18名男性）自主提交使用智能手机前后摄像头拍摄的自拍图像及视频，确保了数据来源的自然性与多样性。原始数据经过预处理，剔除不支持格式及损坏文件，并利用FFmpeg从视频中提取图像帧。为消除数据偏差，研究团队实施了近重复图像消除策略，严格定义并移除了像素级匹配或通过裁剪缩放获得的相似图像。随后，采用Dlib库进行人脸检测与边界框标注，并结合人工核查与修正，以处理漏检、误检及严重遮挡等情况。最终，数据集包含45,424张图像，按身份进行编码标注（如WSD01至WSD42），并划分为40,862张训练图像与4,562张测试图像，确保了数据分布的均衡性与可用性。

特点

WSD数据集的核心特点在于其高度模拟真实自拍环境所带来的多重挑战性。与多数在受控环境下采集的人脸数据集不同，该数据集涵盖了自拍图像中常见的复杂变异因素，包括增强现实滤镜效果、镜像反射、模糊图像、局部人脸、遮挡、光照变化、尺度差异、丰富表情与情感、姿态对齐多样性、视角变动以及不同宽高比等。这些特征共同构成了一个综合性挑战集合，使得WSD在现有数据集中独树一帜，尤其适合用于评估人脸识别模型在非理想条件下的鲁棒性。数据集中每位参与者平均拥有1,082张图像，最小和最大图像数量分别为518和2,634，提供了充足的类内多样性，进一步增强了其在真实场景应用中的代表性。

使用方法

WSD数据集主要用于推动自拍图像中的人脸识别研究，其使用方法遵循标准的人脸检测与识别流程。研究者可首先利用数据集进行人脸检测任务，通过微调预训练模型如YOLOv3或MTCNN，在WSD训练集上优化模型参数，并在测试集上评估平均精度均值等指标。对于人脸识别，可采用VGGFace、VGGFace2或FaceNet等先进模型，在WSD训练集上进行微调，以学习自拍图像中的特异性特征。数据集中提供的边界框标注、身份编码及性别标签支持端到端的模型训练与验证。此外，该数据集还可用于分析头部姿态分布（如偏航、俯仰、翻滚角），以深入理解自拍场景中的几何变化。通过对比WSD与现有数据集的性能差异，研究者能够揭示自拍人脸识别的独特挑战，并开发更具适应性的算法。

背景与挑战

背景概述

随着智能手机的普及，自拍图像已成为日常生活中的常见现象，这为人脸识别技术带来了新的研究需求。Wild Selfie Dataset (WSD) 由来自纽约大学、印度信息技术学院等机构的研究团队于2023年创建，旨在解决自拍图像中的人脸识别问题。该数据集包含42位参与者的45,424张自拍图像，涵盖了增强现实滤镜、镜像反射、遮挡、光照变化等多种真实场景下的挑战。WSD的推出填补了现有数据集中缺乏自拍图像的空白，推动了人脸识别技术在非受控环境下的发展，对计算机视觉领域具有重要的实践意义。

当前挑战

WSD数据集主要针对自拍图像中的人脸识别问题，其挑战体现在多个层面。在领域问题方面，自拍图像因拍摄距离短、使用滤镜应用等因素，导致人脸识别面临增强现实滤镜干扰、镜像反射、部分面部可见、遮挡物影响、光照不均、尺度变化、表情多样性、视角偏移以及图像模糊等复杂情况，这些因素共同降低了现有深度学习方法的表现。在构建过程中，研究团队需处理原始数据收集的多样性，包括从视频帧中提取图像、消除近重复样本、手动校正人脸检测错误，并确保标注的准确性，同时克服自拍图像中自然场景下的不可控变量，如设备差异和用户行为的多变性，这些步骤增加了数据集的构建难度。

常用场景

经典使用场景

在计算机视觉领域，自拍图像因其独特的拍摄条件而成为人脸识别研究中的一大挑战。Wild Selfie Dataset (WSD) 作为专门针对自拍场景构建的数据集，其经典使用场景在于评估和优化人脸识别模型在非受控环境下的性能。该数据集通过收集来自智能手机前置或后置摄像头拍摄的自拍图像，涵盖了增强现实滤镜、镜像反射、模糊、部分面部、遮挡、光照变化等多种真实世界中的复杂因素，为研究者提供了一个高度多样化的测试平台，以检验模型在自拍图像中的鲁棒性和准确性。

衍生相关工作

WSD 数据集的发布催生了一系列针对自拍人脸识别的衍生研究工作。基于其提供的丰富挑战场景，研究者们开发了新的深度学习架构和损失函数，以应对自拍图像中的特定变异。例如，一些工作专注于改进人脸检测模型在遮挡和模糊条件下的性能，另一些则探索了跨模态匹配技术，如将身份证照片与自拍图像进行比对。此外，WSD 还被用于基准测试，比较不同模型如 VGGFace、FaceNet 在自拍数据上的表现，从而推动了模型轻量化、实时处理等方向的进展。这些衍生工作共同推动了人脸识别技术向更复杂、更实用的自拍场景深化。

数据集最近研究