five

gaunernst/ms1mv3-wds

收藏
Hugging Face2024-04-20 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/gaunernst/ms1mv3-wds
下载链接
链接失效反馈
官方服务:
资源简介:
MS-Celeb-1M数据集是为ICCV 2019的轻量级人脸识别挑战而引入的。该数据集包含5,179,510张图像和93,431个ID。所有图像都基于RetinaFace预测的面部特征点进行了对齐,并调整为112x112大小。原始数据集格式为MXNet RecordIO,在此副本中已转换为WebDataset格式,共包含100个分片。

MS-Celeb-1M数据集是为ICCV 2019的轻量级人脸识别挑战而引入的。该数据集包含5,179,510张图像和93,431个ID。所有图像都基于RetinaFace预测的面部特征点进行了对齐,并调整为112x112大小。原始数据集格式为MXNet RecordIO,在此副本中已转换为WebDataset格式,共包含100个分片。
提供机构:
gaunernst
原始信息汇总

数据集概述

数据集名称

  • 名称: MS-Celeb-1M

数据集类别

  • 任务类别: 图像分类
  • 大小类别: 1M<n<10M

数据集详情

  • 图像数量: 5,179,510
  • 身份数量: 93,431
  • 图像处理: 所有图像基于面部地标由RetinaFace预测并调整大小至112x112
  • 原始格式: MXNet RecordIO
  • 当前格式: WebDataset
  • 分片数量: 100

数据集来源

  • 下载自: https://github.com/deepinsight/insightface/tree/master/recognition/_datasets_ (MS1M-RetinaFace)

使用示例

python import webdataset as wds

url = "https://huggingface.co/datasets/gaunernst/ms1mv3-wds/resolve/main/ms1mv3-{{0000..0099}}.tar" ds = wds.WebDataset(url).decode("pil").to_tuple("jpg", "cls")

img, label = next(iter(ds))

搜集汇总
数据集介绍
main_image_url
构建方式
MS-Celeb-1M数据集的构建,是以轻量级人脸识别挑战为背景,采用RetinaFace算法对人脸图像进行面部特征点预测并基于此进行图像对齐,随后将图像缩放至112x112像素的标准大小。该数据集由5,179,510张图像组成,涵盖93,431个身份标识,原始数据格式为MXNet RecordIO,后转换为WebDataset格式以便于处理,并分为100个数据碎片进行存储。
特点
本数据集的特点在于其规模宏大,覆盖面广,包含了众多不同身份的人脸图像,且图像经过精确对齐,确保了人脸识别任务的准确性。此外,数据集的WebDataset格式便于在互联网上进行分布式加载,提高了数据处理的高效性。
使用方法
在使用该数据集时,用户可以通过HuggingFace的webdataset库进行数据加载。具体操作包括指定数据集的URL,利用webdataset库提供的功能进行解码、转换格式,最终以图像和标签的元组形式迭代使用。例如,通过简单的Python代码即可实现数据集的加载和迭代访问。
背景与挑战
背景概述
MS-Celeb-1M数据集,简称MS1M,是在计算机视觉领域,尤其是人脸识别研究中具有重要影响力的数据集。该数据集于2019年ICCV会议中的轻量级人脸识别挑战中首次被引入,由Deng等人创建,包含5,179,510张图像,涵盖93,431个身份标识。所有图像均基于RetinaFace预测的面部特征点进行对齐,并调整至112x112像素大小。MS1M的推出为人脸识别技术的研究与进步提供了丰富的数据资源,对相关领域产生了深远的影响。
当前挑战
MS-Celeb-1M数据集在构建和应用过程中面临诸多挑战。首先,在领域问题上,数据集旨在解决人脸识别的准确性问题,需要克服不同个体之间的相似性以及姿态、光照、遮挡等因素带来的干扰。其次,在构建过程中,数据集的规模和质量控制是一大挑战,涉及大量的图像采集、预处理和格式转换工作,如从MXNet RecordIO格式转换为WebDataset格式,以确保数据的可用性和处理的效率。
常用场景
经典使用场景
在图像分类领域中,MS-Celeb-1M数据集以其庞大的规模和精细的人脸对齐技术,成为轻量级人脸识别研究的经典资源。该数据集提供了5,179,510张经过人脸地标预测和尺寸调整的图片,为研究者提供了充足的样本以训练和测试人脸识别模型。
衍生相关工作
基于MS-Celeb-1M数据集,学术界衍生出了一系列相关工作,如轻量级人脸识别模型的设计、人脸属性识别、以及跨年龄的人脸识别等,推动了人脸识别技术的多元化发展。
数据集最近研究
最新研究方向
在图像分类领域,MS-Celeb-1M数据集(v3)以其庞大的规模和精确的人脸对齐技术,成为轻量级人脸识别研究的重要资源。该数据集的引入,推动了ICCV 2019年轻量级人脸识别挑战的发展。目前,研究者们正致力于探索如何在保持模型轻量化的同时,提升识别准确度和速度,特别是在动态识别和跨数据库匹配等前沿研究方向上。MS-Celeb-1M数据集的更新和优化,对于促进人脸识别技术的商业化应用和公共安全领域的技术进步具有深远的影响。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作