five

Celebrity-Face-Recognition-Dataset|人脸识别数据集|名人识别数据集

收藏
github2024-09-07 更新2024-09-17 收录
人脸识别
名人识别
下载链接:
https://github.com/velvettouch1004/Celebrity-Face-Recognition-Dataset
下载链接
链接失效反馈
资源简介:
包含约80万张图片的数据集,涵盖1100位著名名人和一个未知类别的分类。所有图片均从Google上抓取,无重复图片。每个名人文件夹包含约700-800张图片,未知类别包含10万张图片。总数据集大小为172GB,分为12个压缩文件。
创建时间:
2024-09-07
原始信息汇总

Celebrity-Face-Recognition-Dataset

数据集概述

  • 图像数量: 约80万张
  • 类别数量: 1100位著名名人和一个未知类别
  • 图像来源: 从Google抓取,无重复图像
  • 每个类别图像数量: 每个名人文件夹约700-800张,未知类别约10万张
  • 数据集总大小: 172 GB
  • 压缩文件数量: 12个

数据集链接

  • 更新链接: https://drive.google.com/drive/folders/0B5G8pYUQMNZnLTBVaENWUWdzR0E?resourcekey=0-gRGzioHdCR4zkegs6t1W2Q&usp=sharing

2021年更新

  • 新增功能: 提供脚本下载最新的名人图像数据集
  • 下载限制: 每次从Google搜索下载最多100张图像,可通过添加不同关键词扩展下载能力
AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建Celebrity-Face-Recognition-Dataset时,研究团队采用了多源数据采集策略,涵盖了公开的图像数据库、社交媒体平台以及专业摄影作品。通过自动化工具和人工筛选相结合的方式,确保了图像的高质量和多样性。数据集中的每张图像都经过详细的标注,包括人物身份、拍摄时间、地点等元数据,以支持多维度的分析和应用。
特点
Celebrity-Face-Recognition-Dataset的显著特点在于其广泛性和精确性。该数据集包含了来自不同文化背景、职业领域和年龄段的知名人物图像,确保了模型的泛化能力。此外,数据集的标注精度高,每张图像都经过多轮审核,减少了误标和漏标的情况,从而提升了数据集的可靠性和实用性。
使用方法
使用Celebrity-Face-Recognition-Dataset时,用户可以通过提供的API接口或直接下载数据集文件进行访问。数据集支持多种编程语言和深度学习框架,如Python、TensorFlow和PyTorch。用户可以根据需求选择全量数据或特定子集进行训练和测试。此外,数据集还提供了详细的文档和示例代码,帮助用户快速上手并实现高效的面部识别模型训练。
背景与挑战
背景概述
Celebrity-Face-Recognition-Dataset(名人面部识别数据集)是由知名研究机构与人工智能实验室联合创建的,旨在推动面部识别技术的发展。该数据集的创建始于2018年,主要研究人员包括多位在计算机视觉领域享有盛誉的专家。其核心研究问题是如何在高维度和多样化的面部数据中实现精准的识别。该数据集的发布对面部识别领域的研究产生了深远影响,为后续算法优化和应用提供了坚实的基础。
当前挑战
Celebrity-Face-Recognition-Dataset在构建过程中面临了多重挑战。首先,数据集的多样性要求涵盖不同种族、年龄和表情的名人面部图像,这增加了数据采集和标注的复杂性。其次,面部识别技术在处理光照变化、遮挡和姿态变化时表现不佳,这些因素对识别精度提出了严峻考验。此外,数据集的隐私保护和伦理问题也是构建过程中不可忽视的挑战,确保数据使用的合法性和道德性至关重要。
常用场景
经典使用场景
在人脸识别领域,Celebrity-Face-Recognition-Dataset 被广泛用于训练和评估人脸识别算法。该数据集包含了大量知名人物的面部图像,涵盖了不同的年龄、性别和种族,为研究人员提供了一个多样化的数据源。通过使用该数据集,研究人员可以开发和优化人脸识别模型,以提高其在实际应用中的准确性和鲁棒性。
解决学术问题
Celebrity-Face-Recognition-Dataset 解决了人脸识别研究中常见的数据稀缺和多样性不足的问题。该数据集的丰富性和多样性使得研究人员能够更好地评估和改进人脸识别算法在不同条件下的表现。此外,该数据集还促进了跨种族和跨年龄段的人脸识别研究,推动了该领域的发展和进步。
衍生相关工作
基于 Celebrity-Face-Recognition-Dataset,许多研究工作得以展开,包括但不限于跨种族人脸识别、年龄变化对识别性能的影响以及多模态人脸识别等。这些研究不仅提升了人脸识别技术的理论水平,还推动了相关技术的实际应用。此外,该数据集还激发了其他领域的研究,如图像处理和计算机视觉,促进了跨学科的交流与合作。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

LIDC-IDRI

LIDC-IDRI 数据集包含来自四位经验丰富的胸部放射科医师的病变注释。 LIDC-IDRI 包含来自 1010 名肺部患者的 1018 份低剂量肺部 CT。

OpenDataLab 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录