five

CelebA-HQ|人脸识别数据集

收藏
github2024-12-03 更新2024-12-06 收录
人脸识别
下载链接:
https://github.com/iljunj/GIFT
下载链接
链接失效反馈
资源简介:
CelebA-HQ是一个高质量的人脸图像数据集,用于人脸识别任务。该数据集包含大量的人脸图像,适用于训练和评估人脸识别模型。
创建时间:
2024-12-02
原始信息汇总

GIFT 数据集概述

数据集简介

GIFT 数据集是用于隐私保护的对抗性面部图像数据集,旨在通过引入不可察觉的对抗性噪声来欺骗面部识别系统,从而增强面部隐私保护。该数据集包含在三种潜在空间下生成的对抗性面部图像,以及从 CelebA-HQ 中选择的用于面部识别的配对数据集。

数据集内容

  • 对抗性面部图像:在三种潜在空间下生成的对抗性面部图像。
  • 配对数据集:从 CelebA-HQ 中选择的用于面部识别的配对数据集。

数据集更新

  • 2024/12/2:发布了三种潜在空间下的对抗性面部图像和配对数据集。
  • 2024/12/2:发布了官方实现代码。

数据集下载

  • 预训练面部识别模型和 CelebA-HQ 子集

    • 下载地址:[Google] [Baidu] pw:1bpv
    • 存放路径:GIFT/GIFTInvert/
  • 预训练基础代码编码器

  • 预训练语义编码器

数据集结构

shell GIFT └- GIFTInvert └- CelebA-HQ └- face_models └- faceparsing └- res/cp/checkpoints └- pretrained_models └- invert.py └- adv_facenet.py └- make_list.py └- ...

引用

如果 GIFT 数据集对你的研究或出版物有帮助,请考虑引用: bibtex @inproceedings{li2024transferable, title={Transferable Adversarial Facial Images for Privacy Protection}, author={Li, Minghui and Wang, Jiangxiong and Zhang, Hao and Zhou, Ziqi and Hu, Shengshan and Pei, Xiaobing}, booktitle={Proceedings of the 32nd ACM International Conference on Multimedia}, pages={10649--10658}, year={2024} }

AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建CelebA-HQ数据集时,研究者采用了全局对抗潜在搜索的方法,通过遍历生成模型的潜在空间,生成具有高转移性的自然对抗人脸图像。此外,引入关键地标正则化模块以保留视觉身份信息,确保图像在视觉上的自然性和对抗性之间的平衡。通过这种方式,数据集不仅在视觉质量上保持高水平,同时也在对抗深度人脸识别模型的能力上表现出色。
特点
CelebA-HQ数据集的显著特点在于其图像的高视觉质量和对抗转移性。该数据集通过直接塑造整个面部空间,而非依赖单一面部特征如化妆信息,来整合对抗噪声,从而生成自然且高度转移的对抗人脸图像。此外,数据集在不同潜在空间中的表现也经过详细研究,发现F潜在空间在视觉自然性和对抗转移性之间提供了最佳的平衡。
使用方法
使用CelebA-HQ数据集时,首先需下载预训练的面部识别模型和CelebA-HQ的子集,并将其放置在指定目录中。接着,下载预训练的基础代码编码器和语义编码器,并解压至相应位置。完成这些步骤后,用户可以通过执行一系列Python脚本来生成图像列表、初始化潜在代码,并搜索高转移性的对抗示例。这些步骤确保了数据集的高效利用和对抗图像的生成。
背景与挑战
背景概述
CelebA-HQ数据集,作为面部图像处理领域的重要资源,由ACM MM 2024会议上的论文《Transferable Adversarial Facial Images for Privacy Protection》提出。该数据集的核心研究问题是如何在不显著影响视觉质量的前提下,生成具有高迁移性的对抗性面部图像,以增强隐私保护。主要研究人员包括Li, Minghui等,他们通过直接塑造面部空间而非依赖单一面部特征,如化妆信息,来集成对抗性噪声。这一方法不仅提升了对抗性图像的迁移性,还保持了高视觉质量,对面部识别系统的隐私保护具有重要影响。
当前挑战
CelebA-HQ数据集在构建过程中面临多项挑战。首先,如何在黑盒场景下生成既自然又具有高迁移性的对抗性面部图像是一个主要难题。其次,保持视觉身份信息的同时,确保对抗性噪声的不可察觉性也是一大挑战。此外,选择合适的潜在空间以平衡视觉自然性和对抗性迁移性,以及在不同面部识别模型和商业API上的广泛实验验证,都是该数据集需要解决的关键问题。
常用场景
经典使用场景
在人脸识别领域,CelebA-HQ数据集常用于生成对抗样本以测试和提升人脸识别系统的鲁棒性。通过引入不可察觉的对抗噪声,研究人员能够创建自然且高度可转移的对抗人脸图像,从而在黑盒场景下有效欺骗人脸识别模型。这种应用不仅有助于评估现有模型的安全性,还为开发更强大的隐私保护技术提供了基础。
解决学术问题
CelebA-HQ数据集在解决人脸识别系统中的隐私保护问题方面具有重要意义。通过生成对抗样本,该数据集帮助研究人员探索如何在不影响视觉质量的前提下,增强对抗样本的可转移性,从而有效防止未经授权的追踪和识别。这一研究不仅提升了人脸识别系统的安全性,还为隐私保护技术的进一步发展提供了理论支持。
衍生相关工作
基于CelebA-HQ数据集的研究已衍生出多项经典工作,包括但不限于对抗生成网络(GAN)在人脸图像处理中的应用、面部特征提取与识别技术的改进,以及隐私保护算法的优化。这些工作不仅推动了人脸识别技术的发展,还为相关领域的研究提供了新的思路和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Breast Ultrasound Images (BUSI)

小型(约500×500像素)超声图像,适用于良性和恶性病变的分类和分割任务。

github 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

学生课堂行为数据集 (SCB-dataset3)

学生课堂行为数据集(SCB-dataset3)由成都东软学院创建,包含5686张图像和45578个标签,重点关注六种行为:举手、阅读、写作、使用手机、低头和趴桌。数据集覆盖从幼儿园到大学的不同场景,通过YOLOv5、YOLOv7和YOLOv8算法评估,平均精度达到80.3%。该数据集旨在为学生行为检测研究提供坚实基础,解决教育领域中学生行为数据集的缺乏问题。

arXiv 收录

TM-Senti

TM-Senti是由伦敦玛丽女王大学开发的一个大规模、远距离监督的Twitter情感数据集,包含超过1.84亿条推文,覆盖了超过七年的时间跨度。该数据集基于互联网档案馆的公开推文存档,可以完全重新构建,包括推文元数据且无缺失推文。数据集内容丰富,涵盖多种语言,主要用于情感分析和文本分类等任务。创建过程中,研究团队精心筛选了表情符号和表情,确保数据集的质量和多样性。该数据集的应用领域广泛,旨在解决社交媒体情感表达的长期变化问题,特别是在表情符号和表情使用上的趋势分析。

arXiv 收录

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录