MUFAC

Hugging Face2025-05-21 更新2025-05-22 收录

下载链接：

https://huggingface.co/datasets/Dasool/MUFAC

下载链接

链接失效反馈

官方服务：

资源简介：

MUFAC是一个包含超过13,000张亚洲人脸图像的多类年龄分类数据集，图像经过预处理，分辨率统一为128x128。数据集包括用于训练、验证和测试的图像池，以及平衡身份信息的固定测试和验证数据集。此外，提供了包含图像路径、标签等信息的CSV文件。数据集旨在用于评估机器遗忘算法，特别是在保持原始任务性能的同时遗忘个人身份的能力。

创建时间：

2025-05-21

原始信息汇总

MUFAC (Machine Unlearning for Facial Age Classifier) 数据集概述

📜 基本信息

许可证: MIT
任务类别: 图像分类
语言: 英语
论文链接: arXiv:2311.02240
代码仓库: https://github.com/ndb796/MachineUnlearning
联系方式: dasolchoi@yonsei.ac.kr

📘 数据集描述

内容: 包含超过13,000张亚洲人脸图像的多类别年龄分类数据集。
预处理: 图像已清洗并调整为128×128分辨率。
用途: 特别适用于评估机器遗忘算法，尤其是在任务无关设置中。

🗂️ 数据集结构

MUFAC/ ├── forget_images/ # 需要遗忘的图像 ├── retain_images/ # 需要保留的图像 ├── train_images/ # 训练图像池 ├── val_images/ # 验证图像池 ├── test_images/ # 测试图像池 ├── fixed_test_dataset/ # 身份平衡的测试数据 ├── fixed_val_dataset/ # 身份平衡的验证数据 ├── custom_train_dataset.csv # 包含图像路径和标签的CSV文件 ├── custom_val_dataset.csv ├── custom_test_dataset.csv

🔹 使用方法

克隆数据集: bash !git lfs install !git clone https://huggingface.co/datasets/Dasool/MUFAC
加载CSV文件: python import pandas as pd df = pd.read_csv("MUFAC/custom_train_dataset.csv")
可视化图像: python from PIL import Image import os img_path = os.path.join("MUFAC/train_images", df.iloc[0]["image_path"]) Image.open(img_path).show()

📊 引用

bibtex @misc{choi2023machine, title={Towards Machine Unlearning Benchmarks: Forgetting the Personal Identities in Facial Recognition Systems}, author={Dasol Choi and Dongbin Na}, year={2023}, eprint={2311.02240}, archivePrefix={arXiv}, primaryClass={cs.CV} }

搜集汇总

数据集介绍

构建方式

在面部识别系统研究领域，MUFAC数据集的构建过程体现了精细的数据处理策略。该数据集源自超过63,000张亚洲人脸图像，通过系统化的预处理流程将原始图像统一调整为128×128分辨率，并依据身份标识与年龄组别进行多维度标注。构建过程中特别设计了身份遗忘与保留的图像分区，包括1,431张待遗忘图像与7,680张保留图像，同时通过分层抽样形成了训练集、验证集与测试集的完整架构，为机器遗忘研究提供了结构化数据基础。

特点

该数据集的核心特征在于其专为机器遗忘算法评估而设计的双重属性。图像数据不仅包含常规的年龄组分类标签，还额外标注了个人身份标识与遗忘标志位，使得研究者能够模拟特定身份信息的选择性遗忘场景。数据集通过正负样本平衡的验证集与测试集（如fixed_test_dataset_positive/negative），确保了模型效用评估的可靠性，其任务无关的实验设置进一步拓展了在保持原始年龄分类性能前提下研究身份遗忘的可行性。

使用方法

针对不同研究需求，该数据集提供多种技术接入方式。研究者可通过Git LFS直接克隆完整数据集至本地，或利用Hugging Face Hub API实现程序化下载。在数据加载层面，配套的CSV文件（如custom_train_dataset.csv）提供了图像路径、年龄组、身份标识等结构化信息，支持通过PIL库或datasets.Image()直接调用图像数据。这种设计既保证了大规模实验的数据一致性，又为灵活定制训练流程提供了接口支持。

背景与挑战

背景概述

随着人工智能伦理与隐私保护需求的日益凸显，机器遗忘技术成为计算机视觉领域的前沿研究方向。MUFAC数据集由Dasol Choi与Dongbin Na等研究人员于2023年构建，专注于面部年龄分类任务中的身份信息遗忘问题。该数据集收录超过6.3万张亚洲人脸图像，通过精细的身份标注与遗忘标记划分，为评估模型在保留原始任务性能的同时消除特定身份信息的能力提供了标准化基准。其设计理念源于对生物特征数据隐私合规性的迫切需求，推动了人脸分析系统向可解释、可控制的伦理框架演进。

当前挑战

在机器遗忘研究领域，核心挑战在于平衡模型效用与隐私保护的矛盾：既要彻底消除指定身份特征对模型参数的影响，又需维持年龄分类任务的原始准确率。数据集构建过程中面临多重技术难点，包括身份与年龄属性的解耦标注、遗忘样本与保留样本的均衡划分，以及跨身份负样本的生成验证。此外，亚洲人种面部特征的年龄表征差异性，要求预处理流程必须保证图像分辨率统一与光照归一化，这对数据清洗与对齐策略提出了极高要求。

常用场景

经典使用场景

在机器遗忘研究领域，MUFAC数据集作为基准测试工具，专门用于评估模型在保留年龄分类功能的同时选择性遗忘特定身份信息的能力。其精心划分的遗忘图像与保留图像子集，为任务无关的遗忘算法验证提供了标准化实验环境，支持研究者系统性地分析模型对隐私敏感数据的消除效果。

解决学术问题

该数据集有效解决了机器学习中隐私保护与模型效用平衡的核心难题。通过提供带有人脸身份标注的年龄分类数据，使研究者能够量化评估遗忘算法在消除特定身份特征时对原始任务性能的影响，为构建符合数据隐私法规的适应性模型提供了关键实验基础。

衍生相关工作

该数据集催生了多项机器遗忘领域的创新研究，如基于影响函数的目标遗忘方法和梯度修正技术。相关论文通过MUFAC验证了任务无关遗忘框架的可行性，后续工作进一步拓展至联邦学习场景下的分布式遗忘机制，形成了以身份遗忘为核心的技术演进脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集