DataIGM

Name: DataIGM
Creator: 国家大学新加坡数据科学研究所, 中国科学院计算技术研究所, 新加坡南洋理工大学计算机与数据科学学院, 云南大学软件学院
Published: 2025-06-03 19:25:14
License: 暂无描述

arXiv2025-06-03 更新2025-06-06 收录

下载链接：

https://github.com/ryliu68/IGMU

下载链接

链接失效反馈

官方服务：

资源简介：

DataIGM是一个高质量的机器遗忘数据集，由真实世界和生成的图像组成，包含5411128个图像和800个独特的提示，用于评估图像生成模型遗忘算法，训练内容检测器，并作为基准来比较最先进的遗忘算法。数据集旨在帮助研究人员更好地理解机器遗忘机制，设计实用的遗忘算法，并确保图像生成模型的安全性和合规性。

DataIGM is a high-quality machine forgetting dataset composed of real-world and generated images, containing 5,411,128 images and 800 unique prompts. It is used to evaluate forgetting algorithms for image generation models, train content detectors, and serve as a benchmark for comparing state-of-the-art forgetting algorithms. The dataset aims to help researchers better understand machine forgetting mechanisms, design practical forgetting algorithms, and ensure the safety and compliance of image generation models.

提供机构：

国家大学新加坡数据科学研究所, 中国科学院计算技术研究所, 新加坡南洋理工大学计算机与数据科学学院, 云南大学软件学院

创建时间：

2025-06-03

搜集汇总

数据集介绍

构建方式

DataIGM数据集通过整合多源数据构建而成，涵盖真实数据（REAL）、LAION数据集以及由Stable Diffusion生成的图像（SD-GEN）。具体构建过程中，针对不同的遗忘任务（如裸体、风格、教堂和降落伞），分别从WikiArt、NudeNet、ImageNet-1k等来源采集数据，并通过ChatGPT-4生成目标提示词以覆盖多样化场景。数据集的构建注重多样性和高质量，旨在为图像生成模型遗忘任务提供全面的测试基准。

特点

DataIGM数据集具有多源性和高质量的特点，覆盖了四种典型的遗忘任务，并包含真实数据与生成数据的对比。其独特之处在于通过分层任务分类框架（CatIGMU）提供细粒度的任务定义和实现指导，同时结合全面的评估框架（EvalIGMU）确保评估的可靠性。数据集还支持训练多头部分类器（MultClf），以提升遗忘任务评估的准确性。

使用方法

DataIGM数据集可用于多方面的研究：1）分析现有内容检测器和定量指标的可靠性；2）训练新的内容检测器以支持遗忘任务的评估；3）作为基准测试集，评估最先进的遗忘算法在不同任务和评估维度上的性能。用户可通过生成的目标提示词和对应图像，结合EvalIGMU框架中的指标（如MultClf、CSDR、LPIPS等），系统评估模型的遗忘效果、保留能力、图像质量及鲁棒性。

背景与挑战

背景概述

DataIGM数据集由新加坡国立大学、中国科学技术大学等机构的研究团队于2025年提出，旨在解决图像生成模型中的机器遗忘问题。随着Stable Diffusion等生成模型的广泛应用，数据隐私和内容安全成为关键挑战。该数据集包含来自真实数据（REAL）、训练集（LAION）和生成图像（SD-GEN）的多源样本，覆盖风格、裸露、教堂和降落伞四类遗忘任务，总计超过53.9万图像和800个独特提示词。其创新性体现在提出了分层任务分类框架CatIGMU和五维评估体系EvalIGMU，为图像生成模型的安全治理提供了标准化研究基础。

当前挑战

DataIGM面临双重挑战：在领域问题层面，现有评估方法存在显著缺陷，如风格分类器对生成数据泛化性差（SD-GEN上F1分数波动达30%）、裸露检测器平均召回率不足50%；在构建过程中，需解决多模态对齐难题——既要确保CLIP分数等指标能准确反映概念遗忘效果，又要维持生成图像的语义连贯性。特别地，对抗性提示导致的遗忘内容再生问题（UnlearnDiffAtk攻击成功率超60%）和跨任务性能不稳定性（教堂与降落伞任务FID差值达35.7）构成了核心挑战。

常用场景

经典使用场景

DataIGM数据集在图像生成模型的机器遗忘（Machine Unlearning, MU）研究中扮演了关键角色。该数据集专为评估图像生成模型遗忘算法（IGMU）而设计，涵盖了多种遗忘任务，如艺术风格遗忘、裸露内容遗忘以及特定对象遗忘等。通过提供高质量的多源数据，DataIGM能够帮助研究者系统地测试和比较不同遗忘算法在遗忘效果、内容保留、图像质量、鲁棒性及效率等方面的表现。

实际应用

在实际应用中，DataIGM为图像生成模型的安全部署提供了重要支持。例如，服务提供商可利用该数据集训练的检测器（如MultClf）识别并过滤模型生成的有害内容（如裸露或侵权风格图像）。政策制定者可通过基准测试验证模型是否符合隐私保护法规（如GDPR的‘被遗忘权’要求）。此外，DataIGM的对抗攻击测试模块（UnlearnDiffAtk）能帮助开发者提升模型抵抗恶意提示的能力，确保遗忘内容的不可逆性。

衍生相关工作

DataIGM催生了一系列经典研究工作。基于其构建的EvalIGMU框架被AdvUnlearn等算法采纳为标准化评估工具；MultClf分类器成为后续研究（如Six-CD基准）中检测遗忘效果的核心组件。CatIGMU的任务分类体系启发了MACE等算法针对不同任务设计差异化遗忘策略。此外，该数据集还支持了跨领域研究，如SafeGen利用其裸露数据训练安全过滤器，而Ring-A-Bell则基于DataIGM揭示了概念遗忘的脆弱性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集