DataIGM
收藏arXiv2025-06-03 更新2025-06-06 收录
下载链接:
https://github.com/ryliu68/IGMU
下载链接
链接失效反馈官方服务:
资源简介:
DataIGM是一个高质量的机器遗忘数据集,由真实世界和生成的图像组成,包含5411128个图像和800个独特的提示,用于评估图像生成模型遗忘算法,训练内容检测器,并作为基准来比较最先进的遗忘算法。数据集旨在帮助研究人员更好地理解机器遗忘机制,设计实用的遗忘算法,并确保图像生成模型的安全性和合规性。
DataIGM is a high-quality machine forgetting dataset composed of real-world and generated images, containing 5,411,128 images and 800 unique prompts. It is used to evaluate forgetting algorithms for image generation models, train content detectors, and serve as a benchmark for comparing state-of-the-art forgetting algorithms. The dataset aims to help researchers better understand machine forgetting mechanisms, design practical forgetting algorithms, and ensure the safety and compliance of image generation models.
提供机构:
国家大学新加坡数据科学研究所, 中国科学院计算技术研究所, 新加坡南洋理工大学计算机与数据科学学院, 云南大学软件学院
创建时间:
2025-06-03
搜集汇总
数据集介绍

构建方式
DataIGM数据集通过整合多源数据构建而成,涵盖真实数据(REAL)、LAION数据集以及由Stable Diffusion生成的图像(SD-GEN)。具体构建过程中,针对不同的遗忘任务(如裸体、风格、教堂和降落伞),分别从WikiArt、NudeNet、ImageNet-1k等来源采集数据,并通过ChatGPT-4生成目标提示词以覆盖多样化场景。数据集的构建注重多样性和高质量,旨在为图像生成模型遗忘任务提供全面的测试基准。
特点
DataIGM数据集具有多源性和高质量的特点,覆盖了四种典型的遗忘任务,并包含真实数据与生成数据的对比。其独特之处在于通过分层任务分类框架(CatIGMU)提供细粒度的任务定义和实现指导,同时结合全面的评估框架(EvalIGMU)确保评估的可靠性。数据集还支持训练多头部分类器(MultClf),以提升遗忘任务评估的准确性。
使用方法
DataIGM数据集可用于多方面的研究:1)分析现有内容检测器和定量指标的可靠性;2)训练新的内容检测器以支持遗忘任务的评估;3)作为基准测试集,评估最先进的遗忘算法在不同任务和评估维度上的性能。用户可通过生成的目标提示词和对应图像,结合EvalIGMU框架中的指标(如MultClf、CSDR、LPIPS等),系统评估模型的遗忘效果、保留能力、图像质量及鲁棒性。
背景与挑战
背景概述
DataIGM数据集由新加坡国立大学、中国科学技术大学等机构的研究团队于2025年提出,旨在解决图像生成模型中的机器遗忘问题。随着Stable Diffusion等生成模型的广泛应用,数据隐私和内容安全成为关键挑战。该数据集包含来自真实数据(REAL)、训练集(LAION)和生成图像(SD-GEN)的多源样本,覆盖风格、裸露、教堂和降落伞四类遗忘任务,总计超过53.9万图像和800个独特提示词。其创新性体现在提出了分层任务分类框架CatIGMU和五维评估体系EvalIGMU,为图像生成模型的安全治理提供了标准化研究基础。
当前挑战
DataIGM面临双重挑战:在领域问题层面,现有评估方法存在显著缺陷,如风格分类器对生成数据泛化性差(SD-GEN上F1分数波动达30%)、裸露检测器平均召回率不足50%;在构建过程中,需解决多模态对齐难题——既要确保CLIP分数等指标能准确反映概念遗忘效果,又要维持生成图像的语义连贯性。特别地,对抗性提示导致的遗忘内容再生问题(UnlearnDiffAtk攻击成功率超60%)和跨任务性能不稳定性(教堂与降落伞任务FID差值达35.7)构成了核心挑战。
常用场景
经典使用场景
DataIGM数据集在图像生成模型的机器遗忘(Machine Unlearning, MU)研究中扮演了关键角色。该数据集专为评估图像生成模型遗忘算法(IGMU)而设计,涵盖了多种遗忘任务,如艺术风格遗忘、裸露内容遗忘以及特定对象遗忘等。通过提供高质量的多源数据,DataIGM能够帮助研究者系统地测试和比较不同遗忘算法在遗忘效果、内容保留、图像质量、鲁棒性及效率等方面的表现。
实际应用
在实际应用中,DataIGM为图像生成模型的安全部署提供了重要支持。例如,服务提供商可利用该数据集训练的检测器(如MultClf)识别并过滤模型生成的有害内容(如裸露或侵权风格图像)。政策制定者可通过基准测试验证模型是否符合隐私保护法规(如GDPR的‘被遗忘权’要求)。此外,DataIGM的对抗攻击测试模块(UnlearnDiffAtk)能帮助开发者提升模型抵抗恶意提示的能力,确保遗忘内容的不可逆性。
衍生相关工作
DataIGM催生了一系列经典研究工作。基于其构建的EvalIGMU框架被AdvUnlearn等算法采纳为标准化评估工具;MultClf分类器成为后续研究(如Six-CD基准)中检测遗忘效果的核心组件。CatIGMU的任务分类体系启发了MACE等算法针对不同任务设计差异化遗忘策略。此外,该数据集还支持了跨领域研究,如SafeGen利用其裸露数据训练安全过滤器,而Ring-A-Bell则基于DataIGM揭示了概念遗忘的脆弱性。
以上内容由遇见数据集搜集并总结生成



