five

DataIGM|机器遗忘数据集|图像生成数据集

收藏
arXiv2025-06-03 更新2025-06-06 收录
机器遗忘
图像生成
下载链接:
https://github.com/ryliu68/IGMU
下载链接
链接失效反馈
资源简介:
DataIGM是一个高质量的机器遗忘数据集,由真实世界和生成的图像组成,包含5411128个图像和800个独特的提示,用于评估图像生成模型遗忘算法,训练内容检测器,并作为基准来比较最先进的遗忘算法。数据集旨在帮助研究人员更好地理解机器遗忘机制,设计实用的遗忘算法,并确保图像生成模型的安全性和合规性。
提供机构:
国家大学新加坡数据科学研究所, 中国科学院计算技术研究所, 新加坡南洋理工大学计算机与数据科学学院, 云南大学软件学院
创建时间:
2025-06-03
AI搜集汇总
数据集介绍
main_image_url
构建方式
DataIGM数据集通过整合多源数据构建而成,涵盖真实数据(REAL)、LAION数据集以及由Stable Diffusion生成的图像(SD-GEN)。具体构建过程中,针对不同的遗忘任务(如裸体、风格、教堂和降落伞),分别从WikiArt、NudeNet、ImageNet-1k等来源采集数据,并通过ChatGPT-4生成目标提示词以覆盖多样化场景。数据集的构建注重多样性和高质量,旨在为图像生成模型遗忘任务提供全面的测试基准。
特点
DataIGM数据集具有多源性和高质量的特点,覆盖了四种典型的遗忘任务,并包含真实数据与生成数据的对比。其独特之处在于通过分层任务分类框架(CatIGMU)提供细粒度的任务定义和实现指导,同时结合全面的评估框架(EvalIGMU)确保评估的可靠性。数据集还支持训练多头部分类器(MultClf),以提升遗忘任务评估的准确性。
使用方法
DataIGM数据集可用于多方面的研究:1)分析现有内容检测器和定量指标的可靠性;2)训练新的内容检测器以支持遗忘任务的评估;3)作为基准测试集,评估最先进的遗忘算法在不同任务和评估维度上的性能。用户可通过生成的目标提示词和对应图像,结合EvalIGMU框架中的指标(如MultClf、CSDR、LPIPS等),系统评估模型的遗忘效果、保留能力、图像质量及鲁棒性。
背景与挑战
背景概述
DataIGM数据集由新加坡国立大学、中国科学技术大学等机构的研究团队于2025年提出,旨在解决图像生成模型中的机器遗忘问题。随着Stable Diffusion等生成模型的广泛应用,数据隐私和内容安全成为关键挑战。该数据集包含来自真实数据(REAL)、训练集(LAION)和生成图像(SD-GEN)的多源样本,覆盖风格、裸露、教堂和降落伞四类遗忘任务,总计超过53.9万图像和800个独特提示词。其创新性体现在提出了分层任务分类框架CatIGMU和五维评估体系EvalIGMU,为图像生成模型的安全治理提供了标准化研究基础。
当前挑战
DataIGM面临双重挑战:在领域问题层面,现有评估方法存在显著缺陷,如风格分类器对生成数据泛化性差(SD-GEN上F1分数波动达30%)、裸露检测器平均召回率不足50%;在构建过程中,需解决多模态对齐难题——既要确保CLIP分数等指标能准确反映概念遗忘效果,又要维持生成图像的语义连贯性。特别地,对抗性提示导致的遗忘内容再生问题(UnlearnDiffAtk攻击成功率超60%)和跨任务性能不稳定性(教堂与降落伞任务FID差值达35.7)构成了核心挑战。
常用场景
经典使用场景
DataIGM数据集在图像生成模型的机器遗忘(Machine Unlearning, MU)研究中扮演了关键角色。该数据集专为评估图像生成模型遗忘算法(IGMU)而设计,涵盖了多种遗忘任务,如艺术风格遗忘、裸露内容遗忘以及特定对象遗忘等。通过提供高质量的多源数据,DataIGM能够帮助研究者系统地测试和比较不同遗忘算法在遗忘效果、内容保留、图像质量、鲁棒性及效率等方面的表现。
实际应用
在实际应用中,DataIGM为图像生成模型的安全部署提供了重要支持。例如,服务提供商可利用该数据集训练的检测器(如MultClf)识别并过滤模型生成的有害内容(如裸露或侵权风格图像)。政策制定者可通过基准测试验证模型是否符合隐私保护法规(如GDPR的‘被遗忘权’要求)。此外,DataIGM的对抗攻击测试模块(UnlearnDiffAtk)能帮助开发者提升模型抵抗恶意提示的能力,确保遗忘内容的不可逆性。
衍生相关工作
DataIGM催生了一系列经典研究工作。基于其构建的EvalIGMU框架被AdvUnlearn等算法采纳为标准化评估工具;MultClf分类器成为后续研究(如Six-CD基准)中检测遗忘效果的核心组件。CatIGMU的任务分类体系启发了MACE等算法针对不同任务设计差异化遗忘策略。此外,该数据集还支持了跨领域研究,如SafeGen利用其裸露数据训练安全过滤器,而Ring-A-Bell则基于DataIGM揭示了概念遗忘的脆弱性。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录

UNESCO World Heritage List

该数据集包含了联合国教科文组织(UNESCO)世界遗产名录中的所有文化遗产、自然遗产和混合遗产的详细信息。数据包括遗产的名称、位置、类型、描述、列入名录的年份以及相关的保护状况等。

whc.unesco.org 收录

AQA-7

AQA-7 是一个用于动作质量评估(AQA)的统一基准数据集,旨在通过整合多个领域的数据集来标准化评估方法。该数据集包含视频、骨骼数据和多模态输入,涵盖了体育分析、技能评估和医疗护理等多个应用领域。数据集的创建过程通过系统分析现有文献和实验协议,确保了评估的准确性和计算效率。AQA-7 的应用领域广泛,旨在解决动作质量评估中的偏差问题,提供客观的自动化评估,特别是在体育评分、技能评估和康复训练中具有重要意义。

arXiv 收录