ForgetMe
收藏arXiv2025-04-17 更新2025-04-22 收录
下载链接:
http://arxiv.org/abs/2504.12574v1
下载链接
链接失效反馈官方服务:
资源简介:
ForgetMe数据集是由马来西亚大学的研究团队开发的,旨在为评估生成模型的选择性遗忘性能提供专用的数据集和度量标准。该数据集包含多种真实和合成的场景,支持综合的多任务遗忘评估。通过基于提示的分层编辑和无训练的局部特征移除,构建了ForgetMe数据集,并引入了纠缠度评价度量。纠缠度评价度量通过评估目标区域和背景区域的相似度和一致性来量化遗忘效果。该数据集的创建过程无需额外训练,通过主故事和侧故事两个环节实现,其中主故事环节负责从自然场景图像中构建数据集,侧故事环节则用于合成数据集。该数据集的应用领域主要是为了推动隐私保护的生成式AI发展。
The ForgetMe dataset was developed by a research team from the University of Malaysia, aiming to provide dedicated datasets and evaluation metrics for assessing the selective forgetting performance of generative models. This dataset covers a wide range of real and synthetic scenarios, supporting comprehensive multi-task forgetting evaluations. The ForgetMe dataset was constructed via prompt-based hierarchical editing and training-free local feature removal, and an entanglement evaluation metric was introduced. This metric quantifies forgetting effects by assessing the similarity and consistency between target regions and background regions. The construction process of this dataset requires no additional training, and is implemented through two stages: the main story and the side story. The main story stage is responsible for building the dataset from natural scene images, while the side story stage is used to generate synthetic datasets. The primary application of this dataset is to advance the development of privacy-preserving generative AI.
提供机构:
马来西亚大学
创建时间:
2025-04-17
搜集汇总
数据集介绍

构建方式
在扩散模型广泛应用的背景下,ForgetMe数据集通过自动数据集创建框架构建,该框架基于提示驱动的分层编辑和无训练的局部特征移除技术。具体流程包括:利用Segment Anything Model (SAM)进行前景分割,通过CLIP评分筛选目标区域,并采用GPT进行内容验证;随后使用LaMa模型进行背景修复,最终通过分层合并确保视觉连贯性。这一方法有效实现了对敏感信息的精确移除,同时保持了非敏感区域的完整性。
特点
ForgetMe数据集在生成模型选择性遗忘领域具有显著特点:首先,其包含真实场景(CUB-200-2011鸟类、Stanford-Dogs等)与合成数据(生成猫图像)的多模态组合,覆盖了丰富的视觉场景;其次,数据集采用分层结构设计,包含原始图像、前景、背景和掩模四个组件,支持可逆的遗忘与重建操作;最重要的是配套提出的Entangled评估指标,通过量化内外区域的相似性与一致性,为无监督评估提供了标准化方案。
使用方法
该数据集主要应用于扩散模型的选择性遗忘研究,使用流程可分为三个阶段:首先通过LoRA微调Stable Diffusion模型,将目标提示词(如<bird>)与背景图像关联;随后采用Entangled指标评估遗忘效果,该指标支持配对图像(Entangled-D)和非配对图像(Entangled-S)两种模式;最终可通过分层合并模块验证背景一致性。实验表明,在α≥0.9的LoRA缩放因子下能实现最佳遗忘效果,为隐私保护生成式AI提供了可扩展的基准平台。
背景与挑战
背景概述
ForgetMe数据集由马来亚大学的Zhenyu Yu、Mohd Yamani Idris以及昆明理工大学的Pei Wang等研究人员于2025年提出,旨在解决生成式模型中的选择性遗忘问题。该数据集专注于扩散模型在图像生成中的隐私合规性需求,通过自动数据集创建框架构建,包含真实与合成场景的多样化图像,如CUB-200-2011、Stanford-Dogs、ImageNet等。其核心研究问题在于如何在移除敏感信息的同时保持非敏感区域的生成一致性,为生成式AI的隐私保护提供了标准化评估基准。
当前挑战
ForgetMe数据集面临的挑战主要体现在两方面:领域问题方面,扩散模型的高维特性与复杂特征表示使得选择性遗忘难以平衡目标移除与背景保留的精度,现有方法常导致生成一致性下降;构建过程方面,传统数据投毒技术因高维样本影响整体分布而适用性有限,且缺乏覆盖多模态的标准数据集。此外,透明对象处理、层合并时的视觉不连续性及提示词高度依赖性,进一步增加了构建与评估的复杂度。
常用场景
经典使用场景
在生成式人工智能领域,ForgetMe数据集被广泛应用于评估扩散模型的选择性遗忘能力。该数据集通过分层编辑和训练无关的局部特征移除技术,构建了包含真实场景和合成图像的多样化样本,特别适用于验证模型在移除敏感信息时保持非敏感区域一致性的能力。研究人员利用该数据集对Stable Diffusion等主流生成模型进行微调测试,已成为衡量隐私合规性遗忘效果的基准工具。
衍生相关工作
ForgetMe数据集催生了系列创新研究:CLIPAway在其基础上开发了基于CLIP嵌入的物体移除方法;LayerDiffusion扩展了透明物体分层处理技术;Meta-Unlearning则借鉴其评估框架构建了元学习遗忘机制。该数据集提出的Entangled指标已成为后续研究如MACE、SalUN等工作中的标准评估工具,推动了生成模型隐私保护方向的方法论革新。
数据集最近研究
最新研究方向
随着生成式人工智能技术的迅猛发展,扩散模型在图像生成领域的广泛应用引发了对隐私合规性遗忘机制的迫切需求。ForgetMe数据集的提出,为生成模型的选择性遗忘研究开辟了新路径。该数据集通过基于提示的分层编辑和无训练局部特征移除框架,构建了涵盖真实与合成场景的多模态评估基准,其核心创新在于提出的Entangled评价指标,能够量化目标区域与背景区域的相似性与一致性,为无监督评估提供了可靠标准。当前研究热点集中在如何平衡特征遗忘的精确性与背景保留的完整性,探索无需重新训练的高效遗忘机制,以应对GDPR等隐私法规的合规要求。这一工作不仅为生成式AI的隐私保护提供了可扩展的解决方案,也为跨模态模型遗忘研究奠定了重要基础。
相关研究论文
- 1Prompt-Driven and Training-Free Forgetting Approach and Dataset for Large Language Models马来西亚大学 · 2025年
以上内容由遇见数据集搜集并总结生成



