five

UNLEARNCANVAS

收藏
arXiv2024-02-26 更新2024-06-21 收录
下载链接:
https://github.com/OPTML-Group/UnlearnCanvas
下载链接
链接失效反馈
官方服务:
资源简介:
UNLEARNCANVAS是一个大规模的高分辨率风格化图像数据集,由密歇根州立大学计算机科学与工程系创建。该数据集包含24,000张标记图像,涵盖超过60种风格和20多个对象主题。其风格-对象双重监督和高风格一致性有助于提高对扩散模型机器遗忘评估的精确度。数据集旨在建立一个标准化和自动化的评估框架,用于评估机器遗忘技术在扩散模型上的效果,并解决各种遗忘有效性方面的问题。此外,UNLEARNCANVAS还展示了其在其他生成建模任务中作为基准的潜力,如风格转移。

UNLEARNCANVAS is a large-scale high-resolution stylized image dataset created by the Department of Computer Science and Engineering at Michigan State University. This dataset contains 24,000 annotated images, covering over 60 styles and more than 20 object subjects. Its style-object dual supervision and high style consistency help improve the accuracy of machine forgetting evaluation for diffusion models. The dataset aims to establish a standardized and automated evaluation framework for assessing the performance of machine forgetting techniques on diffusion models, and to address various issues related to forgetting effectiveness. In addition, UNLEARNCANVAS also demonstrates its potential as a benchmark for other generative modeling tasks such as style transfer.
提供机构:
密歇根州立大学计算机科学与工程系
创建时间:
2024-02-19
搜集汇总
数据集介绍
main_image_url
构建方式
在扩散模型快速发展的背景下,UNLEARNCANVAS数据集的构建旨在为机器遗忘评估提供标准化基准。该数据集通过两个核心步骤精心构建:首先,从Pexels平台收集了涵盖20个对象类别的400张高分辨率原始图像作为种子图像;随后,利用Fotor等工具将这些种子图像系统化地转换为60种预定义的艺术风格,确保每张图像在风格转换过程中保持高度的内容一致性和风格内聚性。最终,数据集包含24,000张标注图像,每张图像均配有风格和对象的双重监督标签,形成了层次化的数据结构,以支持对风格与对象关联性的深入分析。
特点
UNLEARNCANVAS数据集在机器遗忘评估领域展现出独特优势。其核心特点在于风格与对象的双重监督机制,提供了60种艺术风格和20个对象类别的丰富组合,构建了一个多样化的遗忘目标库,便于全面评估扩散模型在特定概念移除后的表现。数据集内同一风格类别下的图像具有极高的风格一致性,同时不同风格间差异显著,这提升了风格分类的精确性,为量化评估提供了可靠基础。此外,数据集支持从域内和跨域两个维度评估模型遗忘后的保留能力,能够系统性地揭示机器遗忘方法可能产生的副作用,弥补了现有评估框架的不足。
使用方法
利用UNLEARNCANVAS数据集进行评估时,需遵循系统化的流程。首先,在数据集上对预训练的扩散模型进行微调,并训练风格与对象分类器,以构建稳定的测试基础。随后,应用特定的机器遗忘方法,针对指定的遗忘目标更新模型参数。评估阶段,使用遗忘后的模型生成三类图像:基于遗忘目标提示的图像、同一域内其他概念的图像以及不同域概念的图像。通过分类器对生成图像进行分析,计算遗忘准确率、域内保留准确率和跨域保留准确率等七项定量指标,全面衡量遗忘效果、生成质量与模型效率。该流程为比较不同机器遗忘方法提供了标准化、自动化的基准框架。
背景与挑战
背景概述
UNLEARNCANVAS数据集由密歇根州立大学计算机科学与工程系的研究团队于2024年创建,旨在为扩散模型的机器遗忘技术提供标准化评估基准。该数据集聚焦于解决生成式人工智能中日益凸显的负面社会影响,如版权争议、有害内容生成及模型偏见等问题。通过构建包含60余种艺术风格与20余类物体主题的高分辨率风格化图像库,研究团队为量化评估遗忘效果与模型保持能力奠定了数据基础,推动了生成模型安全性与可控性研究的发展。
当前挑战
该数据集主要应对两大挑战:在领域问题层面,需解决扩散模型中特定概念(如艺术风格或物体类别)的精准遗忘问题,同时确保模型在遗忘后仍能保持其他无关概念的生成能力,避免因遗忘操作引发模型性能退化。在构建过程中,研究团队需克服风格一致性控制、跨域关联标注以及大规模高质量风格化图像生成的复杂性,确保数据集的风格内一致性与风格间区分度,以支撑精确的量化评估。
常用场景
经典使用场景
在扩散模型机器遗忘研究领域,UNLEARNCANVAS数据集被广泛用于评估模型对特定艺术风格或图像对象的遗忘效果。该数据集通过提供高分辨率、风格化图像,并结合风格与对象的双重标注,使得研究者能够精确量化模型在移除特定生成能力后的表现。其经典应用场景包括测试扩散模型在遗忘目标概念(如梵高风格)时,是否能够有效抑制相关图像的生成,同时保持对其他非目标概念的生成质量。
解决学术问题
UNLEARNCANVAS解决了扩散模型机器遗忘评估中的关键学术问题,包括缺乏多样化的遗忘目标库、评估精度不足以及忽视模型遗忘后的保留能力。通过引入风格与对象的双重监督机制,该数据集支持对遗忘效果、领域内保留能力和跨领域保留能力的系统量化,从而填补了现有评估框架的空白,促进了机器遗忘方法的标准化与客观比较。
衍生相关工作
基于UNLEARNCANVAS数据集,衍生出多项经典研究工作,包括对ESD、FMN、UCE、CA和SalUn等五种前沿机器遗忘方法的系统评估与比较。这些工作不仅揭示了各方法在遗忘效果与保留能力之间的权衡关系,还深入探讨了遗忘机制的内在规律。此外,该数据集还被扩展应用于风格迁移任务的评估,推动了生成模型在其他视觉任务中的标准化评测进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作