CopyMark

Name: CopyMark
Creator: 南加州大学
Published: 2024-10-05 01:46:06
License: 暂无描述

arXiv2024-10-05 更新2024-10-08 收录

下载链接：

https://github.com/caradryanl/CopyMark

下载链接

链接失效反馈

官方服务：

资源简介：

CopyMark是由南加州大学和伊利诺伊大学厄巴纳-香槟分校的研究团队创建的一个用于评估扩散模型成员推断攻击（MIA）的现实世界基准数据集。该数据集包含了多个预训练的扩散模型及其对应的未偏移的非成员数据集，旨在提供一个公平和真实的评估环境。通过引入额外的测试数据集，CopyMark能够进行盲测试，从而更准确地评估MIA方法在实际应用中的表现。该数据集主要应用于检测预训练扩散模型中的未授权数据使用问题，帮助在AI版权诉讼中提供证据。

CopyMark is a real-world benchmark dataset developed by research teams from the University of Southern California and the University of Illinois Urbana-Champaign for evaluating membership inference attacks (MIA) against diffusion models. This dataset contains multiple pre-trained diffusion models and their corresponding unbiased non-member datasets, aiming to provide a fair and realistic evaluation environment. By incorporating additional test datasets, CopyMark supports blind testing, enabling more accurate assessment of the performance of MIA methods in real-world applications. This dataset is primarily used to detect unauthorized data utilization in pre-trained diffusion models, assisting in providing evidence for AI copyright litigation.

提供机构：

南加州大学

创建时间：

2024-10-05

原始信息汇总

CopyMark 数据集概述

数据集内容

CopyMark 数据集包含以下内容：

diffusers 目录：
- assets：用于案例研究的数据，包括图像。
- datasets：存放数据集的目录。
- experiments：原始实验结果的记录数据。
- utils：用于准备数据集和生成元数据的脚本。
ui/custom_nodes/assets：用于版权检测推理的元数据。

数据集用途

CopyMark 数据集用于版权检测，主要应用于以下场景：

在 Latent Diffusion Model、Stable Diffusion 和 SDXL 模型上进行版权检测的基准测试。
提供图形用户界面（GUI），用于检测扩散模型训练数据中的版权图像。

数据集结构

数据集的代码结构如下：

CopyMark │ README.md │ requirements.txt
│ └───diffusers # 基准测试 │ └───assets # 案例研究图像数据 │ └───copymark # 版权检测的 diffusers 管道代码 │ └───datasets # 数据集存放目录 │ └───experiments # 原始实验结果记录 │ └───scripts # 版权检测方法的脚本 │ └───utils # 数据集准备和元数据生成脚本 │
└───ui │ └───custom_nodes │ └───assets # 版权检测推理的元数据 │ └───diffusers_ui # 版权检测的 diffusers 管道代码 │ │ copymark.py # 版权检测功能代码 │ │ encode_diffusers.py # 图像和文本编码功能代码 │ │ load_diffusers.py # 模块加载功能代码 │ │ nodes_copymark.py # 版权检测的自定义节点代码 │ │ nodes_diffusers.py # 适配 diffusers 到 comfyui 的自定义节点代码

搜集汇总

数据集介绍

构建方式

CopyMark数据集的构建旨在提供一个更为现实的成员推断攻击（MIA）基准，以评估扩散模型中的成员推断攻击。该数据集收集了所有可访问的预训练扩散模型，并配备了无偏的数据集和公平的评估管道。具体而言，CopyMark包括了多个预训练扩散模型，如Stable Diffusion v1.5、CommonCanvas-XL-C和Kohaku-XL-Epsilon，以及相应的无偏非成员数据集。此外，CopyMark引入了额外的测试数据集，用于盲测试MIA方法，确保评估的公正性和实际性。

特点

CopyMark数据集的主要特点在于其现实性和公正性。首先，它基于预训练的扩散模型，避免了过度训练的问题，确保了评估的真实性。其次，数据集中的成员和非成员数据集来自相同的数据分布，消除了数据集偏移的影响。最后，通过引入盲测试数据集，CopyMark能够更准确地评估MIA方法在实际应用中的表现，揭示了当前MIA方法在实际场景中的不足。

使用方法

使用CopyMark数据集进行成员推断攻击评估时，研究者可以首先选择合适的预训练扩散模型和相应的数据集。随后，利用数据集中的验证数据集来搜索最佳阈值或训练分类器。最后，通过盲测试数据集对这些阈值或分类器进行测试，评估其在未知数据上的表现。此外，CopyMark还提供了详细的实验设置和评估指标，如在1%和0.1%的假阳性率下的真阳性率以及AUC，确保评估结果的全面性和可靠性。

背景与挑战

背景概述

CopyMark数据集由南加州大学的Chumeng Liang和伊利诺伊大学厄巴纳-香槟分校的Jiaxuan You等人创建，旨在评估扩散模型中的成员推断攻击（MIA）。扩散模型在图像合成领域取得了显著进展，但其训练数据集可能包含未经授权的版权图像，引发了法律和伦理问题。CopyMark通过提供一个更现实的MIA基准，支持预训练的扩散模型、无偏数据集和公平的评估流程，揭示了现有MIA评估中的关键缺陷和过于乐观的性能估计。该数据集的引入标志着首次为扩散模型上的MIA提供了统一的真实世界评估基准。

当前挑战

CopyMark数据集面临的挑战主要集中在两个方面：一是现有MIA评估中存在的过度训练和数据集偏移问题，这使得MIA任务比实际场景更容易；二是当前MIA方法在真实世界条件下的性能显著下降，表明其在检测未经授权数据使用方面的不可靠性。此外，构建CopyMark过程中需要确保模型和数据集的无偏性，以及实施盲测试以验证MIA方法的泛化能力。这些挑战突显了在扩散模型领域中，MIA方法的有效性和可靠性仍需进一步研究和改进。

常用场景

经典使用场景

CopyMark数据集在扩散模型领域中被广泛用于评估成员推断攻击（MIAs）的有效性。其经典使用场景包括对预训练扩散模型进行成员推断攻击的评估，以检测特定图像是否存在于训练数据集中。通过提供一个更加现实和公正的评估基准，CopyMark帮助揭示了现有MIAs在实际条件下的性能显著下降，从而为研究者提供了一个更为可靠的评估工具。

实际应用

衍生相关工作

CopyMark数据集的引入激发了大量相关研究工作。首先，它促使研究者重新审视和改进现有的成员推断攻击方法，以适应更为现实的评估条件。其次，CopyMark为开发新的成员推断攻击方法提供了基准和参考，推动了该领域的技术创新。此外，CopyMark还为扩散模型的版权保护研究提供了新的视角和方法，促进了相关法律和技术标准的制定与完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集