five

CopyMark|AI模型安全数据集|版权保护数据集

收藏
arXiv2024-10-05 更新2024-10-08 收录
AI模型安全
版权保护
下载链接:
https://github.com/caradryanl/CopyMark
下载链接
链接失效反馈
资源简介:
CopyMark是由南加州大学和伊利诺伊大学厄巴纳-香槟分校的研究团队创建的一个用于评估扩散模型成员推断攻击(MIA)的现实世界基准数据集。该数据集包含了多个预训练的扩散模型及其对应的未偏移的非成员数据集,旨在提供一个公平和真实的评估环境。通过引入额外的测试数据集,CopyMark能够进行盲测试,从而更准确地评估MIA方法在实际应用中的表现。该数据集主要应用于检测预训练扩散模型中的未授权数据使用问题,帮助在AI版权诉讼中提供证据。
提供机构:
南加州大学
创建时间:
2024-10-05
原始信息汇总

CopyMark 数据集概述

数据集内容

CopyMark 数据集包含以下内容:

  • diffusers 目录

    • assets:用于案例研究的数据,包括图像。
    • datasets:存放数据集的目录。
    • experiments:原始实验结果的记录数据。
    • utils:用于准备数据集和生成元数据的脚本。
  • ui/custom_nodes/assets:用于版权检测推理的元数据。

数据集用途

CopyMark 数据集用于版权检测,主要应用于以下场景:

  • 在 Latent Diffusion Model、Stable Diffusion 和 SDXL 模型上进行版权检测的基准测试。
  • 提供图形用户界面(GUI),用于检测扩散模型训练数据中的版权图像。

数据集结构

数据集的代码结构如下:

CopyMark │ README.md │ requirements.txt
│ └───diffusers # 基准测试 │ └───assets # 案例研究图像数据 │ └───copymark # 版权检测的 diffusers 管道代码 │ └───datasets # 数据集存放目录 │ └───experiments # 原始实验结果记录 │ └───scripts # 版权检测方法的脚本 │ └───utils # 数据集准备和元数据生成脚本 │
└───ui │ └───custom_nodes │ └───assets # 版权检测推理的元数据 │ └───diffusers_ui # 版权检测的 diffusers 管道代码 │ │ copymark.py # 版权检测功能代码 │ │ encode_diffusers.py # 图像和文本编码功能代码 │ │ load_diffusers.py # 模块加载功能代码 │ │ nodes_copymark.py # 版权检测的自定义节点代码 │ │ nodes_diffusers.py # 适配 diffusers 到 comfyui 的自定义节点代码

AI搜集汇总
数据集介绍
main_image_url
构建方式
CopyMark数据集的构建旨在提供一个更为现实的成员推断攻击(MIA)基准,以评估扩散模型中的成员推断攻击。该数据集收集了所有可访问的预训练扩散模型,并配备了无偏的数据集和公平的评估管道。具体而言,CopyMark包括了多个预训练扩散模型,如Stable Diffusion v1.5、CommonCanvas-XL-C和Kohaku-XL-Epsilon,以及相应的无偏非成员数据集。此外,CopyMark引入了额外的测试数据集,用于盲测试MIA方法,确保评估的公正性和实际性。
特点
CopyMark数据集的主要特点在于其现实性和公正性。首先,它基于预训练的扩散模型,避免了过度训练的问题,确保了评估的真实性。其次,数据集中的成员和非成员数据集来自相同的数据分布,消除了数据集偏移的影响。最后,通过引入盲测试数据集,CopyMark能够更准确地评估MIA方法在实际应用中的表现,揭示了当前MIA方法在实际场景中的不足。
使用方法
使用CopyMark数据集进行成员推断攻击评估时,研究者可以首先选择合适的预训练扩散模型和相应的数据集。随后,利用数据集中的验证数据集来搜索最佳阈值或训练分类器。最后,通过盲测试数据集对这些阈值或分类器进行测试,评估其在未知数据上的表现。此外,CopyMark还提供了详细的实验设置和评估指标,如在1%和0.1%的假阳性率下的真阳性率以及AUC,确保评估结果的全面性和可靠性。
背景与挑战
背景概述
CopyMark数据集由南加州大学的Chumeng Liang和伊利诺伊大学厄巴纳-香槟分校的Jiaxuan You等人创建,旨在评估扩散模型中的成员推断攻击(MIA)。扩散模型在图像合成领域取得了显著进展,但其训练数据集可能包含未经授权的版权图像,引发了法律和伦理问题。CopyMark通过提供一个更现实的MIA基准,支持预训练的扩散模型、无偏数据集和公平的评估流程,揭示了现有MIA评估中的关键缺陷和过于乐观的性能估计。该数据集的引入标志着首次为扩散模型上的MIA提供了统一的真实世界评估基准。
当前挑战
CopyMark数据集面临的挑战主要集中在两个方面:一是现有MIA评估中存在的过度训练和数据集偏移问题,这使得MIA任务比实际场景更容易;二是当前MIA方法在真实世界条件下的性能显著下降,表明其在检测未经授权数据使用方面的不可靠性。此外,构建CopyMark过程中需要确保模型和数据集的无偏性,以及实施盲测试以验证MIA方法的泛化能力。这些挑战突显了在扩散模型领域中,MIA方法的有效性和可靠性仍需进一步研究和改进。
常用场景
经典使用场景
CopyMark数据集在扩散模型领域中被广泛用于评估成员推断攻击(MIAs)的有效性。其经典使用场景包括对预训练扩散模型进行成员推断攻击的评估,以检测特定图像是否存在于训练数据集中。通过提供一个更加现实和公正的评估基准,CopyMark帮助揭示了现有MIAs在实际条件下的性能显著下降,从而为研究者提供了一个更为可靠的评估工具。
实际应用
在实际应用中,CopyMark数据集为扩散模型的版权保护提供了重要支持。通过评估MIAs在实际条件下的性能,CopyMark揭示了当前MIAs在检测未经授权数据使用方面的不可靠性,从而为版权所有者在AI版权诉讼中提供了更为客观和科学的证据基础。此外,CopyMark还为开发更为有效的成员推断攻击方法提供了实际指导,有助于提升扩散模型在数据隐私和版权保护方面的应用安全性。
衍生相关工作
CopyMark数据集的引入激发了大量相关研究工作。首先,它促使研究者重新审视和改进现有的成员推断攻击方法,以适应更为现实的评估条件。其次,CopyMark为开发新的成员推断攻击方法提供了基准和参考,推动了该领域的技术创新。此外,CopyMark还为扩散模型的版权保护研究提供了新的视角和方法,促进了相关法律和技术标准的制定与完善。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

广东省标准地图

该数据类主要为广东省标准地图信息。标准地图依据中国和世界各国国界线画法标准编制而成。该数据包括广东省全图、区域地图、地级市地图、县(市、区)地图、专题地图、红色印迹地图等分类。

开放广东 收录

DFT dataset for high entropy alloys

我们的DFT数据集涵盖了由八种元素组成的bcc和fcc结构,包括所有可能的2至7元合金系统。该数据集在Zenodo上公开可用,包含初始和最终结构、形成能量、原子磁矩和电荷等属性。

github 收录

WideIRSTD Dataset

WideIRSTD数据集包含七个公开数据集:SIRST-V2、IRSTD-1K、IRDST、NUDT-SIRST、NUDT-SIRST-Sea、NUDT-MIRSDT、Anti-UAV,以及由国防科技大学团队开发的数据集,包括模拟陆基和太空基数据,以及真实手动标注的太空基数据。数据集包含具有各种目标形状(如点目标、斑点目标、扩展目标)、波长(如近红外、短波红外和热红外)、图像分辨率(如256、512、1024、3200等)的图像,以及不同的成像系统(如陆基、空基和太空基成像系统)。

github 收录

EcoInvent

EcoInvent是一个生命周期评估(LCA)数据库,包含了大量产品的环境影响数据。它提供了详细的产品生命周期数据,包括原材料提取、生产、使用和废弃处理等各个阶段的环境影响信息。

www.ecoinvent.org 收录