five

W-Bench|水印技术数据集|图像编辑数据集

收藏
arXiv2024-10-24 更新2024-10-26 收录
水印技术
图像编辑
下载链接:
https://github.com/Shilin-LU/VINE
下载链接
链接失效反馈
资源简介:
W-Bench是由南洋理工大学开发的第一个综合基准,用于评估水印方法在多种图像编辑技术下的鲁棒性。该数据集包含11种代表性的水印方法,涵盖图像再生、全局编辑、局部编辑和图像到视频生成四种编辑技术。数据集的创建过程涉及对图像编辑频率特性的分析,并利用预训练的扩散模型SDXL-Turbo进行水印嵌入。W-Bench旨在解决现有水印方法在面对大规模文本到图像模型生成的图像编辑时脆弱的问题,特别是在版权保护和知识产权验证方面。
提供机构:
南洋理工大学
创建时间:
2024-10-24
原始信息汇总

Robust Watermarking Using Generative Priors Against Image Editing: From Benchmarking to Advances

数据集概述

  • 标题: Robust Watermarking Using Generative Priors Against Image Editing: From Benchmarking to Advances
  • 作者: Shilin Lu, Zihan Zhou, Jiayou Lu, Yuanzhi Zhu, Adams Wai-Kin Kong
  • 摘要: 当前的图像水印方法在面对大规模文本到图像模型启用的先进图像编辑技术时显得脆弱。这些模型在编辑过程中可能会扭曲嵌入的水印,对版权保护构成重大挑战。本文介绍了W-Bench,这是第一个全面评估水印方法对各种图像编辑技术(包括图像再生、全局编辑、局部编辑和图像到视频生成)的鲁棒性的基准。通过对十一种代表性水印方法在常见编辑技术下的广泛评估,我们发现大多数方法在编辑后无法检测到水印。为了解决这一局限性,我们提出了VINE,一种显著增强对各种图像编辑技术鲁棒性的水印方法,同时保持高图像质量。我们的方法涉及两个关键创新:(1)我们分析了图像编辑的频率特性,并发现模糊失真具有相似的频率特性,这使我们能够在训练期间使用它们作为代理攻击来增强水印鲁棒性;(2)我们利用大规模预训练的扩散模型SDXL-Turbo,将其适应于水印任务,以实现更不可察觉和鲁棒的水印嵌入。实验结果表明,我们的方法在各种图像编辑技术下实现了出色的水印性能,在图像质量和鲁棒性方面均优于现有方法。

内容

  • 环境设置:
    • 创建Conda环境
    • 下载VINE检查点
  • 推理:
    • 水印编码
    • 图像编辑
    • 水印解码
    • 质量指标计算
    • 演示
  • W-Bench: 即将推出
  • 引用: 如果发现该仓库有用,请考虑引用

环境设置

创建Conda环境

git clone https://github.com/Shilin-LU/VINE.git conda env create -f environment.yaml conda activate vine cd diffusers pip install -e .

下载VINE检查点

模型VINE-B和VINE-R已发布,可在此处下载,并放置在./ckpt文件夹中。

推理

水印编码

使用以下命令将消息编码到图像中:

python src/watermark_encoding.py --ckpt_path ./ckpt/VINE-R
--input_path ./example/input/2.png
--output_dir ./example/watermarked_img --message Hello World!

图像编辑

提供UltraEdit和图像反演进行图像编辑,更多选项即将添加。使用以下命令编辑图像:

python src/image_editing.py --model ultraedit
--input_path ./example/watermarked_img/2_wm.png --output_dir ./example/edited_watermarked_img

水印解码

使用以下命令从已编辑的水印图像中解码消息:

python src/watermark_decoding.py --ckpt_path ./ckpt/VINE-R
--input_path ./example/edited_watermarked_img/2_wm_edit.png --groundtruth_message Hello World!

质量指标计算

使用以下命令计算单张图像的质量指标(PSNR、SSIM和LPIPS):

python src/quality_metrics.py --input_path ./example/input/2.png --wmed_input_path ./example/watermarked_img/2_wm.png

演示

提供一个完整的演示,包括水印编码、图像编辑、水印解码和质量指标计算的过程,请参考./src/demo.ipynb获取详细说明。

W-Bench

即将推出

引用

如果发现该仓库有用,请考虑引用。

AI搜集汇总
数据集介绍
main_image_url
构建方式
W-Bench数据集的构建旨在评估水印方法在面对大规模文本到图像模型驱动的图像编辑技术时的鲁棒性。该数据集首次综合考虑了四种图像编辑技术:图像再生、全局编辑、局部编辑和图像到视频生成。通过广泛评估十一种代表性水印方法在这些编辑技术下的表现,W-Bench展示了大多数方法在图像编辑后无法检测到水印的现状。为应对这一挑战,研究团队提出了VINE方法,通过分析图像编辑的频率特性并利用大规模预训练扩散模型SDXL-Turbo,显著提升了水印在各种图像编辑技术下的鲁棒性。
特点
W-Bench数据集的主要特点在于其全面性和创新性。它不仅涵盖了传统的图像再生技术,还引入了全局编辑、局部编辑和图像到视频生成等多种先进的图像编辑方法。此外,数据集通过引入模糊失真作为训练中的替代攻击,有效提升了水印的鲁棒性。VINE方法的提出,利用预训练生成模型作为强大的生成先验,使得水印嵌入更加不可察觉且鲁棒,这在现有方法中表现尤为突出。
使用方法
W-Bench数据集适用于评估和比较不同水印方法在多种图像编辑技术下的表现。研究者可以通过该数据集测试其水印方法在图像再生、全局编辑、局部编辑和图像到视频生成等任务中的鲁棒性。此外,VINE方法的具体实现和代码已在GitHub上公开,为研究者和开发者提供了实际操作的参考。通过使用W-Bench和VINE方法,研究者可以进一步优化和开发更加鲁棒的水印技术,以应对日益复杂的图像编辑挑战。
背景与挑战
背景概述
图像水印技术在版权声明和真实性验证中扮演着关键角色。传统深度学习方法在应对经典图像变换(如压缩、噪声、缩放和裁剪)方面表现出色,但近年来大规模文本到图像(T2I)模型的进步显著增强了图像编辑能力,使得这些水印方法在面对高级图像编辑技术时显得脆弱。W-Bench数据集由南洋理工大学和苏黎世联邦理工学院的研究团队于2024年引入,旨在评估水印方法对多种图像编辑技术的鲁棒性,包括图像再生、全局编辑、局部编辑和图像到视频生成。该数据集通过评估11种代表性水印方法,揭示了现有方法在图像编辑后的水印检测能力普遍不足,从而推动了VINE水印方法的发展,该方法在保持高图像质量的同时显著增强了水印的鲁棒性。
当前挑战
W-Bench数据集面临的挑战主要集中在两个方面:一是解决图像分类领域中图像水印的鲁棒性问题,特别是在面对大规模T2I模型驱动的复杂图像编辑技术时;二是在构建过程中,如何有效地模拟和评估这些高级编辑技术对水印的影响。具体挑战包括:1)如何设计能够抵抗图像再生、全局编辑、局部编辑和图像到视频生成等多种编辑技术的水印方法;2)如何在训练过程中模拟这些编辑技术,以确保水印在实际应用中的鲁棒性。此外,数据集的构建还需要考虑如何平衡水印的不可见性和鲁棒性,以及如何在保持图像质量的同时实现高效的水印嵌入和检测。
常用场景
经典使用场景
W-Bench数据集在图像水印领域中被广泛应用于评估水印方法对多种图像编辑技术的鲁棒性。其经典使用场景包括对图像再生、全局编辑、局部编辑和图像到视频生成等四种编辑技术的评估。通过这一综合基准,研究者能够系统地比较不同水印方法在这些编辑技术下的表现,从而推动水印技术的进步和优化。
衍生相关工作
W-Bench数据集的引入催生了多项相关研究工作,特别是在鲁棒水印方法的开发和评估方面。例如,基于W-Bench的研究揭示了图像编辑对高频水印模式的显著影响,推动了利用低频嵌入策略的鲁棒水印方法的发展。此外,W-Bench还促进了生成模型在水印任务中的应用,如使用预训练的扩散模型SDXL-Turbo来增强水印的不可感知性和鲁棒性,这些工作在图像水印领域具有重要的理论和实践意义。
数据集最近研究
最新研究方向
在图像水印领域,W-Bench数据集的最新研究方向聚焦于评估水印方法在面对大规模文本到图像模型驱动的图像编辑技术时的鲁棒性。研究者们通过引入W-Bench,这是首个综合性的基准测试,涵盖了图像再生、全局编辑、局部编辑和图像到视频生成等多种图像编辑技术,以全面评估水印方法的鲁棒性。实验结果表明,大多数现有的水印方法在经过这些编辑技术处理后,无法有效检测到水印。为此,研究者提出了VINE方法,通过分析图像编辑的频率特性并利用预训练的扩散模型SDXL-Turbo,显著提升了水印在各种图像编辑技术下的鲁棒性,同时保持了高图像质量。这一研究不仅推动了图像水印技术的发展,也为版权保护提供了新的技术支持。
相关研究论文
  • 1
    Robust Watermarking Using Generative Priors Against Image Editing: From Benchmarking to Advances南洋理工大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国1km分辨率逐月降水量数据集(1901-2023)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2023.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

腾讯词向量(Tencent AI Lab Embedding Corpus for Chinese Words and Phrases)

这些语料库的最新版本提供了100维度和200维度的向量表示形式,也就是嵌入,适用于中文和英文。具体来说,有超过1200万个中文单词和短语以及650万个英语单词和短语,它们是在大规模高质量数据上进行预先培训的。这些向量捕获单词和短语的语义含义,可以广泛应用于许多下游任务 (例如,命名实体识别和文本分类) 以及进一步的研究中。

OpenDataLab 收录

基于站点观测的中国1km土壤湿度日尺度数据集(2000-2022)

本研究提供了中国范围1km高质量的土壤湿度数据集-SMCI1.0(Soil Moisture of China by in situ data, version 1.0),SMCI1.0是包含2000-2022年、日尺度、以10厘米为间隔10层深度(10-100cm)的高时空分辨率土壤湿度,数据单位为0.001m³/m³,缺失值为-999,投影为WGS1984。该数据集是以中国气象局提供的1,648个站点观测10层土壤湿度作为基准,使用ERA5_Land气象强迫数据、叶面积指数(LAI)、土地覆盖类型(Landtypes)、地形(DEM)和土壤特性(Soil properties)作为协变量,通过机器学习方式获得。本研究进行了两组实验以验证SMCI1.0的精度,时间尺度上:ubRMSE为0.041-0.052,R为0.883-0.919;空间尺度上:ubRMSE为0.045-0.051,R为0.866-0.893。 由于SMCI1.0是基于实地观测的土壤湿度,它可以作为现有基于模型和卫星数据集的有效补充。该数据产品可用于各种水文、气象、生态分析和建模,尤其在需要高质量、高分辨率土壤湿度的应用上至关重要。有关数据集的引用及详细描述,请阅读说明文档。为便于使用,本研究提供了两种不同分辨率的版本:30 秒(~1km)和0.1度(~9km)。

国家青藏高原科学数据中心 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录