WILD: a new in-the-Wild Image Linkage Dataset for synthetic image attribution
收藏arXiv2025-04-29 更新2025-04-30 收录
下载链接:
https://www.kaggle.com/datasets/pietrob92/wildin-the-wild-image-linkage-dataset
下载链接
链接失效反馈官方服务:
资源简介:
WILD数据集是一个用于合成图像归因的新颖的“野外”图像链接数据集,旨在为合成图像归因模型提供一个强大的训练和基准测试工具。该数据集由10个流行的商业生成器组成的封闭集和10个其他生成器组成的开放集组成,每个生成器代表1000张图像,共计20000张图像。为了模拟现实世界条件,数据集中的图像经过了一系列常见的后处理操作。WILD数据集的发布为合成图像归因领域提供了宝贵的资源,有助于评估归因模型在真实场景下的性能。
The WILD dataset is a novel in-the-wild image linkage dataset for synthetic image attribution, designed to serve as a robust training and benchmarking tool for synthetic image attribution models. This dataset comprises a closed-set with 10 popular commercial generators and an open-set with 10 additional generative models, where each generator corresponds to 1000 images, totaling 20,000 images in all. To simulate real-world conditions, the images in the dataset have undergone a series of common post-processing operations. The release of the WILD dataset provides a valuable resource for the field of synthetic image attribution, facilitating the evaluation of attribution models' performance in real-world scenarios.
提供机构:
University of Siena, Department of Information Engineering an Mathematics, Italy; Politecnico di Milano, Department of Electronics, Informatics, and Bioengineering, Italy; University of Trento, Department of Information Engineering and Computer Science, Italy; University of Catania, Department of Mathematics and Computer Science, Italy; Sapienza University of Rome - Departement of Computer, Control and Management Engineering, Italy
创建时间:
2025-04-28
搜集汇总
数据集介绍

构建方式
WILD数据集构建采用了一种创新的方法,通过精心设计的封闭集和开放集结构来模拟真实世界的合成图像溯源场景。封闭集包含10种主流商业和开源文本到图像生成器,每种生成器产生1000张图像,总计10000张。为确保数据分布的均衡性,研究团队开发了专用的提示词生成脚本,每个提示词在10个生成器上各生成一张图像,从而建立了图像与提示词之间的直接关联。开放集则包含另外10种生成器的10000张图像,模拟未知生成器的真实场景。为增强真实性,50%的图像经过1-3步随机后处理操作,包括JPEG压缩、裁剪、调整大小等常见图像处理手段。
使用方法
WILD数据集的使用方法灵活多样,支持多种研究任务。对于封闭集溯源,研究者可使用预定义的训练集(5000张图像)、验证集(2000张图像)和测试集(3000张图像)进行模型开发和评估。开放集的10000张图像专门用于测试模型对未知生成器的识别能力。数据集支持三类主要任务:封闭集识别、开放集识别以及后处理鲁棒性测试。研究团队还提供了七种基线方法的性能基准,包括基于CLIP的特征分类器、DE-FAKE框架、标准CNN架构和视觉变换器分类器等,为后续研究提供了重要参考。
背景与挑战
背景概述
WILD数据集由意大利锡耶纳大学、米兰理工大学、特伦托大学、卡塔尼亚大学和罗马萨皮恩扎大学的研究团队于2025年联合发布,旨在解决生成式AI时代合成图像溯源的关键问题。该数据集聚焦头部肩部人像,包含20个主流图像生成器(10个封闭集和10个开放集)产生的5万张图像,其中半数经过1-3次后处理操作,模拟社交媒体传播场景。作为首个同时涵盖商业生成器和开源模型的大规模基准,WILD填补了现有数据集在图像分辨率均衡性、后处理操作多样性以及开放集模拟方面的空白,为数字取证、知识产权保护等领域提供了重要研究工具。
当前挑战
在领域问题层面,WILD直指生成式AI溯源的核心难点:商业生成器架构差异导致的特征漂移、后处理操作对模型指纹的破坏,以及开放集场景下的未知生成器识别。构建过程中,研究团队需攻克三大技术挑战:设计无偏提示生成系统以确保跨生成器的语义一致性;开发自动化后处理流水线模拟真实图像退化;建立分层评估框架以区分封闭集分类与开放集检测能力。这些挑战使得WILD成为当前最具现实意义的合成图像溯源基准测试平台。
常用场景
经典使用场景
WILD数据集在合成图像来源识别领域具有重要价值,其经典使用场景包括训练和评估合成图像来源识别模型。该数据集通过封闭集和开放集的设置,模拟了真实世界中的复杂场景,使得研究人员能够在已知和未知生成器的情况下测试模型的泛化能力。此外,数据集中的后处理图像为研究模型对图像变换的鲁棒性提供了丰富素材。
解决学术问题
WILD数据集解决了合成图像来源识别中的多个学术问题。首先,它填补了高质量、多样化开源数据集的空白,使得训练和评估模型更加可靠。其次,通过封闭集和开放集的设置,解决了模型在未知生成器情况下的泛化问题。此外,数据集中的后处理图像为研究模型对图像变换的鲁棒性提供了重要支持。这些问题的解决对多媒体取证、知识产权保护和反AI驱动的虚假信息具有重要意义。
实际应用
WILD数据集在实际应用中具有广泛前景。在多媒体取证领域,它可用于识别合成图像的来源,帮助打击虚假信息和深度伪造。在知识产权保护方面,该数据集可用于追踪合成图像的生成工具,保护原创内容。此外,在社交媒体平台中,WILD数据集训练的模型可用于自动检测和标记合成图像,提高内容可信度。
数据集最近研究
最新研究方向
随着生成式人工智能技术的飞速发展,合成图像的溯源问题已成为多媒体取证领域的关键挑战。WILD数据集的推出为这一研究方向提供了重要支撑,其最新研究聚焦于开放环境下的生成模型溯源技术。在深度伪造检测和AI生成内容鉴别的背景下,该数据集通过包含商业生成器和后处理操作的真实场景模拟,推动了基于Transformer架构的鲁棒性检测方法发展。当前研究热点集中在跨模型泛化能力提升、多模态特征融合以及对抗后处理的稳健性分析等方面,这些探索对于构建下一代数字内容认证体系具有重要价值。
相关研究论文
- 1WILD: a new in-the-Wild Image Linkage Dataset for synthetic image attribution意大利锡耶纳大学信息工程与数学系, 意大利米兰理工大学电子、信息与生物工程系, 意大利特伦托大学信息工程与计算机科学系, 意大利卡塔尼亚大学数学与计算机科学系, 意大利罗马萨皮恩扎大学计算机、控制与管理工程系 · 2025年
以上内容由遇见数据集搜集并总结生成



