AutoSplice

Name: AutoSplice
Creator: 纽约州立大学布法罗分校
Published: 2023-04-14 08:14:08
License: 暂无描述

arXiv2023-04-14 更新2024-06-21 收录

下载链接：

https://github.com/shanface33/AutoSplice_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

AutoSplice数据集由纽约州立大学布法罗分校的研究团队创建，包含5894张图像，其中3621张为通过DALL-E2模型基于文本提示生成的伪造图像，其余为真实图像。数据集利用视觉新闻数据集中的图像和标题，通过自动媒体分析工具和人工标注提取可操作的对象区域，并替换相应的文本提示，生成高质量的伪造图像。该数据集主要用于媒体取证领域的伪造检测和定位，旨在解决当前媒体取证技术在检测语言-图像模型生成图像方面的挑战。

The AutoSplice dataset was created by a research team from the University at Buffalo, State University of New York. It contains 5,894 images, among which 3,621 are forged images generated by the DALL-E 2 model based on text prompts, while the remaining images are authentic. This dataset leverages images and captions from visual news datasets, extracts actionable object regions via automated media analysis tools and manual annotations, and replaces the corresponding text prompts to generate high-quality forged images. It is primarily used for forgery detection and localization in the field of media forensics, aiming to address the current challenges faced by media forensics technologies when detecting images generated by text-to-image models.

提供机构：

纽约州立大学布法罗分校

创建时间：

2023-04-14

搜集汇总

数据集介绍

构建方式

在数字媒体取证领域，面对语言-图像模型生成高度逼真图像带来的挑战，AutoSplice数据集的构建采用了半自动化的创新流程。该流程以Visual News数据集中的真实新闻图像-标题对作为源数据，首先通过Detic目标检测模型提取图像中的潜在对象区域，并利用spaCy工具解析标题中的名词术语。随后，人工标注者将匹配的对象区域与文本描述进行关联，并用语义相似但不一致的目标术语替换原始描述，形成修改后的文本提示。这些文本提示与对应的对象分割掩码共同输入DALL-E2模型，以执行局部图像编辑，生成三组候选篡改图像。为确保生成质量，后续通过人工检查平台进行数据清洗，筛选出无明显视觉伪影的高质量图像，并统一转换为JPEG格式以匹配真实图像，最终形成包含3,621张篡改图像和2,273张真实图像的数据集。

特点

AutoSplice数据集的核心特点在于其通过先进的语言-图像模型实现了高度逼真且多样化的局部图像篡改。与依赖手动复制-移动或随机切割的传统篡改数据集不同，该数据集利用DALL-E2模型，能够根据语义连贯的文本提示，在指定掩码区域内自动生成与原始图像风格、光照及上下文保持一致的篡改内容，从而极大提升了篡改的真实性与隐蔽性。数据集涵盖了从局部小对象到全局大范围的各种篡改区域尺寸，呈现出高度的多样性。此外，所有生成图像均经过严格的人工质量筛选，并提供了无损（JPEG-100）与轻度有损（JPEG-90）两种压缩版本，模拟了社交媒体传播中的实际场景，为评估取证模型在复杂条件下的鲁棒性提供了重要基础。

使用方法

AutoSplice数据集主要服务于媒体取证领域的两大核心任务：图像篡改检测与篡改定位。在图像级篡改检测任务中，研究者可将数据集按比例划分为训练集与测试集，用于训练或微调二分类模型，以区分图像的真伪，并评估模型在面对新型语言-图像模型生成篡改时的泛化能力。在像素级篡改定位任务中，数据集提供的精确二值化篡改掩码可用于训练语义分割模型，以精确识别被篡改的像素区域。实验评估通常包含两种模式：一是直接测试预训练模型在AutoSplice上的零样本性能，以检验其对新类型篡改的识别能力；二是将AutoSplice纳入训练集对模型进行微调，评估其在域内测试场景下的性能上限。数据集包含的不同压缩版本，也有助于分析图像压缩对取证算法性能的影响。

背景与挑战

背景概述

随着语言-图像模型的迅猛发展，基于文本描述生成高度逼真图像的能力对媒体取证领域构成了潜在威胁。为探究此类模型带来的挑战，纽约州立大学布法罗分校的研究团队于2023年提出了AutoSplice数据集。该数据集的核心研究问题在于评估先进的语言-图像模型对现有媒体取证技术构成的威胁程度。通过利用DALL-E2模型，以文本提示为指导自动生成并拼接图像区域，并结合人工校验的半自动标注平台，团队构建了包含5,894张真实与篡改图像的数据集。AutoSplice的创建标志着媒体取证研究开始直面由生成式人工智能驱动的、高度灵活且逼真的局部图像篡改，为开发泛化性更强的检测方法提供了关键资源。

当前挑战

AutoSplice数据集旨在应对媒体取证领域的两大核心挑战：图像篡改检测与定位。其所解决的根本问题在于，传统检测模型在面对由大型语言-图像模型生成的、语义连贯且视觉逼真的局部篡改时，泛化能力严重不足。实验表明，多数预训练模型在AutoSplice数据上的检测性能显著下降，揭示了现有方法对这类新型篡改模式的脆弱性。在构建过程中，研究团队亦面临多重挑战：首先，为确保篡改的合理性，需设计复杂流程来匹配图像中的物体区域与文本描述，并进行语义一致的替换；其次，DALL-E2模型在生成人物、文本等复杂概念时易产生视觉伪影，需通过多轮人工校验进行数据清洗；最后，为模拟真实网络传播场景，需处理不同JPEG压缩质量对篡改痕迹的影响，这增加了数据制备与评估的复杂性。

常用场景

经典使用场景

在多媒体取证领域，AutoSplice数据集主要用于评估和提升针对文本提示引导的图像局部篡改的检测与定位能力。该数据集通过DALL-E2模型对真实新闻图像进行语义一致的局部编辑，生成了高度逼真的篡改样本，为研究者提供了模拟现实世界中复杂伪造场景的基准测试平台。其经典应用场景包括训练和验证深度学习模型在图像级伪造检测与像素级篡改定位任务上的泛化性能，特别是在应对新兴的大规模语言-图像模型生成的伪造内容时，能够有效检验现有取证技术的鲁棒性。

衍生相关工作

AutoSplice数据集的推出催生了一系列针对语言-图像模型生成伪造检测的衍生研究。基于该数据集，学者们进一步探索了多模态特征融合、压缩鲁棒性增强以及跨模型泛化等方向。例如，部分工作借鉴其构建范式，利用更先进的扩散模型生成更难以察觉的篡改样本，以持续挑战检测极限。同时，该数据集也促进了如PSCC-Net等定位方法的性能优化，推动了像素级取证技术从依赖传统压缩痕迹向挖掘深层语义与噪声模式演进。这些衍生工作共同丰富了多媒体取证领域对新兴生成技术威胁的认知与应对策略。

数据集最近研究