FragFake

Name: FragFake
Creator: 香港科技大学（广州）
Published: 2025-05-21 23:22:45
License: 暂无描述

arXiv2025-05-21 更新2025-05-24 收录

下载链接：

https://huggingface.co/datasets/VincentHKUSTGZ/FragFake

下载链接

链接失效反馈

官方服务：

资源简介：

FragFake是一个用于编辑图像检测的大规模数据集，由多个高级图像编辑模型生成的编辑图像组成，包括对象添加和对象替换两种类型的编辑操作。数据集包含超过20,000个图像-文本对，用于训练视觉语言模型。FragFake旨在解决现代图像编辑技术产生的局部编辑图像的检测问题，通过自动化的数据生成管道构建，以减少对昂贵的像素级注释的依赖。数据集的创建过程包括从COCO数据集中随机采样图像、使用GPT-4o生成编辑指令、使用四个编辑模型生成编辑图像、将图像转换为图像-文本对格式，并进行人工审核以确保正确性。FragFake适用于多模态内容真实性的研究，并有望推动该领域后续研究的发展。

FragFake is a large-scale dataset for edited image detection, composed of edited images generated by multiple state-of-the-art image editing models, covering two types of editing operations: object addition and object replacement. The dataset contains over 20,000 image-text pairs for training vision-language models. FragFake aims to address the detection problem of locally edited images produced by modern image editing technologies, and is constructed via an automated data generation pipeline to reduce reliance on expensive pixel-level annotations. The dataset creation process includes randomly sampling images from the COCO dataset, generating editing instructions using GPT-4o, generating edited images using four editing models, converting the images into image-text pair format, and conducting manual reviews to ensure correctness. FragFake is applicable to research on multimodal content authenticity, and is expected to promote the development of subsequent research in this field.

提供机构：

香港科技大学（广州）

创建时间：

2025-05-21

搜集汇总

数据集介绍

构建方式

FragFake数据集的构建采用了高度自动化的流程，以应对现代图像编辑技术带来的挑战。研究团队从COCO数据集中精选了1,600张原始图像，覆盖80个不同类别，确保数据源的多样性。通过GPT-4o生成3,200条自然语言编辑指令，并进一步优化创建了包含1,930条非重复指令的困难版本。利用四种先进的图像编辑模型（包括开源模型MagicBrush、GoT、UltraEdit和商业模型Gemini-IG）进行处理，最终生成了20,222张编辑图像及其对应的文本描述。整个流程实现了从指令生成到图像编辑的全自动化，形成了可扩展的数据生产管道。

特点

FragFake数据集具有三个显著特征：首先，它专注于局部编辑图像的检测，填补了传统全图生成检测的空白；其次，数据集包含两种主要编辑类型（物体添加和物体替换），并提供了简单和困难两个版本，后者确保所有目标物体都具有唯一性；最后，数据集整合了多种先进的编辑模型输出，包括开源和商业模型，确保了技术覆盖的全面性。特别值得注意的是，该数据集首次将视觉语言模型引入编辑区域定位任务，摆脱了对昂贵像素级标注的依赖。

使用方法

FragFake数据集主要支持视觉语言模型在编辑图像检测任务上的微调和评估。研究人员可采用低秩自适应（LoRA）等参数高效的方法对预训练模型进行微调。数据集支持两个层次的评估指标：在图像分类层面使用准确率和F1分数；在细粒度定位层面则采用区域精度和物体精度。实验表明，经过微调的Qwen2.5-VL模型在该数据集上表现出色，准确率达到0.990，物体精度提升至74.0%。数据集还可用于跨模型和跨任务的迁移性研究，为编辑检测算法的泛化能力评估提供基准。

背景与挑战

背景概述

FragFake数据集由香港科技大学（广州）、蚂蚁集团、清华大学等机构的研究团队于2025年提出，旨在解决现代图像编辑技术带来的内容真实性验证难题。随着扩散模型和基于自然语言的图像编辑技术快速发展，局部编辑图像呈现出高度真实性的特征，这对传统的全图二分类检测方法构成了严峻挑战。该数据集创新性地将视觉语言模型（VLMs）引入编辑检测领域，通过自动化流程构建了包含20,222张编辑图像的大规模基准，涵盖四种先进编辑模型和80类COCO数据集对象，首次实现了无需人工标注的编辑区域定位。

当前挑战

FragFake面临三重核心挑战：在领域问题层面，传统二分类器无法定位编辑区域，而基于像素标注的计算机视觉方法成本高昂；在数据构建层面，需克服编辑指令自动生成中的目标对象重复问题，并通过Hard版本设计提升检测难度；在技术应用层面，需验证VLMs在细粒度编辑检测任务中的适应性，其初始对象定位精度仅5%，需通过LoRA微调等策略实现69%的性能提升。此外，不同编辑模型间的域泛化能力差异（如MagicBrush模型跨域检测精度下降至13%）也构成了重要挑战。

常用场景

经典使用场景

FragFake数据集在图像编辑检测领域具有广泛的应用价值，尤其在细粒度编辑检测任务中表现突出。该数据集通过自动化流程生成了超过20,000张经过不同编辑模型处理的图像，涵盖了对象添加和对象替换两种主要编辑类型。研究者可以利用该数据集训练和评估视觉语言模型（VLMs），以提升其在编辑图像分类和编辑区域定位任务中的性能。

解决学术问题

FragFake数据集解决了传统图像伪造检测领域的三个关键问题：一是传统二元分类器无法提供编辑区域定位信息；二是传统计算机视觉方法依赖昂贵的像素级标注；三是缺乏针对现代图像编辑技术的大规模高质量数据集。通过引入视觉语言模型，该数据集显著降低了标注成本，同时提升了检测的精确性和可解释性。

衍生相关工作

FragFake数据集的发布推动了多项相关研究的发展，尤其是在视觉语言模型的应用领域。基于该数据集，研究者开发了多种高效的微调方法，如LoRA（低秩适应），显著提升了模型性能。此外，该数据集还启发了跨域和跨任务泛化能力的研究，为未来多模态内容真实性检测提供了新的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集