five

DEAL-300K

收藏
arXiv2025-11-29 更新2025-12-02 收录
下载链接:
https://github.com/ymhzyj/DEAL-300K
下载链接
链接失效反馈
官方服务:
资源简介:
DEAL-300K是由四川大学研究团队构建的大规模扩散模型图像编辑区域定位数据集,旨在解决扩散式图像篡改的精准定位问题。该数据集包含超过30万张标注图像,数据来源于MS COCO等真实图像库,通过多模态大语言模型生成编辑指令,并利用无掩码扩散编辑器生成篡改图像,结合主动学习变化检测流程实现像素级标注。其创建过程融合了自动化指令生成与半自动标注技术,显著降低了人工成本。该数据集主要应用于多媒体取证领域,支持扩散式图像篡改定位算法的训练与评估,为检测语义级局部伪造内容提供关键数据基础。

DEAL-300K is a large-scale diffusion model-based image editing region localization dataset constructed by the research team from Sichuan University, which aims to address the precise localization problem of diffusion-based image tampering. This dataset contains over 300,000 annotated images sourced from real-world image repositories such as MS COCO. It generates editing instructions via multimodal large language models (LLMs), creates tampered images using mask-free diffusion editors, and accomplishes pixel-level annotations by integrating the active learning-based change detection workflow. Its creation process integrates automated instruction generation and semi-automatic annotation technologies, which significantly reduces labor costs. This dataset is primarily applied in the field of multimedia forensics, supporting the training and evaluation of diffusion-based image tampering localization algorithms, and providing a critical data foundation for detecting semantic-level local forged content.
提供机构:
四川大学
创建时间:
2025-11-29
原始信息汇总

DEAL-300K 数据集概述

数据集简介

DEAL-300K 是一个用于扩散基图像编辑区域定位(DIML)的大规模数据集。该数据集包含超过 30 万张带标注的图像,专门设计用于定位由扩散模型生成的图像编辑区域。

数据集背景

传统的数据集主要关注扩散生成图像的二元分类或手动操作的定位,无法有效应对扩散基编辑与原始内容无缝融合带来的挑战。DEAL-300K 旨在解决这一问题。

数据集详情

数据规模与构成

  • 源图像数量:119,371 张
  • 编辑后图像数量:221,097 张
  • 总标注图像数量:超过 300,000 张
  • 图像尺寸范围:128 × 512 至 512 × 576 像素

数据来源与生成方法

  • 源图像:来自 MS COCO 数据集
  • 编辑方法:基于 InstructionPix2Pix 技术
  • 指令生成:所有编辑指令由微调后的 Qwen-VL 多模态大语言模型生成
  • 标注过程:采用主动学习标注流程,确保多样性和质量

应用场景

  • 场景类型:通用场景
  • 生成模型:InstructPix2Pix

数据集下载

数据集已上传至 OneDrive,包含以下部分:

与现有数据集的比较

数据集 年份 源图像数量 编辑图像数量 图像尺寸 场景 生成模型
CoCoGlide 2023 512 512 256 × 256 通用 Glide
AutoSplice 2023 2,273 3,621 256 × 256 - 4232 × 4232 通用 DALL-E2
MagicBrush 2023 5,313 10,388 1024 × 1024 通用 DALL-E2
Repaint-P2/CelebA-HQ 2024 10,800 41,472 256 × 256 人脸 Repaint
DEAL-300K 2024年4月 119,371 221,097 128 × 512 - 512 × 576 通用 InstructPix2Pix

基准方法

数据集提出了一种新颖的基准方法,结合视觉基础模型(VFMs)和多频率提示调优(MFPT),以捕捉扩散编辑区域的复杂细节。该方法在专用测试集上实现了 82.56% 的像素级 F1 分数,在外部 CoCoGlide 数据集上实现了 80.97% 的 F1 分数。

相关资源

  • 编辑指令文件位于 instructions 目录中
  • 可视化示例位于 assets/examples 目录中
  • 编辑指令词云图位于 assets/wordcloud-page-001.jpg

致谢

该工作基于以下基础工作构建:MS COCO、InstructPix2Pix、Qwen-VL、ISAT 和 SAM-CD。

搜集汇总
数据集介绍
main_image_url
构建方式
在多媒体取证领域,构建大规模、高质量的标注数据集对于推动扩散模型图像编辑定位研究至关重要。DEAL-300K数据集的构建采用了一条创新的自动化流水线。首先,利用在MagicBrush数据集上微调的多模态大语言模型Qwen-VL,根据MS COCO原始图像及其视觉原型自动生成语义连贯的图像编辑指令。随后,采用无掩码的扩散编辑模型InstructPix2Pix,依据生成的指令对原始图像进行编辑,生成逼真的篡改图像。最后,通过一个基于主动学习和变化检测的标注流程,利用重新训练的SAM-CD模型对编辑区域进行像素级标注,并辅以少量人工校验,从而高效地构建了包含超过30万张标注图像的大规模数据集。
使用方法
DEAL-300K数据集为扩散模型图像篡改定位任务的研究与评估提供了标准化的基准平台。研究者可将该数据集划分为标准的训练集、验证集和测试集,用于训练和评估各类定位模型,特别是针对无掩码扩散编辑的检测算法。其提供的DEAL-E(仅编辑图像)、DEAL-A(仅真实图像)、DEAL-Full(混合图像)及DEAL-MB(多轮编辑)等多个子集,支持对模型在篡改定位精度、虚警率以及处理复杂多轮编辑等方面的能力进行细粒度分析。此外,该数据集也可用于模型的跨域泛化能力测试,例如在CoCoGlide、AutoSplice等外部基准上的性能验证。数据集的自动化标注流程本身也为构建更大规模的类似数据集提供了可复用的方法论。
背景与挑战
背景概述
随着人工智能生成内容(AIGC)技术的迅猛发展,尤其是扩散模型的兴起,数字图像编辑领域经历了根本性变革。传统专业编辑工具的门槛被打破,基于指令的扩散模型使得普通用户能够通过简单语言描述实现复杂的语义级图像操控。然而,这种便捷性也催生了难以辨识的局部伪造内容,对多媒体取证和数字内容真实性构成了严峻挑战。在此背景下,四川大学的研究团队于2021年推出了DEAL-300K数据集,旨在为扩散基图像篡改定位这一新兴研究方向提供大规模、高质量的基准数据。该数据集包含超过30万张带像素级标注的图像,其核心研究问题是精准定位由扩散模型编辑的图像区域,以应对日益增长的数字伪造威胁,并为相关取证算法的发展奠定坚实基础。
当前挑战
DEAL-300K数据集致力于解决扩散基图像篡改定位这一前沿领域的关键挑战。首要挑战在于,扩散模型生成的编辑区域通常与原始内容在语义和视觉上高度融合,缺乏传统手动篡改(如拼接、复制-移动)所遗留的明显痕迹或噪声异常,这使得定位任务极为困难。其次,在数据集构建过程中面临多重技术瓶颈:一是自动化生成高质量、语义连贯的编辑指令颇具难度,研究团队通过微调多模态大语言模型来应对;二是为无掩码扩散编辑结果获取精确的像素级标注异常耗时,传统图像差分方法会产生大量误报,团队为此设计了基于主动学习和变化检测的自动化标注流程以显著降低人工成本。这些挑战共同定义了该领域当前的研究前沿与难点。
常用场景
经典使用场景
在多媒体取证领域,扩散模型驱动的图像编辑技术因其高度逼真的局部篡改效果,对传统取证方法构成了严峻挑战。DEAL-300K数据集作为首个大规模、像素级标注的扩散编辑定位基准,其经典使用场景聚焦于训练和评估扩散图像篡改定位算法。该数据集通过多模态大语言模型自动生成编辑指令,并利用无掩码扩散编辑器与主动学习变化检测流程,构建了超过30万张带标注的图像对,为模型提供了学习扩散编辑独特语义与频率域痕迹的丰富样本。研究人员可基于此数据集开发能够精确定位编辑区域的新方法,推动扩散图像取证技术向更精准、更鲁棒的方向演进。
解决学术问题
DEAL-300K数据集有效解决了扩散模型时代下图像取证研究的核心难题。传统图像篡改定位方法主要针对手动编辑产生的数字噪声或JPEG痕迹等特定伪影,难以应对扩散编辑平滑融入原始内容、缺乏明显人工痕迹的特性。该数据集通过大规模、多样化的样本,为学术界提供了研究扩散编辑内在规律的数据基础,使得开发能够捕捉语义不一致性和频率域异常的定位模型成为可能。其意义在于弥合了AIGC技术快速发展与相应取证技术滞后之间的鸿沟,为构建可信的数字内容环境提供了关键的技术支撑,并推动了图像取证研究范式的转变。
实际应用
在实际应用层面,DEAL-300K数据集支撑的技术在多个关键领域展现出重要价值。在社交媒体内容审核中,基于该数据集训练的模型能够自动识别并定位经过扩散模型修饰或伪造的图像区域,助力平台打击虚假信息和深度伪造内容。新闻媒体行业可借助相关技术验证图像素材的真实性,维护新闻公信力。在司法取证领域,该技术为鉴定数字证据的完整性提供了科学工具。此外,在数字版权保护与艺术品真伪鉴定中,精准的编辑区域定位能力有助于追溯图像的修改历史,保障原创者权益。这些应用共同构筑了应对AIGC技术潜在滥用风险的第一道防线。
数据集最近研究
最新研究方向
在多媒体取证领域,随着扩散模型驱动的图像编辑技术日益普及,其生成内容的真实性验证成为研究焦点。DEAL-300K数据集的推出,为扩散图像篡改定位任务提供了大规模、高质量的基准资源,推动了该方向的前沿探索。当前研究热点集中于利用视觉基础模型结合多频率提示调优技术,以捕捉编辑区域在语义与频域上的细微异常,从而提升定位精度。这一进展不仅应对了AIGC时代下新型伪造手段的挑战,也为数字内容安全、虚假信息检测等实际应用奠定了关键技术基础,具有重要的学术价值与社会意义。
相关研究论文
  • 1
    DEAL-300K: Diffusion-based Editing Area Localization with a 300K-Scale Dataset and Frequency-Prompted Baseline四川大学 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作