DGM4+

Name: DGM4+
Creator: 麻省理工学院计算机科学与人工智能实验室
Published: 2025-09-30 18:24:21
License: 暂无描述

arXiv2025-09-30 更新2025-10-02 收录

下载链接：

https://github.com/Gaganx0/DGM4plus

下载链接

链接失效反馈

官方服务：

资源简介：

DGM4+数据集是为了解决现有数据集在处理全局场景不一致性方面的不足而创建的。它扩展了DGM4数据集，增加了5000个高质量样本，引入了前景-背景（FG-BG）不匹配及其与文本操纵的混合样本。数据集使用OpenAI的gpt-image模型生成人本主义新闻风格图像，其中真实的人物被放置在荒谬或不可能的背景下。数据集提供了三种形式的字幕：字面意思、文本属性和文本分割，产生了三种新的操纵类别：FG-BG、FG-BG+TA和FG-BG+TS。数据集还进行了严格的质量控制，包括可见面孔、感知哈希去重、OCR文本清除和现实标题长度。DGM4+数据集旨在加强多模态模型（如HAMMER）的评价，这些模型目前难以处理FG-BG不一致性。

The DGM4+ dataset was developed to address the shortcomings of existing datasets in handling global scene inconsistencies. It extends the original DGM4 dataset by adding 5,000 high-quality samples, and introduces foreground-background (FG-BG) mismatches and hybrid samples incorporating text manipulation. The dataset uses OpenAI’s GPT-image model to generate humanistic news-style images, where real human subjects are placed in absurd or impossible contexts. It offers three types of captions: literal meaning, text attributes, and text segmentation, leading to three new manipulation categories: FG-BG, FG-BG+TA, and FG-BG+TS. Strict quality control is conducted, including verification of visible human faces, perceptual hash deduplication, OCR text cleanup, and compliance with realistic caption lengths. The DGM4+ dataset aims to strengthen the evaluation of multimodal models such as HAMMER, which currently face challenges in handling FG-BG inconsistency.

提供机构：

麻省理工学院计算机科学与人工智能实验室

创建时间：

2025-09-30

搜集汇总

数据集介绍

构建方式

在生成模型技术迅猛发展的背景下，DGM4+数据集通过精心设计的合成流程构建而成。该流程采用OpenAI的gpt-image-1模型生成新闻风格图像，将真实人物置于荒诞或不可能的背景中，例如教师站在火星表面授课。图像生成后经过严格的质量控制，包括MTCNN人脸检测确保1-3个可见人脸、感知哈希去重处理以及基于OCR的文本擦除，有效消除了命名实体等表面线索干扰。同时通过GPT-4o-mini生成三种文本条件——字面描述、情感属性修改和文本替换，最终形成包含5,000个高质量样本的数据扩展。

特点

该数据集最显著的特点是突破了传统局部篡改的局限，引入了前景-背景不匹配的全局不一致性检测维度。通过构建FG-BG、FG-BG+TA和FG-BG+TS三类新型篡改类别，数据集要求模型具备场景级语义推理能力。所有样本均保持人类中心化的视觉真实性，同时确保背景与主体之间存在明显的物理或语义矛盾。这种设计有效模拟了现实世界中利用全局不一致性制造虚假叙事的传播模式，为检测模型提供了更具挑战性的评估基准。

使用方法

该数据集主要服务于多模态篡改检测模型的训练与评估。研究人员可将DGM4+与原始DGM4数据集结合使用，构建覆盖局部篡改和全局不一致性的完整测试环境。在模型训练过程中，需要特别关注前景与背景的语义兼容性分析，可通过对比学习或场景图推理等方法增强全局感知能力。评估时应采用二元检测、多标签分类和定位任务相结合的综合指标，重点考察模型对荒诞场景的识别精度及其在混合篡改场景下的鲁棒性表现。

背景与挑战

背景概述

随着生成式模型的飞速发展，多模态虚假信息的制作门槛显著降低，伪造图像与篡改文本的结合日益成为构建欺骗性叙事的主要手段。DGM4+数据集由Gagandeep Singh等研究者于2025年提出，作为DGM4基准的扩展，旨在弥补原有数据集仅关注局部篡改（如人脸替换、属性编辑）的局限性。该数据集通过引入前景-背景失配这一全局不一致性场景，聚焦于检测生成图像中主体与环境的语义矛盾，为多模态伪造检测领域提供了更贴近现实威胁的评估基准。

当前挑战

该数据集核心挑战在于解决全局场景一致性推理的检测难题：现有模型如HAMMER因训练数据局限于局部篡改类型，难以识别前景与背景间的物理逻辑矛盾；构建过程中需克服生成样本的语义控制难题，包括通过精准提示工程构建荒诞场景、严格过滤面部数量与文本残留，并利用感知哈希去重确保数据质量，最终在保持视觉连贯性的同时实现对抗性样本的规模化生成。

常用场景

衍生相关工作

基于DGM4+数据集的研究催生了多个创新性工作的发展。HAMMER模型的改进版本开始整合前景-背景分离模块，OpenCLIP等对比学习模型通过相似度差距分析揭示场景不一致性。同时，DINOv2的视觉特征距离度量方法为纯视觉检测提供了新思路，而Qwen2-VL等大模型则尝试通过结构化提示提升全局推理能力。这些衍生工作共同推动着多模态伪造检测向更全面的场景理解方向发展。

数据集最近研究