MDSM

github2025-05-15 更新2025-05-16 收录

下载链接：

https://github.com/YcZhangSing/AMD

下载链接

链接失效反馈

官方服务：

资源简介：

我们提出了MLLM-Driven Synthetic Multimodal (MDSM)，这是一个大规模、语义对齐的多模态基准，支持假新闻检测和基础任务。

We propose MLLM-Driven Synthetic Multimodal (MDSM), a large-scale, semantically aligned multimodal benchmark that supports fake news detection and foundational tasks.

创建时间：

2025-05-14

原始信息汇总

数据集概述

基本信息

数据集名称: MLLM-Driven Synthetic Multimodal (MDSM)
研究主题: 多模态假新闻检测与定位
数据集规模: 大规模
文本来源: 多模态大语言模型（MLLM）生成的高保真文本
数据集状态: 审核中（Under Review）

数据集内容

数据类型: 多模态数据（图像+文本）
标注信息:
- 图像真实性标签（fake_cls）
- 伪造图像区域框（fake_image_box）
- 人脸检测框（mtcnn_boxes）
示例数据格式: json { "id": 1556711, "image": "image1.jpg", "text": "your text1", "fake_cls": "orig", "fake_image_box": [], "mtcnn_boxes": [[113,27,208,165], [436,56,491,124]] }

数据集获取

主数据集: MDSM Dataset
辅助数据集: DGM4 Dataset

发布时间线

2025-05-15: 发布AMD (v1)模型数据集
2025-05-15: 开放AMD代码仓库

搜集汇总

数据集介绍

构建方式

在多媒体内容真实性验证领域，MDSM数据集通过多模态大语言模型(MLLM)构建了一套语义对齐的合成多模态基准。该数据集采用先进的文本生成技术，结合视觉上下文操纵手段，精心构建了包含高保真文本和对应图像的大规模样本。每个数据样本均经过严格的标注流程，不仅包含原始/伪造分类标签，还详细标注了图像中的人脸检测框和伪造区域坐标，为研究者提供了丰富的细粒度分析维度。

特点

作为面向虚假新闻检测与定位任务的专业数据集，MDSM展现出三大核心特征：其多模态特性实现了文本与图像的深度语义对齐，通过MLLM生成的叙事文本与视觉内容形成高度耦合；数据集规模庞大且覆盖多样化的伪造手法，包含人脸替换、文本篡改等典型伪造类型；标注体系设计科学，除基础的二分类标签外，还提供像素级的伪造区域定位信息，支持细粒度的可解释性研究。

使用方法

研究者可通过Kaggle平台获取MDSM数据集，其文件结构包含标准化的图像目录和JSON格式的标注文件。使用前需配置Python3.10环境并安装flash-attn等依赖项。数据集支持端到端的模型训练与测试，用户可通过修改train.sh和test.sh脚本中的路径参数快速启动实验流程。为提升研究效率，建议结合预训练的Florence-2基础模型进行迁移学习，数据集提供的多维度标注信息可灵活支持分类、检测等多种任务范式。

背景与挑战

背景概述

MDSM（MLLM-Driven Synthetic Multimodal）数据集是近年来多模态领域的重要研究成果，由研究团队于2025年5月正式发布。该数据集聚焦于虚假新闻检测与定位任务，通过大规模、语义对齐的多模态数据，为研究者提供了高保真文本与视觉内容相结合的基准测试平台。其核心研究问题在于解决多模态大语言模型（MLLM）生成的叙事与篡改视觉上下文之间的语义一致性挑战，为数字内容真实性验证领域开辟了新的研究方向。数据集构建过程中融合了Florence-2等先进模型的预训练知识，显著提升了多模态篡改检测的准确性与可解释性。

当前挑战

MDSM数据集面临的主要挑战体现在两个维度：在领域问题层面，如何有效区分MLLM生成的高质量合成内容与真实信息成为关键难题，特别是当视觉篡改痕迹与语义叙述高度吻合时，传统检测方法往往失效；在构建技术层面，确保文本-图像对的高保真语义对齐需要复杂的生成与验证流程，同时平衡数据规模与标注质量也面临巨大挑战。此外，跨模态篡改模式（如人脸替换与文本替换的组合）的细粒度标注，以及不同篡改类型在特征空间的区分度问题，都为数据集的构建提出了严格要求。

常用场景

经典使用场景

在多媒体信息处理领域，MDSM数据集为研究者提供了一个高质量的基准平台，用于探索多模态数据的语义对齐问题。该数据集通过结合高保真文本和视觉内容，支持虚假新闻检测和定位任务，成为验证多模态模型性能的重要工具。其丰富的标注信息和多样化的数据分布，使得研究者能够深入分析多模态数据中的语义一致性和不一致性。

解决学术问题

MDSM数据集有效解决了多模态学习中语义对齐的挑战，为虚假新闻检测提供了可靠的数据支持。通过提供大规模、高质量的多模态样本，该数据集帮助研究者开发更精确的检测算法，填补了传统方法在复杂场景下的性能不足。其引入的Artifact-aware Manipulation Diagnosis框架进一步推动了多模态模型在篡改分析领域的应用。

衍生相关工作

围绕MDSM数据集，研究者们开展了多项创新性工作。其中包括基于Florence-2模型的改进版本，以及针对特定领域优化的检测算法。这些工作不仅扩展了数据集的应用范围，还推动了多模态深度学习在信息安全领域的发展。相关成果为后续研究提供了宝贵的经验和技术积累。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集