MDSM
收藏github2025-05-15 更新2025-05-16 收录
下载链接:
https://github.com/YcZhangSing/AMD
下载链接
链接失效反馈官方服务:
资源简介:
我们提出了MLLM-Driven Synthetic Multimodal (MDSM),这是一个大规模、语义对齐的多模态基准,支持假新闻检测和基础任务。
We propose MLLM-Driven Synthetic Multimodal (MDSM), a large-scale, semantically aligned multimodal benchmark that supports fake news detection and foundational tasks.
创建时间:
2025-05-14
原始信息汇总
数据集概述
基本信息
- 数据集名称: MLLM-Driven Synthetic Multimodal (MDSM)
- 研究主题: 多模态假新闻检测与定位
- 数据集规模: 大规模
- 文本来源: 多模态大语言模型(MLLM)生成的高保真文本
- 数据集状态: 审核中(Under Review)
数据集内容
- 数据类型: 多模态数据(图像+文本)
- 标注信息:
- 图像真实性标签(fake_cls)
- 伪造图像区域框(fake_image_box)
- 人脸检测框(mtcnn_boxes)
- 示例数据格式: json { "id": 1556711, "image": "image1.jpg", "text": "your text1", "fake_cls": "orig", "fake_image_box": [], "mtcnn_boxes": [[113,27,208,165], [436,56,491,124]] }
数据集获取
- 主数据集: MDSM Dataset
- 辅助数据集: DGM4 Dataset
相关资源
- 预训练模型: Florence-2 base model
- 领域专用权重:
发布时间线
- 2025-05-15: 发布AMD (v1)模型数据集
- 2025-05-15: 开放AMD代码仓库
搜集汇总
数据集介绍

构建方式
在多媒体内容真实性验证领域,MDSM数据集通过多模态大语言模型(MLLM)构建了一套语义对齐的合成多模态基准。该数据集采用先进的文本生成技术,结合视觉上下文操纵手段,精心构建了包含高保真文本和对应图像的大规模样本。每个数据样本均经过严格的标注流程,不仅包含原始/伪造分类标签,还详细标注了图像中的人脸检测框和伪造区域坐标,为研究者提供了丰富的细粒度分析维度。
特点
作为面向虚假新闻检测与定位任务的专业数据集,MDSM展现出三大核心特征:其多模态特性实现了文本与图像的深度语义对齐,通过MLLM生成的叙事文本与视觉内容形成高度耦合;数据集规模庞大且覆盖多样化的伪造手法,包含人脸替换、文本篡改等典型伪造类型;标注体系设计科学,除基础的二分类标签外,还提供像素级的伪造区域定位信息,支持细粒度的可解释性研究。
使用方法
研究者可通过Kaggle平台获取MDSM数据集,其文件结构包含标准化的图像目录和JSON格式的标注文件。使用前需配置Python3.10环境并安装flash-attn等依赖项。数据集支持端到端的模型训练与测试,用户可通过修改train.sh和test.sh脚本中的路径参数快速启动实验流程。为提升研究效率,建议结合预训练的Florence-2基础模型进行迁移学习,数据集提供的多维度标注信息可灵活支持分类、检测等多种任务范式。
背景与挑战
背景概述
MDSM(MLLM-Driven Synthetic Multimodal)数据集是近年来多模态领域的重要研究成果,由研究团队于2025年5月正式发布。该数据集聚焦于虚假新闻检测与定位任务,通过大规模、语义对齐的多模态数据,为研究者提供了高保真文本与视觉内容相结合的基准测试平台。其核心研究问题在于解决多模态大语言模型(MLLM)生成的叙事与篡改视觉上下文之间的语义一致性挑战,为数字内容真实性验证领域开辟了新的研究方向。数据集构建过程中融合了Florence-2等先进模型的预训练知识,显著提升了多模态篡改检测的准确性与可解释性。
当前挑战
MDSM数据集面临的主要挑战体现在两个维度:在领域问题层面,如何有效区分MLLM生成的高质量合成内容与真实信息成为关键难题,特别是当视觉篡改痕迹与语义叙述高度吻合时,传统检测方法往往失效;在构建技术层面,确保文本-图像对的高保真语义对齐需要复杂的生成与验证流程,同时平衡数据规模与标注质量也面临巨大挑战。此外,跨模态篡改模式(如人脸替换与文本替换的组合)的细粒度标注,以及不同篡改类型在特征空间的区分度问题,都为数据集的构建提出了严格要求。
常用场景
经典使用场景
在多媒体信息处理领域,MDSM数据集为研究者提供了一个高质量的基准平台,用于探索多模态数据的语义对齐问题。该数据集通过结合高保真文本和视觉内容,支持虚假新闻检测和定位任务,成为验证多模态模型性能的重要工具。其丰富的标注信息和多样化的数据分布,使得研究者能够深入分析多模态数据中的语义一致性和不一致性。
解决学术问题
MDSM数据集有效解决了多模态学习中语义对齐的挑战,为虚假新闻检测提供了可靠的数据支持。通过提供大规模、高质量的多模态样本,该数据集帮助研究者开发更精确的检测算法,填补了传统方法在复杂场景下的性能不足。其引入的Artifact-aware Manipulation Diagnosis框架进一步推动了多模态模型在篡改分析领域的应用。
衍生相关工作
围绕MDSM数据集,研究者们开展了多项创新性工作。其中包括基于Florence-2模型的改进版本,以及针对特定领域优化的检测算法。这些工作不仅扩展了数据集的应用范围,还推动了多模态深度学习在信息安全领域的发展。相关成果为后续研究提供了宝贵的经验和技术积累。
以上内容由遇见数据集搜集并总结生成



