MMDocRAG
收藏arXiv2025-05-22 更新2025-05-24 收录
下载链接:
https://mmdocrag.github.io/MMDocRAG/
下载链接
链接失效反馈官方服务:
资源简介:
MMDocRAG是一个全面的基准测试数据集,用于评估文档视觉问答中的多模态生成。数据集包括4,055个专家标注的问答对,每个问答对都伴随有跨页、跨模态的证据链。MMDocRAG引入了创新的评估指标,用于评估多模态引言选择,并支持文本与相关视觉元素交织的答案。数据集基于MMDocIR数据集,经过文档解析、证据选择、多模态答案生成和负引言选择等多个阶段构建而成。MMDocRAG旨在解决多模态文档问答中的证据检索、选择和整合等挑战,为开发更健壮的多模态文档问答系统提供测试平台和有价值的见解。
MMDocRAG is a comprehensive benchmark dataset for evaluating multimodal generation in document visual question answering. The dataset contains 4,055 expert-annotated question-answer pairs, each accompanied by cross-page and cross-modal evidence chains. MMDocRAG introduces innovative evaluation metrics for assessing multimodal evidence selection, and supports answers that interweave textual content and relevant visual elements. The dataset is constructed based on the MMDocIR dataset through multiple stages including document parsing, evidence selection, multimodal answer generation, and negative evidence selection. MMDocRAG aims to address the challenges of evidence retrieval, selection, and integration in multimodal document question answering, providing a testbed and valuable insights for developing more robust multimodal document question answering systems.
提供机构:
华为 Noah's Ark Lab
创建时间:
2025-05-22
原始信息汇总
MMDocRAG数据集概述
基本信息
核心特点
- 多模态支持: 支持文本、表格、图表和图像在回答中交织生成
- 评估创新: 引入细粒度引用选择评估和整体多模态生成质量评估
- 规模: 包含4,055个专家标注的QA对,基于222份长文档
- 领域覆盖: 涵盖10个不同领域
数据集构成
- 文档特征:
- 平均每份文档67页
- 约33,000单词
- 包含文本、表格、图表和图像
- 标注内容:
- 48,618个文本引用
- 32,071个图像引用
- 包含正样本和困难负样本
构建流程
- 文档解析与证据选择:
- 使用MinerU处理313份长文档
- 基于布局检测分割成语义连贯的引用
- 多模态答案生成:
- 精炼1,658个现有QA对
- 通过VLM标注生成新QA对
- 黄金引用标注:
- 自动插入黄金文本引用
- 专家验证引用准确性和连贯性
- 负样本增强:
- 添加困难负样本
- 构建15或20个引用的候选集
评估结果
- 评估规模: 60个最先进模型(LLMs和VLMs)
- 关键发现:
- GPT-4.1表现最佳(F1=70.2,答案质量得分4.14)
- 专有VLM在多模态输入下表现优于开源替代品
- VLM生成的文本比OCR提取的文本包含更丰富的多模态线索
- 引用选择准确度受位置影响显著
重要结论
- 当前最先进的VLM和LLM在多模态整合方面仍存在困难
- 针对性的微调对提升多模态文档理解能力至关重要
- 视觉检索器更擅长检索图像内容,文本检索器更擅长检索文本内容
搜集汇总
数据集介绍

构建方式
MMDocRAG数据集的构建采用了四阶段标注流程:文档解析与证据选择、多模态答案生成、黄金引用标注以及负样本增强。首先,利用LayoutLMv3进行文档布局检测,将文档内容划分为文本引用和图像引用。文本引用以纯文本格式存储,图像引用则通过OCR工具提取文本(OCR-text)或使用视觉语言模型生成详细描述(VLM-text)。随后,基于现有问答对和新生成的问答对,通过GPT-4o生成多模态答案草案,并经过专家修订确保答案的多模态内容(如图表、信息图)与文本逻辑一致。最后,通过混合黄金引用和噪声引用(高相似度但不相关的引用)增加任务难度,以评估模型区分相关与不相关信息的能力。
特点
MMDocRAG数据集包含4,055个专家标注的问答对,每个问答对均附带跨页面、跨模态的证据链。数据集覆盖10个不同领域的222份长文档,平均每份文档67页,包含丰富的多模态内容(文本、表格、图表等)。其独特之处在于支持多模态输出范式,允许在文本回答中插入相关图表,增强答案的可解释性和认知效果。此外,数据集引入了创新的评估指标,如引用选择F1分数和多模态回答质量评分,全面衡量模型在多模态证据选择与整合上的表现。
使用方法
使用MMDocRAG时,需将多模态引用以两种格式输入模型:纯文本序列(供LLM/VLM处理)或交错文本-图像序列(供VLM处理)。对于多模态答案生成,固定15或20个候选引用作为上下文,模型需从中选择相关证据并生成融合文本与视觉元素的回答。评估时,需计算引用选择的精确率、召回率和F1分数,并结合BLEU、ROUGE-L等自动指标及人工设计的五项质量标准(流畅性、引用质量、图文一致性、逻辑性、事实性)进行综合评判。数据集适用于训练和评估文档视觉问答(DocVQA)及检索增强生成(RAG)任务中的多模态理解与生成能力。
背景与挑战
背景概述
MMDocRAG是由华为诺亚方舟实验室的研究团队于2025年提出的一个多模态文档问答与检索增强生成基准数据集。该数据集包含4,055个专家标注的问答对,每个问题都配有跨页面、跨模态的证据链,涵盖文本、图像、表格和图表等多种模态。MMDocRAG旨在解决文档视觉问答(DocVQA)领域中处理长文档和多模态推理的挑战,为评估多模态证据选择和集成提供了全面的测试平台。该数据集的建立填补了现有基准在多模态检索增强生成评估方面的空白,对推动多模态文档理解领域的发展具有重要意义。
当前挑战
MMDocRAG面临的主要挑战包括:1)领域问题挑战:如何准确回答需要跨多页、多模态推理的复杂文档问题,特别是在处理视觉元素(如图表、表格)与文本信息的融合时;2)构建过程挑战:在数据标注阶段需要处理长文档的复杂性,确保多模态证据链的准确标注,以及设计包含噪声引文的负样本以增加任务难度。此外,评估多模态引文选择和生成答案的质量也面临标准化的挑战,需要开发新的评估指标来衡量模型在多模态集成和推理方面的性能。
常用场景
经典使用场景
MMDocRAG数据集在文档视觉问答(DocVQA)和检索增强生成(RAG)任务中具有广泛的应用场景。该数据集特别适用于处理多模态文档(如文本、图像、表格等)的复杂推理任务。其经典使用场景包括金融报告分析、技术手册理解、医疗记录解析等需要跨模态推理的领域。通过提供多页面、跨模态的证据链,MMDocRAG能够有效支持模型在长文档中定位关键信息并进行综合推理。
解决学术问题
MMDocRAG数据集解决了当前DocVQA/RAG研究中的两个核心学术问题:一是现有方法过度依赖纯文本而忽视视觉信息的问题,二是缺乏评估多模态证据选择和整合的鲁棒基准。通过引入4,055个专家标注的QA对及其多模态证据链,该数据集为研究者提供了衡量模型在多模态检索、证据选择和答案生成等方面性能的标准化测试平台。其创新的多模态引用评估指标和跨模态答案生成范式,显著推进了文档级多模态理解的研究进程。
衍生相关工作
MMDocRAG的发布催生了一系列相关研究工作,特别是在多模态RAG架构优化方面。基于该数据集,研究者提出了改进的视觉-语言模型预训练方法、跨模态注意力机制增强技术,以及针对长文档的层次化检索策略。数据集中的噪声引用设计和多粒度证据标注也为引文生成、事实核查等衍生任务提供了研究基础。此外,其评估框架已被多个后续工作采纳为标准测试方案,推动了文档智能领域的评估标准化进程。
以上内容由遇见数据集搜集并总结生成



