MMDocIR/MMDocRAG

Name: MMDocIR/MMDocRAG
Creator: MMDocIR
Published: 2025-05-28 15:30:53
License: 暂无描述

Hugging Face2025-05-28 更新2025-05-31 收录

下载链接：

https://hf-mirror.com/datasets/MMDocIR/MMDocRAG

下载链接

链接失效反馈

官方服务：

资源简介：

MMDocRAG是一个用于文档视觉问答的多模态数据集，包含了4055个专家标注的问答对，这些问题涉及多页文档，并包含文本和图像等多种模态的证据。数据集旨在评估多模态证据的选择和整合能力，提供了多种格式的数据文件，包括训练集和开发集，以及对应的JSON-line文件。每个问答对都包含了问题、候选答案、证据模态类型等信息。

MMDocRAG is a multimodal dataset for Document Visual Question Answering, which includes 4,055 expert-annotated QA pairs covering multi-page documents with evidence in both text and image modalities. The dataset is designed to evaluate the ability of multimodal evidence selection and integration, providing various data files in formats including training and development sets, as well as corresponding JSON-line files. Each QA pair contains the question, candidate answers, evidence modality types, and more.

提供机构：

MMDocIR

搜集汇总

数据集介绍

构建方式

在文档视觉问答领域，处理长篇幅多模态文档与实现跨模态推理的双重挑战，催生了对高质量基准数据的需求。MMDocRAG数据集通过专家标注方式构建，涵盖4,055个问答对，每个问答对均配备多页面、跨模态的证据链。数据采集自220份长文档，涵盖文本、图像及表格等多种模态，并采用JSON行格式存储，细致标注了文本引用与图像引用的候选列表，以及融合文本与视觉元素的多模态答案。

特点

该数据集的核心特征在于其全面覆盖多模态证据整合与选择，提供15至20个引用候选，支持对文本和图像引用的精细评估。数据集包含详尽的图像描述与页面布局标识，便于进行跨模态推理分析。其创新性评估指标专为衡量多模态引用选择而设计，能够有效揭示视觉信息在文档问答中的关键作用，为多模态检索增强生成系统提供了严谨的测试基准。

使用方法

使用MMDocRAG数据集时，研究人员可依据训练集、开发集与评估集的分割进行模型训练与性能验证。训练集遵循OpenAI消息格式，整合系统提示、用户输入与助理回复，适用于多模态生成任务的微调。开发集与评估集提供引用候选与黄金标准引用，便于评估模型在多模态证据选择与答案生成方面的能力。图像文件与原始PDF文档的配套提供，支持端到端的多模态文档处理流程实验。

背景与挑战

背景概述

文档视觉问答领域长期面临处理长篇幅多模态文档与实现跨模态推理的双重挑战。由Kuicai Dong、Yujing Chang等研究人员于2025年构建的MMDocRAG数据集，旨在为检索增强的多模态生成任务建立严谨的评估基准。该数据集包含4055个专家标注的问答对，涵盖多页面跨模态证据链，其核心研究问题聚焦于突破传统文本中心方法的局限，推动视觉信息与文本信息的深度融合。该数据集的发布为开发更鲁棒的多模态文档问答系统提供了关键基础设施，显著提升了领域内对复杂文档理解能力的评估维度。

当前挑战

在文档视觉问答领域，模型需克服从冗长多模态文档中精准定位并融合文本、图像、表格等异构信息的核心难题。MMDocRAG构建过程中，专家标注跨模态证据链面临巨大工作量与一致性维护的挑战，需设计精细的标注协议以确保多页面引用关系的准确性。同时，数据集创新性地引入了多模态引用选择评估指标，这要求设计能够同时处理文本引用与视觉元素交织的复杂答案生成范式，对模型架构与训练策略提出了前所未有的要求。

常用场景

经典使用场景

在文档视觉问答领域，处理长篇幅、多模态文档的检索与生成任务面临显著挑战。MMDocRAG数据集通过提供包含4055个专家标注问答对及跨模态证据链的基准，为评估检索增强的多模态生成模型提供了经典场景。该数据集常用于测试模型在整合文本、图像、表格等异构信息时的能力，特别是在多页面文档中定位并融合视觉与文本证据以生成准确答案。

实际应用

在实际应用中，MMDocRAG数据集支持构建智能文档处理系统，例如在金融、法律或医疗领域，帮助从业者从包含复杂图表和表格的长篇报告中快速提取关键信息。通过增强模型对多模态内容的理解与推理，该系统能够自动化回答基于文档的查询，提升信息检索的准确性和效率，从而优化工作流程并辅助决策制定。

衍生相关工作

围绕MMDocRAG数据集，已衍生出多项经典研究工作，特别是在检索增强生成和多模态融合方向。例如，基于该基准的大规模实验涵盖了60种语言/视觉模型和14种检索系统，深入分析了多模态证据处理的持续挑战。这些工作推动了开源模型在利用详细图像描述进行微调后的性能提升，并为后续开发更先进的跨模态文档问答架构奠定了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集