UniDoc-Bench

Name: UniDoc-Bench
Creator: Salesforce AI Research
Published: 2025-10-04 12:30:13
License: 暂无描述

arXiv2025-10-04 更新2025-10-08 收录

下载链接：

https://github.com/SalesforceAIResearch/UniDOC-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

UniDoc-Bench是一个统一的多模态检索增强生成（MM-RAG）基准测试，由Salesforce AI Research创建。该数据集包含来自8个领域的70,000个真实PDF页面，数据集包括1,600个多模态问答对，涵盖事实检索、比较、摘要和逻辑推理查询。20%的问答对经过多位标注者和专家裁决验证，以确保数据质量。UniDoc-Bench支持在标准化候选库、提示和评估指标下，对四种范式进行苹果对苹果的比较：1）仅文本，2）仅图像，3）多模态文本-图像融合，4）多模态联合检索。该数据集旨在解决当前多模态检索增强生成评估基准测试的局限性，并促进更强大的MM-RAG系统的开发。

UniDoc-Bench is a unified multimodal retrieval-augmented generation (MM-RAG) benchmark created by Salesforce AI Research. This dataset contains 70,000 real PDF pages across 8 domains, and includes 1,600 multimodal question-answer (QA) pairs covering factual retrieval, comparison, summarization, and logical reasoning queries. 20% of the QA pairs have been validated by multiple annotators and expert adjudication to ensure data quality. UniDoc-Bench enables head-to-head comparisons of four paradigms under standardized candidate pools, prompts, and evaluation metrics: 1) text-only, 2) image-only, 3) multimodal text-image fusion, 4) multimodal joint retrieval. This benchmark aims to address the limitations of current MM-RAG evaluation benchmarks and facilitate the development of more powerful MM-RAG systems.

提供机构：

Salesforce AI Research

创建时间：

2025-10-04

原始信息汇总

UNIDOC-BENCH 数据集概述

数据集简介

UNIDOC-BENCH是一个用于文档中心多模态检索增强生成（MM-RAG）的统一基准测试数据集。该数据集是首个基于8个领域70,000个真实世界PDF页面构建的大规模、现实性MM-RAG基准测试。

核心特征

数据规模

70,000个真实世界PDF页面，涵盖8个不同领域
1,600个多模态问答对，其中20%经过专家验证
四个查询类型：事实检索、比较、摘要和逻辑推理

领域覆盖

医疗保健
金融
法律
教育
能源
建筑
商业与制造
客户关系管理

主要组件

文档标注系统

自动化文档标注和分类
支持领域分类、语言检测、日期提取
模态识别（文本、图像、表格）
基于VLLM的多模态文档处理

数据集合成管道

从文档集合生成高质量问答对
知识图谱创建
质量过滤和相似性过滤
问题类型和难度平衡

基准实现

支持四种范式：

纯文本RAG
纯图像RAG
多模态文本-图像融合
多模态联合检索

评估框架

基于RAGAS指标的全面评估套件：

答案正确性
上下文精确度
上下文召回率
忠实度
答案相关性

性能洞察

多模态文本-图像融合RAG系统持续优于单模态和联合多模态嵌入检索
单独的文本或图像不足以实现最佳文档理解
当前多模态嵌入在复杂文档中心任务中仍然不足

数据获取

完整数据集：https://drive.google.com/drive/folders/16_AOTe9chDVPOO-qogszQdZfSFZ77t1O?usp=drive_link
Hugging Face数据集：https://huggingface.co/datasets/Salesforce/UniDoc-Bench

许可证

知识共享署名-非商业性4.0国际许可证（CC-BY-NC 4.0）

重要使用说明

该数据集使用GPT-4.1生成，不得用于开发与OpenAI竞争的模型

引用

bibtex @article{peng2025unidoc, title={UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG}, author={Peng, Xiangyu and Qin, Can and Chen, Zeyuan and Xu, Ran and Xiong, Caiming and Wu, Chien-Sheng}, journal={arXiv preprint arXiv:2510.03663}, year={2025} }

搜集汇总

数据集介绍

构建方式

在文档智能研究领域，构建高质量多模态基准数据集面临严峻挑战。UniDoc-Bench通过精心设计的流水线从真实世界PDF文档中提取知识，首先对PDFA语料库进行领域分类与质量筛选，保留金融、法律、医疗等8个核心领域的7万页文档。随后采用多模态解析技术将文档解构为文本块、表格和图像三种模态，并构建跨文档知识图谱以建立实体关联。基于链接的跨模态证据，通过精心设计的提示模板生成涵盖事实检索、比较分析、摘要生成和逻辑推理四类任务的1600对问答数据，其中20%经过多位标注者与专家仲裁的双重验证，确保数据质量与可靠性。

特点

该数据集在文档智能评估领域展现出显著特色，其核心优势在于构建了统一的多模态评估框架。数据集涵盖文本、图表和图像三种模态内容，支持文本检索、图像检索、多模态融合检索和联合检索四种范式的公平比较。每个问题平均需要2.15个证据项才能完整回答，体现了真实场景中多源信息整合的复杂性。数据分布经过精心平衡，800个单模态与800个多模态问题均匀分布，四类问题类型和四种答案类型均保持合理配比。特别值得注意的是，数据集提供了高度相关的知识库环境，模拟了真实文档检索场景，为全面评估多模态检索增强生成系统提供了理想测试平台。

使用方法

在文档智能系统评估实践中，该数据集支持端到端的多模态检索增强生成性能评测。研究者可基于统一的知识库和候选池，使用固定top-k设置和标准化提示模板，对不同类型的RAG系统进行公平比较。评估指标涵盖检索阶段的召回率与精确度，以及生成阶段的答案完整性与事实一致性。具体实施时，系统需同时处理文本块和图像格式的文档页面，通过向量检索获取相关证据后，交由多模态大语言模型生成最终答案。数据集特别支持跨模态检索策略的对比分析，包括单独使用文本或图像嵌入的检索方式，以及融合两种模态的联合检索方法，为理解不同模态在文档理解中的互补作用提供实证依据。

背景与挑战

背景概述

随着多模态检索增强生成（MM-RAG）技术在文档智能领域的快速发展，Salesforce AI Research团队于2025年10月正式发布UniDoc-Bench基准数据集。该数据集从8个核心领域（金融、法律、医疗等）的7万页真实PDF文档中构建，包含1600组经过人工验证的多模态问答对，涵盖事实检索、比较分析、摘要生成与逻辑推理四类任务。其创新性在于首次实现了文本检索、图像检索、多模态融合检索与联合检索四种范式的公平对比，为评估文档中心的多模态RAG系统提供了标准化测试平台。

当前挑战

该数据集致力于解决文档中心多模态RAG系统的核心挑战：现有基准普遍存在模态覆盖不全、评估维度单一等问题。构建过程中面临双重挑战：在领域问题层面，需精准提取并关联文本、表格与图像中的证据链，确保多模态信息的完整性；在技术实现层面，需设计跨模态知识图谱构建流程，并通过多轮人工验证保证问答对的事实性与完备性，最终实现多跳推理与跨文档引用的复杂查询支持。

常用场景

经典使用场景

在文档智能研究领域，UniDoc-Bench作为首个大规模真实场景的多模态检索增强生成基准，其经典应用体现在系统评估文本检索、图像检索以及多模态融合策略的性能差异。该数据集通过构建包含文本、表格和图像的70k真实PDF页面，支持研究者对四种检索范式进行公平比较，为多模态文档理解提供了标准化的实验平台。

衍生相关工作

基于UniDoc-Bench的评估框架，衍生出多模态嵌入优化、跨模态对齐增强等系列经典研究。GME模型通过统一嵌入空间实现文本-图像联合检索，ViDoRAG引入多智能体架构处理复杂跨模态查询，Routing-based方法则探索了动态模态选择机制。这些工作共同推动了多模态检索在文档理解、视觉问答等方向的纵深发展。

数据集最近研究