UniDoc-Bench
收藏arXiv2025-10-04 更新2025-10-08 收录
下载链接:
https://github.com/SalesforceAIResearch/UniDOC-Bench
下载链接
链接失效反馈官方服务:
资源简介:
UniDoc-Bench是一个统一的多模态检索增强生成(MM-RAG)基准测试,由Salesforce AI Research创建。该数据集包含来自8个领域的70,000个真实PDF页面,数据集包括1,600个多模态问答对,涵盖事实检索、比较、摘要和逻辑推理查询。20%的问答对经过多位标注者和专家裁决验证,以确保数据质量。UniDoc-Bench支持在标准化候选库、提示和评估指标下,对四种范式进行苹果对苹果的比较:1)仅文本,2)仅图像,3)多模态文本-图像融合,4)多模态联合检索。该数据集旨在解决当前多模态检索增强生成评估基准测试的局限性,并促进更强大的MM-RAG系统的开发。
UniDoc-Bench is a unified multimodal retrieval-augmented generation (MM-RAG) benchmark created by Salesforce AI Research. This dataset contains 70,000 real PDF pages across 8 domains, and includes 1,600 multimodal question-answer (QA) pairs covering factual retrieval, comparison, summarization, and logical reasoning queries. 20% of the QA pairs have been validated by multiple annotators and expert adjudication to ensure data quality. UniDoc-Bench enables head-to-head comparisons of four paradigms under standardized candidate pools, prompts, and evaluation metrics: 1) text-only, 2) image-only, 3) multimodal text-image fusion, 4) multimodal joint retrieval. This benchmark aims to address the limitations of current MM-RAG evaluation benchmarks and facilitate the development of more powerful MM-RAG systems.
提供机构:
Salesforce AI Research
创建时间:
2025-10-04
原始信息汇总
UNIDOC-BENCH 数据集概述
数据集简介
UNIDOC-BENCH是一个用于文档中心多模态检索增强生成(MM-RAG)的统一基准测试数据集。该数据集是首个基于8个领域70,000个真实世界PDF页面构建的大规模、现实性MM-RAG基准测试。
核心特征
数据规模
- 70,000个真实世界PDF页面,涵盖8个不同领域
- 1,600个多模态问答对,其中20%经过专家验证
- 四个查询类型:事实检索、比较、摘要和逻辑推理
领域覆盖
- 医疗保健
- 金融
- 法律
- 教育
- 能源
- 建筑
- 商业与制造
- 客户关系管理
主要组件
文档标注系统
- 自动化文档标注和分类
- 支持领域分类、语言检测、日期提取
- 模态识别(文本、图像、表格)
- 基于VLLM的多模态文档处理
数据集合成管道
- 从文档集合生成高质量问答对
- 知识图谱创建
- 质量过滤和相似性过滤
- 问题类型和难度平衡
基准实现
支持四种范式:
- 纯文本RAG
- 纯图像RAG
- 多模态文本-图像融合
- 多模态联合检索
评估框架
基于RAGAS指标的全面评估套件:
- 答案正确性
- 上下文精确度
- 上下文召回率
- 忠实度
- 答案相关性
性能洞察
- 多模态文本-图像融合RAG系统持续优于单模态和联合多模态嵌入检索
- 单独的文本或图像不足以实现最佳文档理解
- 当前多模态嵌入在复杂文档中心任务中仍然不足
数据获取
- 完整数据集:https://drive.google.com/drive/folders/16_AOTe9chDVPOO-qogszQdZfSFZ77t1O?usp=drive_link
- Hugging Face数据集:https://huggingface.co/datasets/Salesforce/UniDoc-Bench
许可证
- 知识共享署名-非商业性4.0国际许可证(CC-BY-NC 4.0)
重要使用说明
- 该数据集使用GPT-4.1生成,不得用于开发与OpenAI竞争的模型
引用
bibtex @article{peng2025unidoc, title={UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG}, author={Peng, Xiangyu and Qin, Can and Chen, Zeyuan and Xu, Ran and Xiong, Caiming and Wu, Chien-Sheng}, journal={arXiv preprint arXiv:2510.03663}, year={2025} }
搜集汇总
数据集介绍

构建方式
在文档智能研究领域,构建高质量多模态基准数据集面临严峻挑战。UniDoc-Bench通过精心设计的流水线从真实世界PDF文档中提取知识,首先对PDFA语料库进行领域分类与质量筛选,保留金融、法律、医疗等8个核心领域的7万页文档。随后采用多模态解析技术将文档解构为文本块、表格和图像三种模态,并构建跨文档知识图谱以建立实体关联。基于链接的跨模态证据,通过精心设计的提示模板生成涵盖事实检索、比较分析、摘要生成和逻辑推理四类任务的1600对问答数据,其中20%经过多位标注者与专家仲裁的双重验证,确保数据质量与可靠性。
特点
该数据集在文档智能评估领域展现出显著特色,其核心优势在于构建了统一的多模态评估框架。数据集涵盖文本、图表和图像三种模态内容,支持文本检索、图像检索、多模态融合检索和联合检索四种范式的公平比较。每个问题平均需要2.15个证据项才能完整回答,体现了真实场景中多源信息整合的复杂性。数据分布经过精心平衡,800个单模态与800个多模态问题均匀分布,四类问题类型和四种答案类型均保持合理配比。特别值得注意的是,数据集提供了高度相关的知识库环境,模拟了真实文档检索场景,为全面评估多模态检索增强生成系统提供了理想测试平台。
使用方法
在文档智能系统评估实践中,该数据集支持端到端的多模态检索增强生成性能评测。研究者可基于统一的知识库和候选池,使用固定top-k设置和标准化提示模板,对不同类型的RAG系统进行公平比较。评估指标涵盖检索阶段的召回率与精确度,以及生成阶段的答案完整性与事实一致性。具体实施时,系统需同时处理文本块和图像格式的文档页面,通过向量检索获取相关证据后,交由多模态大语言模型生成最终答案。数据集特别支持跨模态检索策略的对比分析,包括单独使用文本或图像嵌入的检索方式,以及融合两种模态的联合检索方法,为理解不同模态在文档理解中的互补作用提供实证依据。
背景与挑战
背景概述
随着多模态检索增强生成(MM-RAG)技术在文档智能领域的快速发展,Salesforce AI Research团队于2025年10月正式发布UniDoc-Bench基准数据集。该数据集从8个核心领域(金融、法律、医疗等)的7万页真实PDF文档中构建,包含1600组经过人工验证的多模态问答对,涵盖事实检索、比较分析、摘要生成与逻辑推理四类任务。其创新性在于首次实现了文本检索、图像检索、多模态融合检索与联合检索四种范式的公平对比,为评估文档中心的多模态RAG系统提供了标准化测试平台。
当前挑战
该数据集致力于解决文档中心多模态RAG系统的核心挑战:现有基准普遍存在模态覆盖不全、评估维度单一等问题。构建过程中面临双重挑战:在领域问题层面,需精准提取并关联文本、表格与图像中的证据链,确保多模态信息的完整性;在技术实现层面,需设计跨模态知识图谱构建流程,并通过多轮人工验证保证问答对的事实性与完备性,最终实现多跳推理与跨文档引用的复杂查询支持。
常用场景
经典使用场景
在文档智能研究领域,UniDoc-Bench作为首个大规模真实场景的多模态检索增强生成基准,其经典应用体现在系统评估文本检索、图像检索以及多模态融合策略的性能差异。该数据集通过构建包含文本、表格和图像的70k真实PDF页面,支持研究者对四种检索范式进行公平比较,为多模态文档理解提供了标准化的实验平台。
衍生相关工作
基于UniDoc-Bench的评估框架,衍生出多模态嵌入优化、跨模态对齐增强等系列经典研究。GME模型通过统一嵌入空间实现文本-图像联合检索,ViDoRAG引入多智能体架构处理复杂跨模态查询,Routing-based方法则探索了动态模态选择机制。这些工作共同推动了多模态检索在文档理解、视觉问答等方向的纵深发展。
数据集最近研究
最新研究方向
在文档智能领域,UniDoc-Bench作为首个大规模多模态检索增强生成基准,正推动研究聚焦于跨模态融合策略的优化。前沿探索揭示,文本-图像分离检索与后期融合的范式显著优于单模态及联合多模态嵌入方法,尤其在处理图表解读和时空推理等视觉依赖型查询时展现出互补优势。当前热点集中于破解图像检索在实体识别和数值推理中的局限性,同时通过系统性失败模式分析为多模态嵌入模型的鲁棒性改进提供实证依据。这一基准的建立不仅统一了评估协议,更通过揭示视觉上下文与文本证据的协同机制,为构建更可靠的现实场景文档理解系统奠定了科学基础。
相关研究论文
- 1UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAGSalesforce AI Research · 2025年
以上内容由遇见数据集搜集并总结生成



