UniDoc-Bench

github2025-10-11 更新2025-10-12 收录

下载链接：

https://github.com/SalesforceAIResearch/UniDoc-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于以文档为中心的多模态检索增强生成的统一基准。该项目提供了首个基于8个领域70,000个真实PDF页面构建的大规模、现实的多模态检索增强生成基准，包含文档标记、数据集合成、基线实现和评估框架工具。

A unified benchmark for document-centric multimodal retrieval-augmented generation. This project provides the first large-scale, real-world multimodal retrieval-augmented generation benchmark built from 70,000 real PDF pages across eight domains, alongside tools for document annotation, dataset synthesis, baseline implementation, and evaluation frameworks.

创建时间：

2025-10-07

原始信息汇总

UNIDOC-BENCH 数据集概述

数据集简介

UNIDOC-BENCH 是一个用于文档中心多模态检索增强生成（MM-RAG）的统一基准测试，提供首个基于70,000个真实世界PDF页面构建的大规模、现实基准测试，涵盖八个领域。

核心特性

数据集规模

70,000个真实世界PDF页面 跨越八个不同领域
1,600个多模态问答对 包含20%的专家验证
四个查询类型：事实检索、比较、摘要和逻辑推理

涵盖领域

医疗保健
金融
法律
教育
能源
建筑
商业与制造
客户关系管理

主要组件

文档标注系统

自动化文档标注和分类
多模态文档处理使用VLLM
支持单个PDF和批量处理
集成Qwen-VL模型

数据集合成管道

从文档集合生成高质量问答对
完整流程：知识图谱创建、QA合成、质量过滤、相似性过滤、平衡和重写
使用RAGAS框架

基准实现

支持四种范式：

仅文本RAG
仅图像RAG
多模态文本-图像融合
多模态联合检索

评估框架

使用RAGAS指标：

答案正确性
上下文精确度
上下文召回率
忠实度
答案相关性

数据集获取

完整数据集（70k PDF页面）因体积过大无法在GitHub托管，需从Hugging Face单独下载：

Hugging Face数据集地址：https://huggingface.co/datasets/Salesforce/UniDoc-Bench

压缩文件大小分布

领域	文件大小	PDF数量
医疗保健	1.19 GB	1,098
教育	816.9 MB	812
建筑	844.2 MB	736
能源	708.4 MB	766
客户关系管理	704.7 MB	776
法律	541.4 MB	909
商业与制造	504.9 MB	719
金融	360.8 MB	621

关键发现

多模态文本-图像融合RAG系统持续优于单模态和联合多模态嵌入检索
单独的文本或图像不足以实现最佳文档理解
当前多模态嵌入对于复杂文档中心任务仍然不足

许可证

本项目采用知识共享署名-非商业性使用4.0国际许可证（CC-BY-NC 4.0）

搜集汇总

数据集介绍

构建方式

在文档中心多模态检索增强生成研究领域，UniDoc-Bench通过系统化流程构建了首个大规模真实场景基准。该数据集从涵盖医疗、金融、法律等八大领域的七万页真实PDF文档出发，运用视觉语言模型进行文档标注与模态识别，继而采用知识图谱构建与RAGAS框架合成问答对。经过六阶段质量过滤流程，包括质量筛选、相似度去重与题型平衡，最终形成经专家验证的1600组多模态问答数据，确保了数据构建的科学性与严谨性。

使用方法

针对多模态检索增强生成系统的评估需求，UniDoc-Bench提供了完整的工具链与标准化流程。研究人员可通过文档标注模块处理PDF输入，利用问答合成流水线生成定制数据集，继而运行四种基线系统进行性能测试。评估框架集成RAGAS指标体系，涵盖答案正确性、上下文精度等多维度量。数据集支持从Hugging Face平台获取，配合详细的环境配置指南与示例代码，使得研究者能够快速开展文档理解模型的对比实验与失效模式分析。

背景与挑战

背景概述

文档理解领域正经历从单一模态向多模态融合的深刻变革。由Salesforce AI Research于2025年发布的UniDoc-Bench基准数据集，作为首个面向多模态检索增强生成的大规模评估平台，汇聚了来自医疗、金融、法律等八大领域的七万页真实PDF文档。该数据集通过构建1600组涵盖事实检索、比较分析和逻辑推理的多模态问答对，为评估文本与视觉信息协同理解机制提供了标准化实验环境，显著推动了跨模态文档智能研究的发展进程。

当前挑战

多模态文档理解面临双重挑战：在领域问题层面，现有系统难以有效融合文本、表格与图像中的异构证据，导致复杂推理任务中视觉上下文补充机制存在显著缺陷；在构建过程中，需克服真实文档的版式多样性带来的模态对齐困难，同时确保自动生成的问答对在专业领域保持语义准确性与逻辑一致性，这要求开发精密的文档标注流水线与多层次质量过滤机制。

常用场景

经典使用场景

在文档理解研究领域，UniDoc-Bench作为首个大规模多模态检索增强生成基准，主要应用于评估跨模态文档理解系统的性能表现。该数据集通过对来自医疗、金融、法律等八个专业领域的七万页真实PDF文档进行深度分析，构建了包含1600个多模态问答对的测试集，支持研究者系统比较文本检索、图像检索、多模态融合及联合检索四种范式的优劣。其精心设计的查询类型涵盖事实检索、比较分析、摘要生成和逻辑推理等复杂任务，为多模态文档理解研究提供了标准化的评估平台。

解决学术问题

该数据集有效解决了多模态文档理解研究中长期存在的评估标准缺失问题。通过构建统一的评测框架，研究者能够系统分析文本与视觉信息在文档理解中的互补关系，揭示当前多模态嵌入方法在复杂文档任务中的局限性。其提供的标准化候选池、提示词和评估指标，使得不同方法间的公平比较成为可能，为开发更鲁棒的多模态检索增强生成系统提供了理论依据和实践指导。

实际应用

在实际应用层面，UniDoc-Bench为构建专业领域的智能文档处理系统提供了重要支撑。在医疗诊断报告中，系统可同时解析文本描述与医学影像；金融分析场景下，能够整合表格数据与图表信息；法律文档处理时，可协同理解条文文本与证据图像。这种多模态理解能力显著提升了专业文档处理的准确性和效率，为行业智能化转型提供了技术保障。

数据集最近研究