InduOCRBench

github2026-05-08 更新2026-05-09 收录

下载链接：

https://github.com/Qihoo360/InduOCRBench

下载链接

链接失效反馈

官方服务：

资源简介：

InduOCRBench是一个用于工业RAG系统的OCR基准数据集，涵盖了11种在真实企业工作流程中观察到的具有挑战性的文档类型。它解决了传统字符级OCR指标与实际下游RAG效用之间的差距，从转录保真度和端到端检索性能两个方面评估OCR的鲁棒性。

InduOCRBench is an OCR benchmark dataset tailored for industrial RAG systems, covering 11 categories of challenging document types observed in real enterprise workflows. It addresses the gap between traditional character-level OCR metrics and actual downstream RAG utility, evaluating the robustness of OCR from two perspectives: transcription fidelity and end-to-end retrieval performance.

创建时间：

2026-05-08

原始信息汇总

InduOCRBench 数据集概述

基本信息

InduOCRBench 是一个专注于工业 RAG（检索增强生成）系统的 OCR 基准数据集，覆盖了企业实际工作流中常见的 11 种具有挑战性的文档类型。

发布机构：Qihoo360
论文：arXiv 2605.00911（已被 ACL 2026 Industry Track 接收）
数据集地址：Hugging Face | https://huggingface.co/datasets/qihoo360/InduOCRBench

核心特点

真实场景：数据从覆盖 12 个行业的 10,000 份文档中采样
规模与多样性：包含 570 个 PDF 文档和 3,402 页，涵盖 11 种挑战类型 + 1 种常规类别
高质量标注：细粒度混合 Markdown 标注（Markdown + HTML 表格 + LaTeX 公式 + 样式标签），通过 3 阶段人工循环质量控制，准确率达 98%
双轨评估：OCR 保真度（字符/结构指标）和 RAG 影响（端到端检索 + 生成准确率）

数据集统计

统计项	数值
文档总数	570
总页数	3,402
涵盖行业	11 种挑战类型 + 1 种常规
RAG 评估问答对	2,071
标注格式	混合 Markdown

11 种挑战文档类型

ComplexBackground（复杂背景）
HighPixel（高像素）
UltraLong（超长文档）
MultiColumn（多列）
UltraWide（超宽文档）
HistoryBooks（历史书籍）
Handwriting（手写体）
MultiFont（多字体）
VisualStyle（视觉样式）
Watermark（水印）
CrosspageTable（跨页表格）

数据集结构

InduOCRBench/ ├── ocr_data/ │ ├── pdf.zip # 原始 PDF 文档（570 个文件，3402 页） │ ├── md.zip # [推荐] OCR 评估的标准 Ground Truth Markdown │ └── md_original.zip # 保留所有视觉样式标签的完整保真度标注 │ ├── RAG_eval/ │ ├── QA_pairs.jsonl # RAG 流水线评估的问答对 │ └── doc_md/ # QA_pairs.jsonl 引用的 Ground Truth Markdown 文件 │ ├── README.md └── README_zh-CN.md

md_original：保留所有视觉样式标签（如字体、颜色、对齐方式、布局）的完整保真度 Markdown 标注，适用于需要高保真文档重建的研究
md：仅包含文本内容的去样式 Markdown 标注，作为 OCR 评估的标准 Ground Truth
doc_md：用于 RAG 构建的混合 Markdown 标注，为 VisualStyle 文档保留样式信息，其他文档类型移除样式，作为 RAG 索引和 QA 评估的标准 Ground Truth

OCR 评估

评估指标

采用 OmniDocBench 的 md2md 方法进行评估，包括：

Overall（总体）
Text EDS（文本编辑距离相似度）
Formula CDM（公式内容相似度）
Table TEDS（表格编辑距离相似度）
Table TEDS-S（表格结构编辑距离相似度）
Read Order EDS（阅读顺序编辑距离相似度）

评估结果概览（Top 模型）

模型类型	方法	参数量	总体
专用 VLM	PaddleOCR-VL-1.5	0.9B	79.01
专用 VLM	PaddleOCR-VL	0.9B	78.24
通用 VLM	Gemini-2.5 Pro	-	74.53
专用 VLM	Logics-Parsing-v2	4B	75.71
流水线工具	Mineru2-pipeline	-	66.54

使用步骤

下载并解压数据：ocr_data/pdf.zip 和 ocr_data/md.zip
对 pdf 目录中的文档运行模型推理，生成 Markdown 格式的预测结果
使用评估脚本将预测结果与 md 目录下的 Ground Truth 进行比较

RAG 影响评估

评估数据

QA_pairs.jsonl：2,071 个问答对，覆盖所有 11 种文档挑战类型
doc_md/：用于 RAG 索引的 Ground Truth Markdown 文件

RAG 流水线配置

组件	设置
嵌入模型	BGE-M3
检索方式	稠密检索，Flat 索引，top-100
重排序	BGE-Rerank-V2-M3，top-10
生成模型	ChatGPT-5
分块策略	HTML 树结构，最大 256 tokens
评估框架	RAGAS（GPT-OSS-120B 作为评判者）

RAG 评估指标

Context Recall（上下文召回率）：衡量检索到的段落是否包含支持 Ground Truth 答案的证据
Answer Accuracy（答案准确率）：评估生成的答案相对于 Ground Truth 的正确性

关键 RAG 发现

文档类型	OCR 准确率	RAG 准确率	差距
VisualStyle	82.9%	52.8%	-30.1 个百分点（盲区）
CrosspageTbl	40.7%	63.8%	+23.1 个百分点（LLM 补偿）
UltraWide	28.1%	49.1%	双低（结构失败）
MultiFont	97.2%	97.5%	≈0（一致）

高 OCR 准确率并不保证强的 RAG 性能。例如 VisualStyle 文档，尽管字符级准确率达 82.9%，但 RAG 准确率仅为 52.8%，因为 OCR 去除了编码关键语义的视觉格式线索（如删除线、颜色强调）。

许可证

本项目采用开源许可证发布，数据仅供研究和学术用途。

引用

bibtex @misc{induocrbench, title={When Good OCR Is Not Enough: Benchmarking OCR Robustness for Retrieval-Augmented Generation}, author={Lin Sun and Wangdexian and Jingang Huang and Linglin Zhang and Change Jia and Zhengwei Cheng and Xiangzheng Zhang}, year={2026}, eprint={2605.00911}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2605.00911}, }

搜集汇总

数据集介绍

构建方式

在工业领域检索增强生成系统对文档理解的严苛需求下，InduOCRBench应运而生。该基准数据集从横跨12个行业的10,000份真实企业文档中精心采样，最终遴选出570份PDF文档，共计3,402页。为模拟实际工作流中的复杂场景，数据覆盖了11种具有挑战性的文档类型，如复杂背景、手写体、跨页表格等，并补充了一个常规类别。所有页面均采用精细的混合Markdown格式进行标注，融合了Markdown基础语法、HTML表格、LaTeX公式以及样式标签。为确保标注质量，数据集构建过程引入了三阶段人工校验循环机制，最终标注准确率高达98%。

特点

InduOCRBench的核心特质在于其双轨评估体系与对现实应用痛点的深刻洞察。一方面，它提供OCR保真度评估，从字符与结构层面衡量转录准确性；另一方面，它开创性地引入RAG影响评估，通过端到端的检索与生成精度，量化OCR质量对下游任务的制约。实验揭示了一个关键发现：在标准基准上近乎满分的模型在此基准上性能大幅滑坡，例如PP-StructureV3下降了26.4个百分点。更引人深思的是，高OCR精度并不必然导向优异的RAG性能，如VisualStyle类型文档在82.9%的OCR准确率下，RAG准确率仅为52.8%，暴露出视觉语义丢失的盲区。

使用方法

使用InduOCRBench进行评测时，研究者需首先从ocr_data目录中解压pdf.zip与md.zip文件，获取原始文档与标准答案。随后，运行目标OCR模型对PDF文档进行推理，生成Markdown格式的预测结果，并利用基于OmniDocBench的md2md评估脚本，将预测结果与md目录下的真实标注进行对比，计算保真度分数。对于RAG影响评估，则需加载RAG_eval/目录下的2,071个问答对与doc_md中的真实Markdown文件，参照FlashRAG框架搭建包含嵌入、检索、重排序与生成的管道，最终采用RAGAS框架以上下文召回率与答案准确率作为衡量指标，全面评判OCR对RAG效能的实际影响。

背景与挑战

背景概述

在检索增强生成（RAG）系统日益渗透至工业级文档处理的当下，传统光学字符识别（OCR）评测指标往往仅聚焦于字符级转录精度，却难以揭示其对下游RAG效能的真实影响。为弥合这一鸿沟，由奇虎360团队于2026年构建的InduOCRBench应运而生，其研究成果被ACL 2026 Industry Track收录。该基准测试从12个行业、10,000份真实企业文档中系统采样，汇聚了570份PDF文件、3,402个页面，涵盖11种极具挑战性的文档类型（如复杂背景、手写体、跨页表格等），并配备了细粒度的混合Markdown标注（融合HTML表格、LaTeX公式与样式标签），经三阶段人工校验确保了98%的标注准确率。InduOCRBench不仅评测OCR本身的转录保真度，更首创性地将OCR质量与端到端RAG检索及生成准确性进行关联分析，为工业级文档理解树立了全新标杆。

当前挑战

InduOCRBench直面多个层级的严峻挑战。在领域层面，现有模型在标准基准如OmniDocBench上表现近乎完美，但在该基准上PP-StructureV3性能骤降26.4个百分点，PaddleOCR-VL亦下降14.7个百分点，揭示出当前OCR系统在应对工业场景中多样布局、复杂背景、跨页结构及视觉样式时存在显著的泛化瓶颈。更为关键的是，高OCR准确率并不等价于优异的RAG性能：VisualStyle类型文档在字符级准确率达82.9%的情况下，RAG准确率仅52.8%，两者间高达30.1个百分点的鸿沟说明视觉样式信息（如删除线、颜色强调）对语义理解至关重要，而常规OCR会将其剥离。在构建过程中，团队面临从12个行业海量文档中筛选典型样本、设计涵盖11种挑战类型的标注体系、并确保混合Markdown格式能忠实记录结构与样式信息等多重困难，最终通过三轮人工质检攻克了标注一致性难题。

常用场景

经典使用场景

InduOCRBench作为面向工业级检索增强生成（RAG）系统的OCR基准测试，其最经典的使用场景在于评估OCR模型在真实企业工作流中处理复杂文档的鲁棒性。该基准涵盖了跨页表格、多栏布局、手写体、水印等11种极具挑战性的文档类型，并首创性地将OCR转录保真度与下游RAG的端到端检索性能进行联合评测。研究者可以在此框架下，不仅验证模型对字符和结构层面的还原能力，更能直接衡量OCR质量对RAG流水线中上下文召回率和答案准确率的实际影响，从而精准识别传统指标满分但RAG效能低下的“性能盲区”。

衍生相关工作

InduOCRBench的发布催生了若干具有影响力的后续研究。一方面，其双轨评估范式被多个文档理解基准借鉴，推动了OCR评测从单一转录指标向RAG效用导向的范式转型；另一方面，基于该基准发现的“视觉语义丢失”问题，研究者们相继提出了风格感知的OCR后处理算法，以及融合布局信息的混合Markdown表示方法。此外，该数据集揭示的OCR-RAG性能“盲区”直接启发了面向RAG的OCR模型鲁棒性增强工作，例如针对VisualStyle文档设计的视觉线索保留策略，以及针对超宽文档的结构补全技术，这些工作共同构成了文档智能领域从感知到认知的完整研究链条。

数据集最近研究