five

InduOCRBench

收藏
github2026-05-08 更新2026-05-09 收录
下载链接:
https://github.com/Qihoo360/InduOCRBench
下载链接
链接失效反馈
官方服务:
资源简介:
InduOCRBench是一个用于工业RAG系统的OCR基准数据集,涵盖了11种在真实企业工作流程中观察到的具有挑战性的文档类型。它解决了传统字符级OCR指标与实际下游RAG效用之间的差距,从转录保真度和端到端检索性能两个方面评估OCR的鲁棒性。

InduOCRBench is an OCR benchmark dataset tailored for industrial RAG systems, covering 11 categories of challenging document types observed in real enterprise workflows. It addresses the gap between traditional character-level OCR metrics and actual downstream RAG utility, evaluating the robustness of OCR from two perspectives: transcription fidelity and end-to-end retrieval performance.
创建时间:
2026-05-08
原始信息汇总

InduOCRBench 数据集概述

基本信息

InduOCRBench 是一个专注于工业 RAG(检索增强生成)系统的 OCR 基准数据集,覆盖了企业实际工作流中常见的 11 种具有挑战性的文档类型。

  • 发布机构:Qihoo360
  • 论文:arXiv 2605.00911(已被 ACL 2026 Industry Track 接收)
  • 数据集地址:Hugging Face | https://huggingface.co/datasets/qihoo360/InduOCRBench

核心特点

  • 真实场景:数据从覆盖 12 个行业的 10,000 份文档中采样
  • 规模与多样性:包含 570 个 PDF 文档和 3,402 页,涵盖 11 种挑战类型 + 1 种常规类别
  • 高质量标注:细粒度混合 Markdown 标注(Markdown + HTML 表格 + LaTeX 公式 + 样式标签),通过 3 阶段人工循环质量控制,准确率达 98%
  • 双轨评估:OCR 保真度(字符/结构指标)和 RAG 影响(端到端检索 + 生成准确率)

数据集统计

统计项 数值
文档总数 570
总页数 3,402
涵盖行业 11 种挑战类型 + 1 种常规
RAG 评估问答对 2,071
标注格式 混合 Markdown

11 种挑战文档类型

  1. ComplexBackground(复杂背景)
  2. HighPixel(高像素)
  3. UltraLong(超长文档)
  4. MultiColumn(多列)
  5. UltraWide(超宽文档)
  6. HistoryBooks(历史书籍)
  7. Handwriting(手写体)
  8. MultiFont(多字体)
  9. VisualStyle(视觉样式)
  10. Watermark(水印)
  11. CrosspageTable(跨页表格)

数据集结构

InduOCRBench/ ├── ocr_data/ │ ├── pdf.zip # 原始 PDF 文档(570 个文件,3402 页) │ ├── md.zip # [推荐] OCR 评估的标准 Ground Truth Markdown │ └── md_original.zip # 保留所有视觉样式标签的完整保真度标注 │ ├── RAG_eval/ │ ├── QA_pairs.jsonl # RAG 流水线评估的问答对 │ └── doc_md/ # QA_pairs.jsonl 引用的 Ground Truth Markdown 文件 │ ├── README.md └── README_zh-CN.md

  • md_original:保留所有视觉样式标签(如字体、颜色、对齐方式、布局)的完整保真度 Markdown 标注,适用于需要高保真文档重建的研究
  • md:仅包含文本内容的去样式 Markdown 标注,作为 OCR 评估的标准 Ground Truth
  • doc_md:用于 RAG 构建的混合 Markdown 标注,为 VisualStyle 文档保留样式信息,其他文档类型移除样式,作为 RAG 索引和 QA 评估的标准 Ground Truth

OCR 评估

评估指标

采用 OmniDocBench 的 md2md 方法进行评估,包括:

  • Overall(总体)
  • Text EDS(文本编辑距离相似度)
  • Formula CDM(公式内容相似度)
  • Table TEDS(表格编辑距离相似度)
  • Table TEDS-S(表格结构编辑距离相似度)
  • Read Order EDS(阅读顺序编辑距离相似度)

评估结果概览(Top 模型)

模型类型 方法 参数量 总体
专用 VLM PaddleOCR-VL-1.5 0.9B 79.01
专用 VLM PaddleOCR-VL 0.9B 78.24
通用 VLM Gemini-2.5 Pro - 74.53
专用 VLM Logics-Parsing-v2 4B 75.71
流水线工具 Mineru2-pipeline - 66.54

使用步骤

  1. 下载并解压数据:ocr_data/pdf.zipocr_data/md.zip
  2. pdf 目录中的文档运行模型推理,生成 Markdown 格式的预测结果
  3. 使用评估脚本将预测结果与 md 目录下的 Ground Truth 进行比较

RAG 影响评估

评估数据

  • QA_pairs.jsonl:2,071 个问答对,覆盖所有 11 种文档挑战类型
  • doc_md/:用于 RAG 索引的 Ground Truth Markdown 文件

RAG 流水线配置

组件 设置
嵌入模型 BGE-M3
检索方式 稠密检索,Flat 索引,top-100
重排序 BGE-Rerank-V2-M3,top-10
生成模型 ChatGPT-5
分块策略 HTML 树结构,最大 256 tokens
评估框架 RAGAS(GPT-OSS-120B 作为评判者)

RAG 评估指标

  • Context Recall(上下文召回率):衡量检索到的段落是否包含支持 Ground Truth 答案的证据
  • Answer Accuracy(答案准确率):评估生成的答案相对于 Ground Truth 的正确性

关键 RAG 发现

文档类型 OCR 准确率 RAG 准确率 差距
VisualStyle 82.9% 52.8% -30.1 个百分点(盲区)
CrosspageTbl 40.7% 63.8% +23.1 个百分点(LLM 补偿)
UltraWide 28.1% 49.1% 双低(结构失败)
MultiFont 97.2% 97.5% ≈0(一致)

高 OCR 准确率并不保证强的 RAG 性能。例如 VisualStyle 文档,尽管字符级准确率达 82.9%,但 RAG 准确率仅为 52.8%,因为 OCR 去除了编码关键语义的视觉格式线索(如删除线、颜色强调)。

许可证

本项目采用开源许可证发布,数据仅供研究和学术用途。

引用

bibtex @misc{induocrbench, title={When Good OCR Is Not Enough: Benchmarking OCR Robustness for Retrieval-Augmented Generation}, author={Lin Sun and Wangdexian and Jingang Huang and Linglin Zhang and Change Jia and Zhengwei Cheng and Xiangzheng Zhang}, year={2026}, eprint={2605.00911}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2605.00911}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在工业领域检索增强生成系统对文档理解的严苛需求下,InduOCRBench应运而生。该基准数据集从横跨12个行业的10,000份真实企业文档中精心采样,最终遴选出570份PDF文档,共计3,402页。为模拟实际工作流中的复杂场景,数据覆盖了11种具有挑战性的文档类型,如复杂背景、手写体、跨页表格等,并补充了一个常规类别。所有页面均采用精细的混合Markdown格式进行标注,融合了Markdown基础语法、HTML表格、LaTeX公式以及样式标签。为确保标注质量,数据集构建过程引入了三阶段人工校验循环机制,最终标注准确率高达98%。
特点
InduOCRBench的核心特质在于其双轨评估体系与对现实应用痛点的深刻洞察。一方面,它提供OCR保真度评估,从字符与结构层面衡量转录准确性;另一方面,它开创性地引入RAG影响评估,通过端到端的检索与生成精度,量化OCR质量对下游任务的制约。实验揭示了一个关键发现:在标准基准上近乎满分的模型在此基准上性能大幅滑坡,例如PP-StructureV3下降了26.4个百分点。更引人深思的是,高OCR精度并不必然导向优异的RAG性能,如VisualStyle类型文档在82.9%的OCR准确率下,RAG准确率仅为52.8%,暴露出视觉语义丢失的盲区。
使用方法
使用InduOCRBench进行评测时,研究者需首先从ocr_data目录中解压pdf.zip与md.zip文件,获取原始文档与标准答案。随后,运行目标OCR模型对PDF文档进行推理,生成Markdown格式的预测结果,并利用基于OmniDocBench的md2md评估脚本,将预测结果与md目录下的真实标注进行对比,计算保真度分数。对于RAG影响评估,则需加载RAG_eval/目录下的2,071个问答对与doc_md中的真实Markdown文件,参照FlashRAG框架搭建包含嵌入、检索、重排序与生成的管道,最终采用RAGAS框架以上下文召回率与答案准确率作为衡量指标,全面评判OCR对RAG效能的实际影响。
背景与挑战
背景概述
在检索增强生成(RAG)系统日益渗透至工业级文档处理的当下,传统光学字符识别(OCR)评测指标往往仅聚焦于字符级转录精度,却难以揭示其对下游RAG效能的真实影响。为弥合这一鸿沟,由奇虎360团队于2026年构建的InduOCRBench应运而生,其研究成果被ACL 2026 Industry Track收录。该基准测试从12个行业、10,000份真实企业文档中系统采样,汇聚了570份PDF文件、3,402个页面,涵盖11种极具挑战性的文档类型(如复杂背景、手写体、跨页表格等),并配备了细粒度的混合Markdown标注(融合HTML表格、LaTeX公式与样式标签),经三阶段人工校验确保了98%的标注准确率。InduOCRBench不仅评测OCR本身的转录保真度,更首创性地将OCR质量与端到端RAG检索及生成准确性进行关联分析,为工业级文档理解树立了全新标杆。
当前挑战
InduOCRBench直面多个层级的严峻挑战。在领域层面,现有模型在标准基准如OmniDocBench上表现近乎完美,但在该基准上PP-StructureV3性能骤降26.4个百分点,PaddleOCR-VL亦下降14.7个百分点,揭示出当前OCR系统在应对工业场景中多样布局、复杂背景、跨页结构及视觉样式时存在显著的泛化瓶颈。更为关键的是,高OCR准确率并不等价于优异的RAG性能:VisualStyle类型文档在字符级准确率达82.9%的情况下,RAG准确率仅52.8%,两者间高达30.1个百分点的鸿沟说明视觉样式信息(如删除线、颜色强调)对语义理解至关重要,而常规OCR会将其剥离。在构建过程中,团队面临从12个行业海量文档中筛选典型样本、设计涵盖11种挑战类型的标注体系、并确保混合Markdown格式能忠实记录结构与样式信息等多重困难,最终通过三轮人工质检攻克了标注一致性难题。
常用场景
经典使用场景
InduOCRBench作为面向工业级检索增强生成(RAG)系统的OCR基准测试,其最经典的使用场景在于评估OCR模型在真实企业工作流中处理复杂文档的鲁棒性。该基准涵盖了跨页表格、多栏布局、手写体、水印等11种极具挑战性的文档类型,并首创性地将OCR转录保真度与下游RAG的端到端检索性能进行联合评测。研究者可以在此框架下,不仅验证模型对字符和结构层面的还原能力,更能直接衡量OCR质量对RAG流水线中上下文召回率和答案准确率的实际影响,从而精准识别传统指标满分但RAG效能低下的“性能盲区”。
衍生相关工作
InduOCRBench的发布催生了若干具有影响力的后续研究。一方面,其双轨评估范式被多个文档理解基准借鉴,推动了OCR评测从单一转录指标向RAG效用导向的范式转型;另一方面,基于该基准发现的“视觉语义丢失”问题,研究者们相继提出了风格感知的OCR后处理算法,以及融合布局信息的混合Markdown表示方法。此外,该数据集揭示的OCR-RAG性能“盲区”直接启发了面向RAG的OCR模型鲁棒性增强工作,例如针对VisualStyle文档设计的视觉线索保留策略,以及针对超宽文档的结构补全技术,这些工作共同构成了文档智能领域从感知到认知的完整研究链条。
数据集最近研究
最新研究方向
InduOCRBench的提出标志着工业文档OCR评估从单纯的字符精确度向检索增强生成(RAG)下游任务效用的范式转变。该基准覆盖了跨页表格、手写体、视觉样式等11类在企业真实流程中被长期忽视的挑战性文档类型,揭示了传统OCR指标与RAG实际表现之间的显著脱节——例如VisualStyle类文档虽达82.9%的字符准确率,但RAG准确率骤降至52.8%,暴露出视觉格式信息缺失对语义理解的致命打击。这一发现直指当前多模态大模型在工业RAG应用中的核心瓶颈,即高精度转录并不意味着下游检索生成的高质量,从而为未来模型向结构感知、语义保真方向进化提供了关键评测依据。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作