qihoo360/InduOCRBench

Name: qihoo360/InduOCRBench
Creator: qihoo360
Published: 2026-05-08 08:25:33
License: 暂无描述

Hugging Face2026-05-08 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/qihoo360/InduOCRBench

下载链接

链接失效反馈

官方服务：

资源简介：

InduOCRBench是一个用于工业RAG系统的OCR基准测试数据集，涵盖了11种在现实企业工作流程中观察到的具有挑战性的文档类型。它解决了传统字符级OCR指标与实际下游RAG效用之间的差距，从转录保真度和端到端检索性能两个方面评估OCR的鲁棒性。数据集包含570个PDF文档和3,402页，来自12个行业，具有高质量的注释和多样化的挑战类型。

InduOCRBench is an OCR benchmark for industrial RAG systems, covering 11 challenging document types observed in real-world enterprise workflows. It addresses the gap between traditional character-level OCR metrics and actual downstream RAG utility, evaluating OCR robustness in terms of both transcription fidelity and end-to-end retrieval performance. The dataset contains 570 PDF documents and 3,402 pages from 12 industries, featuring high-quality annotations and diverse challenge types.

提供机构：

qihoo360

搜集汇总

数据集介绍

构建方式

InduOCRBench的构建源于对工业级检索增强生成系统中OCR鲁棒性的深度考量。该数据集从涵盖12个行业的10,000份真实企业文档中精心采样，最终筛选出570份PDF文档和3,402页内容，覆盖复杂背景、手写、跨页表格等11种高挑战性文档类型及1个常规类别。为确保标注质量，研究团队采用了一种细粒度的混合Markdown标注格式，整合了Markdown、HTML表格、LaTeX公式与样式标签，并通过三阶段人工校验机制，使得标注准确率高达98%。

特点

该数据集最显著的特征在于其双重评估轨道设计：一方面通过字符与结构级指标衡量OCR的转录保真度，另一方面通过端到端的检索与生成准确率评估OCR对下游RAG系统的实际影响。实验揭示了一个关键现象——高OCR精度并不等价于优秀的RAG性能，例如VisualStyle文档虽达到82.9%的OCR准确率，但其RAG准确率仅为52.8%，两者之间存在高达30.1个百分点的显著差距，表明视觉样式信息在语义编码中的缺失构成了上游瓶颈。

使用方法

使用InduOCRBench时，研究者需首先从ocr_data目录下载并解压pdf.zip与md.zip文件。随后，在PDF文档上运行OCR模型，并将预测结果以Markdown格式输出。评估阶段采用OmniDocBench提供的md2md指标，将预测结果与md目录下的标准标注进行比对。若要评估OCR对RAG管道的影响，则可利用RAG_eval目录中包含2,071个问答对的QA_pairs.jsonl文件，结合FlashRAG框架与BGE-M3嵌入及BGE-Rerank-V2-M3重排序模型，完成端到端的检索与生成性能评测。

背景与挑战

背景概述

InduOCRBench由奇虎360团队于2026年创建，论文已被ACL 2026 Industry Track录用。该基准专注于评估工业环境中文档检索增强生成（RAG）系统中OCR技术的鲁棒性，旨在弥合传统字符级OCR指标与下游RAG实际效用之间的鸿沟。其核心研究问题在于验证高OCR准确率是否必然带来优异的RAG性能。数据集覆盖12个行业、10,000份真实企业文档，包含570份PDF文件的3402页内容，涵盖11种具有挑战性的文档类型。通过引入双轨评估机制——OCR保真度与RAG影响，InduOCRBench揭示了OCR在复杂工业场景中的性能瓶颈，对推动OCR技术从实验室走向实际应用具有重要价值。

当前挑战

InduOCRBench面临的核心挑战包括：1）解决OCR在工业RAG系统中面临的真实性困境——传统基准上表现卓越的模型（如PP-StructureV3）在此数据集上得分骤降26.4点，表明现有OCR方法难以应对复杂背景、跨页表格、手写体等多样化工业文档，且高OCR保真度并不等价于下游RAG性能的增强，例如VisualStyle文档OCR准确率达82.9%而RAG准确率仅52.8%，揭示了信息丢失的盲点；2）构建过程中遇到的挑战：需从12个行业的10,000份文档中精心挑选并标注570份高质量样本，采用混合Markdown标注格式（融合Markdown、HTML表格、LaTeX公式与样式标签），并通过三阶段人工质检将准确率提升至98%，同时设置双轨评估体系以全面衡量OCR对RAG流水线的影响。

常用场景

经典使用场景

在工业级检索增强生成（RAG）系统的研发与评测中，InduOCRBench被广泛用作评估OCR引擎鲁棒性的核心基准。该基准涵盖了跨页表格、超宽文档、历史古籍、手写体等11类真实企业工作流中常见的挑战性文档类型，能够系统性地衡量OCR模型在转录保真度和结构完整性两方面的表现。研究者和工程师通常利用该数据集对其OCR模型进行多维度压力测试，从而获知模型在复杂文档场景下的真实能力边界。

实际应用

在实际产业场景中，InduOCRBench可助力金融、法律、医疗等领域的文档智能处理系统进行选型与优化。企业可借助该数据集评估不同OCR模型在发票、合同、报告等复杂文档上的表现，从而选择最适合其RAG管线的组件。此外，该基准还被用于自动化文档解析与知识库构建流程中，帮助提升检索准确率和问答系统的可信度，显著降低因OCR错误导致的信息误判风险。

衍生相关工作

围绕InduOCRBench衍生出一系列重要的后续工作。研究者基于该基准开发了针对OCR-RAG联合优化的新型训练框架，并提出了融合视觉标记的结构保真度增强算法。在学术界，该数据集催生了多篇探讨OCR与RAG交互机制的论文，并推动了OmniDocBench等评估工具的改进。此外，FlashRAG等主流开源框架已引入InduOCRBench作为标准评测模块，进一步扩大了其在文档理解与知识检索领域的影响力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集