five

qihoo360/InduOCRBench

收藏
Hugging Face2026-05-08 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/qihoo360/InduOCRBench
下载链接
链接失效反馈
官方服务:
资源简介:
InduOCRBench是一个用于工业RAG系统的OCR基准测试数据集,涵盖了11种在现实企业工作流程中观察到的具有挑战性的文档类型。它解决了传统字符级OCR指标与实际下游RAG效用之间的差距,从转录保真度和端到端检索性能两个方面评估OCR的鲁棒性。数据集包含570个PDF文档和3,402页,来自12个行业,具有高质量的注释和多样化的挑战类型。

InduOCRBench is an OCR benchmark for industrial RAG systems, covering 11 challenging document types observed in real-world enterprise workflows. It addresses the gap between traditional character-level OCR metrics and actual downstream RAG utility, evaluating OCR robustness in terms of both transcription fidelity and end-to-end retrieval performance. The dataset contains 570 PDF documents and 3,402 pages from 12 industries, featuring high-quality annotations and diverse challenge types.
提供机构:
qihoo360
搜集汇总
数据集介绍
main_image_url
构建方式
InduOCRBench的构建源于对工业级检索增强生成系统中OCR鲁棒性的深度考量。该数据集从涵盖12个行业的10,000份真实企业文档中精心采样,最终筛选出570份PDF文档和3,402页内容,覆盖复杂背景、手写、跨页表格等11种高挑战性文档类型及1个常规类别。为确保标注质量,研究团队采用了一种细粒度的混合Markdown标注格式,整合了Markdown、HTML表格、LaTeX公式与样式标签,并通过三阶段人工校验机制,使得标注准确率高达98%。
特点
该数据集最显著的特征在于其双重评估轨道设计:一方面通过字符与结构级指标衡量OCR的转录保真度,另一方面通过端到端的检索与生成准确率评估OCR对下游RAG系统的实际影响。实验揭示了一个关键现象——高OCR精度并不等价于优秀的RAG性能,例如VisualStyle文档虽达到82.9%的OCR准确率,但其RAG准确率仅为52.8%,两者之间存在高达30.1个百分点的显著差距,表明视觉样式信息在语义编码中的缺失构成了上游瓶颈。
使用方法
使用InduOCRBench时,研究者需首先从ocr_data目录下载并解压pdf.zip与md.zip文件。随后,在PDF文档上运行OCR模型,并将预测结果以Markdown格式输出。评估阶段采用OmniDocBench提供的md2md指标,将预测结果与md目录下的标准标注进行比对。若要评估OCR对RAG管道的影响,则可利用RAG_eval目录中包含2,071个问答对的QA_pairs.jsonl文件,结合FlashRAG框架与BGE-M3嵌入及BGE-Rerank-V2-M3重排序模型,完成端到端的检索与生成性能评测。
背景与挑战
背景概述
InduOCRBench由奇虎360团队于2026年创建,论文已被ACL 2026 Industry Track录用。该基准专注于评估工业环境中文档检索增强生成(RAG)系统中OCR技术的鲁棒性,旨在弥合传统字符级OCR指标与下游RAG实际效用之间的鸿沟。其核心研究问题在于验证高OCR准确率是否必然带来优异的RAG性能。数据集覆盖12个行业、10,000份真实企业文档,包含570份PDF文件的3402页内容,涵盖11种具有挑战性的文档类型。通过引入双轨评估机制——OCR保真度与RAG影响,InduOCRBench揭示了OCR在复杂工业场景中的性能瓶颈,对推动OCR技术从实验室走向实际应用具有重要价值。
当前挑战
InduOCRBench面临的核心挑战包括:1)解决OCR在工业RAG系统中面临的真实性困境——传统基准上表现卓越的模型(如PP-StructureV3)在此数据集上得分骤降26.4点,表明现有OCR方法难以应对复杂背景、跨页表格、手写体等多样化工业文档,且高OCR保真度并不等价于下游RAG性能的增强,例如VisualStyle文档OCR准确率达82.9%而RAG准确率仅52.8%,揭示了信息丢失的盲点;2)构建过程中遇到的挑战:需从12个行业的10,000份文档中精心挑选并标注570份高质量样本,采用混合Markdown标注格式(融合Markdown、HTML表格、LaTeX公式与样式标签),并通过三阶段人工质检将准确率提升至98%,同时设置双轨评估体系以全面衡量OCR对RAG流水线的影响。
常用场景
经典使用场景
在工业级检索增强生成(RAG)系统的研发与评测中,InduOCRBench被广泛用作评估OCR引擎鲁棒性的核心基准。该基准涵盖了跨页表格、超宽文档、历史古籍、手写体等11类真实企业工作流中常见的挑战性文档类型,能够系统性地衡量OCR模型在转录保真度和结构完整性两方面的表现。研究者和工程师通常利用该数据集对其OCR模型进行多维度压力测试,从而获知模型在复杂文档场景下的真实能力边界。
实际应用
在实际产业场景中,InduOCRBench可助力金融、法律、医疗等领域的文档智能处理系统进行选型与优化。企业可借助该数据集评估不同OCR模型在发票、合同、报告等复杂文档上的表现,从而选择最适合其RAG管线的组件。此外,该基准还被用于自动化文档解析与知识库构建流程中,帮助提升检索准确率和问答系统的可信度,显著降低因OCR错误导致的信息误判风险。
衍生相关工作
围绕InduOCRBench衍生出一系列重要的后续工作。研究者基于该基准开发了针对OCR-RAG联合优化的新型训练框架,并提出了融合视觉标记的结构保真度增强算法。在学术界,该数据集催生了多篇探讨OCR与RAG交互机制的论文,并推动了OmniDocBench等评估工具的改进。此外,FlashRAG等主流开源框架已引入InduOCRBench作为标准评测模块,进一步扩大了其在文档理解与知识检索领域的影响力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作