InduOCRBench
收藏InduOCRBench 数据集概述
基本信息
InduOCRBench 是一个专注于工业 RAG(检索增强生成)系统的 OCR 基准数据集,覆盖了企业实际工作流中常见的 11 种具有挑战性的文档类型。
- 发布机构:Qihoo360
- 论文:arXiv 2605.00911(已被 ACL 2026 Industry Track 接收)
- 数据集地址:Hugging Face | https://huggingface.co/datasets/qihoo360/InduOCRBench
核心特点
- 真实场景:数据从覆盖 12 个行业的 10,000 份文档中采样
- 规模与多样性:包含 570 个 PDF 文档和 3,402 页,涵盖 11 种挑战类型 + 1 种常规类别
- 高质量标注:细粒度混合 Markdown 标注(Markdown + HTML 表格 + LaTeX 公式 + 样式标签),通过 3 阶段人工循环质量控制,准确率达 98%
- 双轨评估:OCR 保真度(字符/结构指标)和 RAG 影响(端到端检索 + 生成准确率)
数据集统计
| 统计项 | 数值 |
|---|---|
| 文档总数 | 570 |
| 总页数 | 3,402 |
| 涵盖行业 | 11 种挑战类型 + 1 种常规 |
| RAG 评估问答对 | 2,071 |
| 标注格式 | 混合 Markdown |
11 种挑战文档类型
- ComplexBackground(复杂背景)
- HighPixel(高像素)
- UltraLong(超长文档)
- MultiColumn(多列)
- UltraWide(超宽文档)
- HistoryBooks(历史书籍)
- Handwriting(手写体)
- MultiFont(多字体)
- VisualStyle(视觉样式)
- Watermark(水印)
- CrosspageTable(跨页表格)
数据集结构
InduOCRBench/ ├── ocr_data/ │ ├── pdf.zip # 原始 PDF 文档(570 个文件,3402 页) │ ├── md.zip # [推荐] OCR 评估的标准 Ground Truth Markdown │ └── md_original.zip # 保留所有视觉样式标签的完整保真度标注 │ ├── RAG_eval/ │ ├── QA_pairs.jsonl # RAG 流水线评估的问答对 │ └── doc_md/ # QA_pairs.jsonl 引用的 Ground Truth Markdown 文件 │ ├── README.md └── README_zh-CN.md
- md_original:保留所有视觉样式标签(如字体、颜色、对齐方式、布局)的完整保真度 Markdown 标注,适用于需要高保真文档重建的研究
- md:仅包含文本内容的去样式 Markdown 标注,作为 OCR 评估的标准 Ground Truth
- doc_md:用于 RAG 构建的混合 Markdown 标注,为 VisualStyle 文档保留样式信息,其他文档类型移除样式,作为 RAG 索引和 QA 评估的标准 Ground Truth
OCR 评估
评估指标
采用 OmniDocBench 的 md2md 方法进行评估,包括:
- Overall(总体)
- Text EDS(文本编辑距离相似度)
- Formula CDM(公式内容相似度)
- Table TEDS(表格编辑距离相似度)
- Table TEDS-S(表格结构编辑距离相似度)
- Read Order EDS(阅读顺序编辑距离相似度)
评估结果概览(Top 模型)
| 模型类型 | 方法 | 参数量 | 总体 |
|---|---|---|---|
| 专用 VLM | PaddleOCR-VL-1.5 | 0.9B | 79.01 |
| 专用 VLM | PaddleOCR-VL | 0.9B | 78.24 |
| 通用 VLM | Gemini-2.5 Pro | - | 74.53 |
| 专用 VLM | Logics-Parsing-v2 | 4B | 75.71 |
| 流水线工具 | Mineru2-pipeline | - | 66.54 |
使用步骤
- 下载并解压数据:
ocr_data/pdf.zip和ocr_data/md.zip - 对
pdf目录中的文档运行模型推理,生成 Markdown 格式的预测结果 - 使用评估脚本将预测结果与
md目录下的 Ground Truth 进行比较
RAG 影响评估
评估数据
- QA_pairs.jsonl:2,071 个问答对,覆盖所有 11 种文档挑战类型
- doc_md/:用于 RAG 索引的 Ground Truth Markdown 文件
RAG 流水线配置
| 组件 | 设置 |
|---|---|
| 嵌入模型 | BGE-M3 |
| 检索方式 | 稠密检索,Flat 索引,top-100 |
| 重排序 | BGE-Rerank-V2-M3,top-10 |
| 生成模型 | ChatGPT-5 |
| 分块策略 | HTML 树结构,最大 256 tokens |
| 评估框架 | RAGAS(GPT-OSS-120B 作为评判者) |
RAG 评估指标
- Context Recall(上下文召回率):衡量检索到的段落是否包含支持 Ground Truth 答案的证据
- Answer Accuracy(答案准确率):评估生成的答案相对于 Ground Truth 的正确性
关键 RAG 发现
| 文档类型 | OCR 准确率 | RAG 准确率 | 差距 |
|---|---|---|---|
| VisualStyle | 82.9% | 52.8% | -30.1 个百分点(盲区) |
| CrosspageTbl | 40.7% | 63.8% | +23.1 个百分点(LLM 补偿) |
| UltraWide | 28.1% | 49.1% | 双低(结构失败) |
| MultiFont | 97.2% | 97.5% | ≈0(一致) |
高 OCR 准确率并不保证强的 RAG 性能。例如 VisualStyle 文档,尽管字符级准确率达 82.9%,但 RAG 准确率仅为 52.8%,因为 OCR 去除了编码关键语义的视觉格式线索(如删除线、颜色强调)。
许可证
本项目采用开源许可证发布,数据仅供研究和学术用途。
引用
bibtex @misc{induocrbench, title={When Good OCR Is Not Enough: Benchmarking OCR Robustness for Retrieval-Augmented Generation}, author={Lin Sun and Wangdexian and Jingang Huang and Linglin Zhang and Change Jia and Zhengwei Cheng and Xiangzheng Zhang}, year={2026}, eprint={2605.00911}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2605.00911}, }




