OHR-Bench

Hugging Face2024-12-14 更新2024-12-15 收录

下载链接：

https://huggingface.co/datasets/opendatalab/OHR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

OHR-Bench数据集用于评估OCR对检索增强生成（RAG）的级联影响。它包含4000多页来自多个领域的非结构化PDF文件和问答数据集。每个PDF页面都有人工验证的结构化数据。数据集还包括带有OCR错误扰动的数据，分为语义噪声和格式噪声，并引入了轻度、中度和严重的扰动。此外，数据集提供了一个评估框架，用于评估OCR处理后的结构化数据和扰动数据对RAG的影响，包括检索、生成和整体性能。

创建时间：

2024-12-09

原始信息汇总

OHR-Bench 数据集概述

任务类别

问答（Question-Answering）

数据集概述

PDF、结构化数据和问答数据集：包含4000+个来自不同领域的非结构化PDF页面，如教科书、法律、金融、报纸、手册和学术领域，以及从多模态文档元素中提取的问答数据集。每个PDF页面都配备了人工验证的结构化数据。
带有OCR错误的数据：为了深入分析OCR对RAG的影响，数据集引入了语义噪声（Semantic Noise）和格式噪声（Formatting Noise），并基于真实世界的OCR错误，提供了轻度、中度和重度扰动的数据。
评估框架：提供了一个RAG评估框架，用于评估OCR处理后的结构化数据和扰动数据对RAG的影响，包括检索、生成和整体性能。

评估结果

实验结果表明，基于管道的OCR解决方案表现最佳。Marker在所有OCR解决方案中实现了最佳的检索性能，而MinerU在生成和整体评估中占主导地位。
所有OCR解决方案都表现出性能下降。即使是最优的解决方案，在整体评估中EM@1和F1@1分别下降了1.9和2.93，检索和生成阶段的损失更大。

引用

@article{zhang2024ocr, title={OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation}, author={Junyuan Zhang and Qintong Zhang and Bin Wang and Linke Ouyang and Zichen Wen and Ying Li and Ka-Ho Chow and Conghui He and Wentao Zhang}, journal={arXiv preprint arXiv:2412.02592}, year={2024} }

版权声明

PDF文件收集自公开的在线渠道和社区用户贡献。不允许分发的内容已被移除。数据集仅用于研究目的，不得用于商业用途。如有版权问题，请联系OpenDataLab@pjlab.org.cn。

搜集汇总

数据集介绍

构建方式

OHR-Bench数据集的构建基于多种领域的不结构化PDF页面，涵盖教科书、法律、金融、报纸、手册和学术等多个领域，共计4000余页。每页PDF均配备了人工验证的结构化数据，确保数据质量。此外，数据集还引入了基于真实世界OCR错误的扰动数据，分为语义噪声和格式噪声，并根据扰动程度分为轻度、中度和重度，以深入分析OCR对检索增强生成（RAG）的级联影响。

使用方法

OHR-Bench数据集主要用于评估OCR对检索增强生成（RAG）系统的级联影响。用户可以通过提供的评估框架，对OCR处理后的结构化数据和扰动数据进行深入分析，评估其在检索、生成和整体性能上的表现。数据集的PDF文件和结构化数据可直接用于模型训练和测试，而扰动数据则可用于验证模型在面对OCR错误时的鲁棒性。

背景与挑战

背景概述

OHR-Bench数据集由Junyuan Zhang等研究人员于2024年创建，旨在评估光学字符识别（OCR）对检索增强生成（RAG）系统的级联影响。该数据集涵盖了来自多个领域（如教科书、法律、金融、报纸、手册和学术界）的4000多页非结构化PDF文档，并配备了人工验证的结构化数据。OHR-Bench不仅提供了原始数据，还引入了基于真实OCR错误的语义噪声和格式噪声，以模拟不同程度的OCR错误。该数据集的构建旨在深入分析OCR对RAG系统在检索、生成和整体性能上的影响，推动OCR与RAG结合应用的研究进展。

当前挑战

OHR-Bench数据集面临的主要挑战包括：首先，如何准确模拟真实世界中OCR错误对RAG系统的影响，特别是在语义和格式噪声的引入上。其次，构建过程中需要处理大量非结构化PDF文档，并确保其结构化数据的准确性和一致性。此外，评估框架的设计也面临挑战，需全面衡量OCR处理后的数据对RAG系统在检索、生成和整体性能上的影响。最后，如何在不同OCR解决方案中找到最佳的性能平衡，以应对实际应用中的复杂场景，也是该数据集需要解决的关键问题。

常用场景

经典使用场景

OHR-Bench数据集的经典使用场景主要集中在评估光学字符识别（OCR）对检索增强生成（RAG）系统的级联影响。该数据集通过提供4000多个来自不同领域的非结构化PDF页面，以及与之对应的结构化数据和问答数据集，帮助研究者深入分析OCR错误对RAG系统在检索、生成和整体性能上的影响。通过引入不同程度的语义噪声和格式噪声，OHR-Bench为研究者提供了一个全面的评估框架，以测试现有OCR解决方案在实际RAG应用中的适用性。

解决学术问题

OHR-Bench数据集解决了OCR技术在RAG系统中引入的级联错误问题，特别是在检索和生成阶段。通过提供包含真实OCR错误的扰动数据，该数据集帮助学术界量化OCR错误对RAG系统性能的影响，从而推动OCR技术的改进和优化。此外，OHR-Bench还为研究者提供了一个标准化的评估框架，使得不同OCR解决方案的性能可以进行公平比较，进一步推动了OCR与RAG结合领域的研究进展。

实际应用

在实际应用中，OHR-Bench数据集可用于优化OCR技术在RAG系统中的集成，特别是在需要处理大量非结构化文档的场景，如法律文书、金融报告、学术论文等。通过分析OCR错误对检索和生成的影响，企业可以改进其OCR解决方案，提升RAG系统的整体性能。此外，该数据集还可用于开发更鲁棒的OCR模型，以应对实际应用中常见的语义和格式噪声，从而提高文档处理系统的自动化水平和准确性。

数据集最近研究