OHR-Bench
收藏Hugging Face2024-12-14 更新2024-12-15 收录
下载链接:
https://huggingface.co/datasets/opendatalab/OHR-Bench
下载链接
链接失效反馈官方服务:
资源简介:
OHR-Bench数据集用于评估OCR对检索增强生成(RAG)的级联影响。它包含4000多页来自多个领域的非结构化PDF文件和问答数据集。每个PDF页面都有人工验证的结构化数据。数据集还包括带有OCR错误扰动的数据,分为语义噪声和格式噪声,并引入了轻度、中度和严重的扰动。此外,数据集提供了一个评估框架,用于评估OCR处理后的结构化数据和扰动数据对RAG的影响,包括检索、生成和整体性能。
创建时间:
2024-12-09
原始信息汇总
OHR-Bench 数据集概述
任务类别
- 问答(Question-Answering)
数据集概述
- PDF、结构化数据和问答数据集:包含4000+个来自不同领域的非结构化PDF页面,如教科书、法律、金融、报纸、手册和学术领域,以及从多模态文档元素中提取的问答数据集。每个PDF页面都配备了人工验证的结构化数据。
- 带有OCR错误的数据:为了深入分析OCR对RAG的影响,数据集引入了语义噪声(Semantic Noise)和格式噪声(Formatting Noise),并基于真实世界的OCR错误,提供了轻度、中度和重度扰动的数据。
- 评估框架:提供了一个RAG评估框架,用于评估OCR处理后的结构化数据和扰动数据对RAG的影响,包括检索、生成和整体性能。
评估结果
- 实验结果表明,基于管道的OCR解决方案表现最佳。Marker在所有OCR解决方案中实现了最佳的检索性能,而MinerU在生成和整体评估中占主导地位。
- 所有OCR解决方案都表现出性能下降。即使是最优的解决方案,在整体评估中EM@1和F1@1分别下降了1.9和2.93,检索和生成阶段的损失更大。
引用
@article{zhang2024ocr, title={OCR Hinders RAG: Evaluating the Cascading Impact of OCR on Retrieval-Augmented Generation}, author={Junyuan Zhang and Qintong Zhang and Bin Wang and Linke Ouyang and Zichen Wen and Ying Li and Ka-Ho Chow and Conghui He and Wentao Zhang}, journal={arXiv preprint arXiv:2412.02592}, year={2024} }
版权声明
- PDF文件收集自公开的在线渠道和社区用户贡献。不允许分发的内容已被移除。数据集仅用于研究目的,不得用于商业用途。如有版权问题,请联系OpenDataLab@pjlab.org.cn。
搜集汇总
数据集介绍

构建方式
OHR-Bench数据集的构建基于多种领域的不结构化PDF页面,涵盖教科书、法律、金融、报纸、手册和学术等多个领域,共计4000余页。每页PDF均配备了人工验证的结构化数据,确保数据质量。此外,数据集还引入了基于真实世界OCR错误的扰动数据,分为语义噪声和格式噪声,并根据扰动程度分为轻度、中度和重度,以深入分析OCR对检索增强生成(RAG)的级联影响。
使用方法
OHR-Bench数据集主要用于评估OCR对检索增强生成(RAG)系统的级联影响。用户可以通过提供的评估框架,对OCR处理后的结构化数据和扰动数据进行深入分析,评估其在检索、生成和整体性能上的表现。数据集的PDF文件和结构化数据可直接用于模型训练和测试,而扰动数据则可用于验证模型在面对OCR错误时的鲁棒性。
背景与挑战
背景概述
OHR-Bench数据集由Junyuan Zhang等研究人员于2024年创建,旨在评估光学字符识别(OCR)对检索增强生成(RAG)系统的级联影响。该数据集涵盖了来自多个领域(如教科书、法律、金融、报纸、手册和学术界)的4000多页非结构化PDF文档,并配备了人工验证的结构化数据。OHR-Bench不仅提供了原始数据,还引入了基于真实OCR错误的语义噪声和格式噪声,以模拟不同程度的OCR错误。该数据集的构建旨在深入分析OCR对RAG系统在检索、生成和整体性能上的影响,推动OCR与RAG结合应用的研究进展。
当前挑战
OHR-Bench数据集面临的主要挑战包括:首先,如何准确模拟真实世界中OCR错误对RAG系统的影响,特别是在语义和格式噪声的引入上。其次,构建过程中需要处理大量非结构化PDF文档,并确保其结构化数据的准确性和一致性。此外,评估框架的设计也面临挑战,需全面衡量OCR处理后的数据对RAG系统在检索、生成和整体性能上的影响。最后,如何在不同OCR解决方案中找到最佳的性能平衡,以应对实际应用中的复杂场景,也是该数据集需要解决的关键问题。
常用场景
经典使用场景
OHR-Bench数据集的经典使用场景主要集中在评估光学字符识别(OCR)对检索增强生成(RAG)系统的级联影响。该数据集通过提供4000多个来自不同领域的非结构化PDF页面,以及与之对应的结构化数据和问答数据集,帮助研究者深入分析OCR错误对RAG系统在检索、生成和整体性能上的影响。通过引入不同程度的语义噪声和格式噪声,OHR-Bench为研究者提供了一个全面的评估框架,以测试现有OCR解决方案在实际RAG应用中的适用性。
解决学术问题
OHR-Bench数据集解决了OCR技术在RAG系统中引入的级联错误问题,特别是在检索和生成阶段。通过提供包含真实OCR错误的扰动数据,该数据集帮助学术界量化OCR错误对RAG系统性能的影响,从而推动OCR技术的改进和优化。此外,OHR-Bench还为研究者提供了一个标准化的评估框架,使得不同OCR解决方案的性能可以进行公平比较,进一步推动了OCR与RAG结合领域的研究进展。
实际应用
在实际应用中,OHR-Bench数据集可用于优化OCR技术在RAG系统中的集成,特别是在需要处理大量非结构化文档的场景,如法律文书、金融报告、学术论文等。通过分析OCR错误对检索和生成的影响,企业可以改进其OCR解决方案,提升RAG系统的整体性能。此外,该数据集还可用于开发更鲁棒的OCR模型,以应对实际应用中常见的语义和格式噪声,从而提高文档处理系统的自动化水平和准确性。
数据集最近研究
最新研究方向
在自然语言处理与信息检索领域,OHR-Bench数据集的最新研究聚焦于评估光学字符识别(OCR)对检索增强生成(RAG)系统的级联影响。该数据集通过引入真实世界中的OCR错误,模拟了语义噪声和格式噪声的不同程度扰动,从而深入分析OCR对RAG系统在检索、生成及整体性能上的影响。研究结果表明,尽管当前的OCR解决方案在某些方面表现优异,但所有方案均存在性能下降的问题,尤其是在检索和生成阶段。这一发现为优化OCR技术在实际RAG应用中的表现提供了重要依据,推动了多模态文档处理技术的进一步发展。
以上内容由遇见数据集搜集并总结生成



