OHR-Bench

github2024-12-04 更新2024-12-06 收录

下载链接：

https://github.com/opendatalab/OHR-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

OHR-Bench是一个用于评估OCR对检索增强生成（RAG）的级联影响的基准数据集。它包括来自多个领域的4000多个非结构化PDF页面，以及从多模态文档元素中提取的Q&A数据集。每个PDF页面都配备了人工验证的结构化数据，并且数据集还包括了基于真实OCR错误的扰动数据，以进行深入的OCR影响分析。

OHR-Bench is a benchmark dataset developed to evaluate the cascading impact of OCR on Retrieval-Augmented Generation (RAG). It comprises over 4,000 unstructured PDF pages from multiple domains, along with a Q&A dataset extracted from multimodal document elements. Each PDF page is paired with manually validated structured data, and the dataset also includes perturbed data based on real OCR errors to enable in-depth analysis of OCR's impact.

创建时间：

2024-11-29

原始信息汇总

OHR-Bench 数据集概述

数据集内容

PDF、gt结构化数据和Q&A数据集: 包含4000+个来自不同领域的非结构化PDF页面，包括教科书、法律、金融、报纸、手册和学术领域，以及从多模态文档元素中提取的Q&A数据集。每个PDF页面都附有人工验证的结构化数据。
带有OCR错误的数据: 为了深入分析OCR对RAG的影响，数据集引入了语义噪声和格式噪声，并基于真实世界的OCR错误，提供了轻度、中度和严重的扰动数据。

数据集结构

PDF文件: 存储在data/pdfs目录下。
结构化数据: 存储在data/ground_truth_structured_data和data/perturbed_structured_data目录下。
Q&A数据: 存储在data/qas目录下。

数据集示例

Q&A JSON 示例

json [ { "doc_name": "finance/JPMORGAN_2021Q1_10Q", "ID": "00073cc2-c801-467c-9039-fca63c78c6a9", "questions": "What was the total amount of nonaccrual loans retained as of March 31, 2021?", "answers": "842", "context": "Selected metrics ...", "doc_type": "finance", "difficulty_level": "Easy", "answer_form": "Numeric", "evidence_source": "table", "evidence_context": "Nonaccrual loans retained $^{(\mathrm{a})}$ & $ & 842 & $ & 689 & $22 %$", "evidence_page_no": 24 }, ... ]

检索数据示例

bash retrieval_base/gt/ ├── finance │ ├── 3M_2023Q2_10Q.json │ ├── ... ├── textbook ...

数据集使用

数据准备

Q&A数据: 将Q&A JSON文件放置在data/qa目录下。
检索数据: 将解析后的结构化数据放置在data/retrieval_base目录下。

运行评估

bash

生成评估

bash shell/generation.sh gt finance qwen2_7b

检索评估

bash shell/retrieval.sh gt finance qwen2_7b

端到端评估

bash shell/end2end.sh gt finance qwen2_7b

版权声明

数据集中的PDF文件收集自公开的在线渠道和社区用户贡献。不允许分发的内容已被移除。数据集仅供研究使用，不得用于商业用途。如有版权问题，请联系OpenDataLab@pjlab.org.cn。

搜集汇总

数据集介绍

构建方式

OHR-Bench数据集的构建基于4000多个来自不同领域的非结构化PDF页面，涵盖教科书、法律、金融、报纸、手册和学术等多个领域。每个PDF页面均配备了经过人工验证的结构化数据作为真实标签。此外，数据集还引入了受OCR错误影响的扰动数据，分为轻度、中度和重度扰动，以模拟真实世界中的OCR错误，从而深入分析OCR对检索增强生成（RAG）的影响。

特点

OHR-Bench数据集的显著特点在于其多模态文档元素的丰富性和扰动数据的引入。数据集不仅包含了高质量的真实标签数据，还通过引入不同程度的OCR错误扰动数据，提供了对OCR影响进行深入分析的可能性。此外，数据集的领域广泛性确保了其在不同应用场景中的适用性。

使用方法

使用OHR-Bench数据集时，用户需将Q&A JSON文件放置在指定目录中，并按照示例结构进行组织。对于检索任务，用户需将解析后的结构化数据放置在相应目录。数据集提供了详细的脚本用于生成、检索和端到端评估，用户可通过运行相应的shell脚本来执行这些任务。

背景与挑战

背景概述

OHR-Bench数据集由Junyuan Zhang等研究人员于2024年创建，旨在评估光学字符识别（OCR）对检索增强生成（RAG）系统的级联影响。该数据集包含超过4000页来自不同领域的非结构化PDF文档，如教科书、法律、金融、报纸、手册和学术论文，并配备了人工验证的结构化数据。OHR-Bench不仅提供了原始数据，还引入了基于真实世界OCR错误的扰动数据，以深入分析OCR对RAG系统的影响。该数据集的推出，为研究OCR技术在实际应用中的性能提供了宝贵的资源，推动了相关领域的发展。

当前挑战

OHR-Bench数据集面临的主要挑战包括：首先，构建过程中需要处理大量非结构化PDF文档，并生成高质量的人工验证结构化数据，这一过程耗时且复杂。其次，引入基于真实OCR错误的扰动数据，要求研究人员能够准确模拟OCR系统在实际应用中可能遇到的各种问题，如语义噪声和格式噪声。此外，评估框架需要能够全面评估OCR处理后的结构化数据对RAG系统的影响，包括检索、生成和整体性能，这对评估方法的准确性和全面性提出了高要求。

常用场景

经典使用场景

OHR-Bench数据集在评估光学字符识别（OCR）对检索增强生成（RAG）系统的级联影响方面具有经典应用。该数据集通过提供4000多个来自不同领域的非结构化PDF页面，包括教科书、法律、金融、报纸、手册和学术领域，以及相应的问答数据集，帮助研究者深入分析OCR错误对RAG系统性能的影响。通过引入语义噪声和格式噪声，OHR-Bench能够模拟真实世界中的OCR错误，从而评估这些错误如何影响RAG系统的检索、生成和整体性能。

衍生相关工作

OHR-Bench数据集的发布催生了一系列相关研究工作，特别是在OCR和RAG系统的联合优化方面。例如，基于OHR-Bench的评估结果，研究者们提出了多种改进的OCR算法，以减少对RAG系统性能的负面影响。此外，OHR-Bench还启发了对RAG系统鲁棒性的研究，推动了在不同噪声环境下RAG系统的性能评估和优化。这些衍生工作不仅丰富了OCR和RAG领域的研究内容，也为实际应用提供了有力的技术支持。

数据集最近研究