OHR-Bench
收藏OHR-Bench 数据集概述
数据集内容
- PDF、gt结构化数据和Q&A数据集: 包含4000+个来自不同领域的非结构化PDF页面,包括教科书、法律、金融、报纸、手册和学术领域,以及从多模态文档元素中提取的Q&A数据集。每个PDF页面都附有人工验证的结构化数据。
- 带有OCR错误的数据: 为了深入分析OCR对RAG的影响,数据集引入了语义噪声和格式噪声,并基于真实世界的OCR错误,提供了轻度、中度和严重的扰动数据。
数据集结构
- PDF文件: 存储在
data/pdfs目录下。 - 结构化数据: 存储在
data/ground_truth_structured_data和data/perturbed_structured_data目录下。 - Q&A数据: 存储在
data/qas目录下。
数据集示例
Q&A JSON 示例
json [ { "doc_name": "finance/JPMORGAN_2021Q1_10Q", "ID": "00073cc2-c801-467c-9039-fca63c78c6a9", "questions": "What was the total amount of nonaccrual loans retained as of March 31, 2021?", "answers": "842", "context": "Selected metrics ...", "doc_type": "finance", "difficulty_level": "Easy", "answer_form": "Numeric", "evidence_source": "table", "evidence_context": "Nonaccrual loans retained $^{(\mathrm{a})}$ & $ & 842 & $ & 689 & $22 %$", "evidence_page_no": 24 }, ... ]
检索数据示例
bash retrieval_base/gt/ ├── finance │ ├── 3M_2023Q2_10Q.json │ ├── ... ├── textbook ...
数据集使用
数据准备
- Q&A数据: 将Q&A JSON文件放置在
data/qa目录下。 - 检索数据: 将解析后的结构化数据放置在
data/retrieval_base目录下。
运行评估
bash
生成评估
bash shell/generation.sh gt finance qwen2_7b
检索评估
bash shell/retrieval.sh gt finance qwen2_7b
端到端评估
bash shell/end2end.sh gt finance qwen2_7b
版权声明
数据集中的PDF文件收集自公开的在线渠道和社区用户贡献。不允许分发的内容已被移除。数据集仅供研究使用,不得用于商业用途。如有版权问题,请联系OpenDataLab@pjlab.org.cn。




