Unstructured Document Analysis (UDA)
收藏UDA-Benchmark 数据集概述
简介
UDA(Unstructured Document Analysis)是一个用于增强生成检索(RAG)在实际文档分析中的基准套件。每个UDA数据集条目组织为文档-问题-答案三元组,其中问题从文档中提出,并伴随相应的真实答案。为了反映现实场景的复杂性,文档保留其原始文件格式(如PDF),未进行解析或分割,并且通常包含文本和表格数据。
数据集:UDA-QA
描述
每个UDA数据集条目组织为文档-问题-答案对。典型数据点示例如下: python { doc_name: ADI_2009, # 财务报告 q_uid: ADI/2009/page_59.pdf-2, # 唯一问题ID question: What is the expected growth rate in amortization expense in 2010?, answer_1: -27.0%, answer_2: -0.26689}
UDA数据集包含六个子集,涵盖金融、学术和知识库领域,包含2965个文档和29590个专家标注的问答对。以下是子数据集的概览和统计信息:
| 子数据集 <br />(来源领域) | 文档格式 | 文档数量 | 问答数量 | 平均字数 | 平均页数 | 总大小 | 问答类型 |
|---|---|---|---|---|---|---|---|
| FinHybrid(金融) | 788 | 8190 | 76.6k | 147.8 | 2.61 GB | 算术 | |
| TatHybrid(金融) | 170 | 14703 | 77.5k | 148.5 | 0.58 GB | 抽取式,计数,算术 | |
| PaperTab(学术) | 307 | 393 | 6.1k | 11.0 | 0.22 GB | 抽取式,是/否,自由形式 | |
| PaperText(学术) | 1087 | 2804 | 5.9k | 10.6 | 0.87 GB | 抽取式,是/否,自由形式 | |
| FetaTab(Wikipedia) | PDF & HTML | 878 | 1023 | 6.0k | 14.9 | 0.92 GB | 自由形式 |
| NqText(Wikipedia) | PDF & HTML | 645 | 2477 | 6.1k | 14.9 | 0.68 GB | 抽取式 |
数据集使用
问答标签可通过dataset/qa目录中的csv文件或从HuggingFace的repository qinchuanhui/UDA-QA加载。完整源文档文件可通过HuffingFace Repo下载,并提取到dataset/src_doc_files。扩展的问答任务相关信息也可从HuffingFace Repo获取,并放置在dataset/extended_qa_info。
基准和实验
UDA基准关注以下几个关键项目:
- 各种表格解析方法的有效性
- 不同索引和检索策略的性能,以及精确检索对LLM生成的影响
- 长上下文LLM与典型RAG的比较
- 不同基于LLM的问答策略的比较
- 跨不同应用的多种LLM的端到端比较
评估指标
为了评估LLM生成答案的质量,我们在PaperTab、PaperText、FetaTab和NqText数据集中应用广泛接受的跨度级F1分数,其中真实答案是自然语言。在金融分析中,评估更为复杂,对于TatHybrid数据集,我们采用关注数值大小和正负的F1分数。在FinHybrid数据集中,答案总是数值或二进制,我们依赖精确匹配指标,但允许1%的数值容差。
许可证
UDA数据集在CC-BY-SA 4.0许可证下发布。

- 1UDA: A Benchmark Suite for Retrieval Augmented Generation in Real-world Document Analysis清华大学 · 2024年



