Unstructured Document Analysis (UDA)

Name: Unstructured Document Analysis (UDA)
Creator: 清华大学
Published: 2024-06-21 22:29:39
License: 暂无描述

arXiv2024-06-21 更新2024-06-25 收录

下载链接：

https://github.com/qinchuanhui/UDA-Benchmark

下载链接

链接失效反馈

官方服务：

资源简介：

Unstructured Document Analysis (UDA) 数据集由清华大学创建，包含2,965份真实世界的文档和29,590对专家标注的问答对。该数据集涵盖金融、学术和世界知识三大领域，旨在评估和改进大型语言模型在处理非结构化文档时的性能。数据集保留了原始文件格式，未进行解析或分割，以确保真实性。UDA数据集的应用领域广泛，包括企业搜索、数据分析和学术研究，旨在解决大型语言模型在处理外部知识和未见数据时的挑战。

The Unstructured Document Analysis (UDA) dataset was created by Tsinghua University. It encompasses 2,965 real-world documents and 29,590 expert-annotated question-answer pairs, covering three core domains: finance, academic research, and general world knowledge. This dataset is designed to evaluate and enhance the performance of Large Language Models (LLMs) when processing unstructured documents. Critically, the original file formats of the documents are fully retained without any parsing or segmentation, ensuring the authenticity of the dataset. The UDA dataset has broad application prospects, including enterprise search, data analysis and academic studies, and it aims to tackle the challenges encountered by LLMs when handling external knowledge and unseen data.

提供机构：

清华大学

创建时间：

2024-06-21

原始信息汇总

UDA-Benchmark 数据集概述

简介

UDA（Unstructured Document Analysis）是一个用于增强生成检索（RAG）在实际文档分析中的基准套件。每个UDA数据集条目组织为文档-问题-答案三元组，其中问题从文档中提出，并伴随相应的真实答案。为了反映现实场景的复杂性，文档保留其原始文件格式（如PDF），未进行解析或分割，并且通常包含文本和表格数据。

数据集：UDA-QA

描述

每个UDA数据集条目组织为文档-问题-答案对。典型数据点示例如下： python { doc_name: ADI_2009, # 财务报告 q_uid: ADI/2009/page_59.pdf-2, # 唯一问题ID question: What is the expected growth rate in amortization expense in 2010?, answer_1: -27.0%, answer_2: -0.26689}

UDA数据集包含六个子集，涵盖金融、学术和知识库领域，包含2965个文档和29590个专家标注的问答对。以下是子数据集的概览和统计信息：

子数据集 <br />（来源领域）	文档格式	文档数量	问答数量	平均字数	平均页数	总大小	问答类型
FinHybrid（金融）	PDF	788	8190	76.6k	147.8	2.61 GB	算术
TatHybrid（金融）	PDF	170	14703	77.5k	148.5	0.58 GB	抽取式，计数，算术
PaperTab（学术）	PDF	307	393	6.1k	11.0	0.22 GB	抽取式，是/否，自由形式
PaperText（学术）	PDF	1087	2804	5.9k	10.6	0.87 GB	抽取式，是/否，自由形式
FetaTab（Wikipedia）	PDF & HTML	878	1023	6.0k	14.9	0.92 GB	自由形式
NqText（Wikipedia）	PDF & HTML	645	2477	6.1k	14.9	0.68 GB	抽取式

数据集使用

问答标签可通过dataset/qa目录中的csv文件或从HuggingFace的repository qinchuanhui/UDA-QA加载。完整源文档文件可通过HuffingFace Repo下载，并提取到dataset/src_doc_files。扩展的问答任务相关信息也可从HuffingFace Repo获取，并放置在dataset/extended_qa_info。

基准和实验

UDA基准关注以下几个关键项目：

各种表格解析方法的有效性
不同索引和检索策略的性能，以及精确检索对LLM生成的影响
长上下文LLM与典型RAG的比较
不同基于LLM的问答策略的比较
跨不同应用的多种LLM的端到端比较

评估指标

为了评估LLM生成答案的质量，我们在PaperTab、PaperText、FetaTab和NqText数据集中应用广泛接受的跨度级F1分数，其中真实答案是自然语言。在金融分析中，评估更为复杂，对于TatHybrid数据集，我们采用关注数值大小和正负的F1分数。在FinHybrid数据集中，答案总是数值或二进制，我们依赖精确匹配指标，但允许1%的数值容差。

许可证

UDA数据集在CC-BY-SA 4.0许可证下发布。

搜集汇总

数据集介绍

构建方式

该数据集的构建方式是通过收集金融、学术和知识库等三个领域的真实世界文档，并包含2,965个文档和29,590个专家标注的问答对。数据集的每个数据项都包含一个完整的非结构化文档、一个问题以及一个真实答案。为了确保数据集的真实性和实用性，文档保留了原始的文件格式，未进行解析或分割。在构建过程中，研究人员对原始文档进行了全面的识别和收集，并进行了匹配和重新组织，形成了完整的文档-问题-答案三元组数据。此外，还根据数据集的来源和格式，对问答类型进行了分类，并设计了特定的LLM提示。

使用方法

该数据集可用于评估各种RAG-based非结构化文档分析组件的有效性。研究人员可以使用该数据集来评估不同数据提取策略、检索和生成策略的性能，以及不同LLM的端到端性能。此外，该数据集还可以用于研究不同问答策略，如Chain-of-Thought推理和外部代码执行方法的效力。使用该数据集时，研究人员可以根据自己的需求选择合适的评估指标，如span-level F1-score、numeracy-focused F1-score或Exact-Match等。

背景与挑战

背景概述

随着大型语言模型（LLMs）在处理外部知识和未见数据方面的限制日益凸显，检索增强生成（RAG）技术应运而生，为LLMs与外部数据协作提供了有效途径。Yulong Hui、Yao Lu和Huanchen Zhang等研究人员于2024年提出了Unstructured Document Analysis（UDA）数据集，旨在解决现实世界文档分析中的挑战。该数据集包含2,965个真实世界文档和29,590个专家注释的问答对，覆盖金融、学术和知识库三个领域。通过对LLMs和RAG技术进行评估，UDA数据集突显了数据解析和检索的重要性，为现实世界文档分析应用提供了有益参考。

当前挑战

UDA数据集在解决现实世界文档分析问题时面临以下挑战：1）非结构化输入：解析原始文本和表格数据时易出错，且多模态数据（如表格）需要改进的索引和检索策略；2）长文档：如金融报告等长篇文档需要有效的嵌入和检索机制；3）问答策略：用户查询涉及提取式查询到复杂算术推理，每种策略可能需要不同的方法。此外，长上下文LLMs在处理文档分析和算术推理任务时表现不佳，而RAG方法在数值推理任务中表现出色。

常用场景

经典使用场景

在现实世界的文档分析任务中，Unstructured Document Analysis (UDA) 数据集常被用于评估检索增强生成（RAG）和大型语言模型（LLM）在处理非结构化文档时的性能。该数据集包含 2,965 个真实世界的文档和 29,590 个专家标注的问答对，涵盖金融、学术和知识库三个关键领域，旨在模拟真实应用场景中的复杂性和多样性。通过该数据集，研究者可以评估不同数据提取策略、检索和生成策略，以及各种 LLM 的效果，从而优化 RAG 工作流程和提升模型在处理真实世界文档分析任务时的表现。

解决学术问题

UDA 数据集解决了真实世界文档分析中的多个学术研究问题。首先，它提供了对非结构化数据（如 HTML 和 PDF 格式的原始文本和表格）进行解析的挑战，并展示了不同解析方法（如基于计算机视觉和语言模型的方法）的效果。其次，它强调了在处理长篇文档时有效嵌入和检索机制的重要性。此外，UDA 数据集还探讨了用户查询的多样性（从提取式查询到复杂算术推理），以及如何根据不同的查询类型设计相应的回答策略。通过这些研究，UDA 数据集为理解和优化 RAG 工作流程提供了宝贵的洞见。

实际应用

UDA 数据集在实际应用场景中具有广泛的应用价值。例如，在金融领域，UDA 可用于评估和优化企业搜索系统，帮助企业从大量财务报告中提取关键信息。在学术领域，UDA 可用于评估和优化学术文献分析系统，帮助研究人员从海量的学术文献中快速获取所需的知识。此外，UDA 还可用于评估和优化知识库问答系统，帮助用户从非结构化数据中获取准确的信息。通过这些实际应用，UDA 数据集为提升 RAG 和 LLM 在处理真实世界文档分析任务时的表现提供了重要的参考。

数据集最近研究