BoundingDocs

Hugging Face2025-01-13 更新2025-01-16 收录

下载链接：

https://huggingface.co/datasets/letxbe/BoundingDocs

下载链接

链接失效反馈

官方服务：

资源简介：

BoundingDocs是一个用于文档问答（Document Question Answering, QA）的统一数据集，包含空间注释。它整合了多个来自文档AI和视觉丰富文档理解（VRDU）领域的公共数据集，并将信息提取（IE）任务重新表述为QA任务。每个问答对通过边界框与其在文档中的位置相关联，增强了布局理解并减少了模型输出中的幻觉风险。数据集支持多种语言，包括英语、意大利语、西班牙语、法语、德语、葡萄牙语、中文和日语。数据集的结构包括文档来源、文档ID、文档图像、OCR结果以及问答对。数据集分为训练集、验证集和测试集，并提供了详细的统计信息。

创建时间：

2025-01-03

搜集汇总

数据集介绍

构建方式

BoundingDocs数据集的构建基于多个公开的文档AI和视觉丰富文档理解（VRDU）领域的数据集，通过将这些数据集中的信息提取任务重新表述为问答任务，形成了一个统一的文档问答数据集。数据集的构建过程包括标准化注释格式、使用Amazon Textract生成边界框注释，并通过大型语言模型（如Mistral 7B）对问题进行重写，以增强语言多样性。每个问答对都通过边界框与其在文档中的位置相关联，从而提升了模型对文档布局的理解能力。

使用方法

BoundingDocs数据集主要用于文档AI模型的微调，特别是带有空间上下文的问答任务。用户可以通过Hugging Face的`datasets`库加载数据集，并利用其提供的文档图像、OCR结果和问答对进行模型训练和评估。数据集中的每个样本包含文档的源信息、文档ID、图像列表、OCR结果以及问答对的JSON格式数据。用户可以通过解析JSON数据获取问题、重写问题及其对应的答案和边界框信息，从而进行进一步的模型训练或评估。

背景与挑战

背景概述

BoundingDocs数据集由Simone Giovannini等研究人员于2025年创建，旨在解决文档问答（Document Question Answering, DQA）领域中的空间标注问题。该数据集整合了多个公开的文档理解数据集，将信息抽取任务重新定义为问答任务，并通过边界框标注将每个问题-答案对与其在文档中的位置关联起来。这一创新不仅提升了模型对文档布局的理解能力，还减少了模型输出中的幻觉风险。BoundingDocs的创建得到了佛罗伦萨大学和Letxbe公司的支持，其多语言支持和丰富的文档类型使其成为训练和评估大型语言模型的重要资源。

当前挑战

BoundingDocs数据集在构建过程中面临多重挑战。首先，文档问答任务本身要求模型不仅理解文本内容，还需结合视觉信息进行空间推理，这对模型的综合能力提出了较高要求。其次，数据集整合了来自多个来源的文档，这些文档的标注格式各异，标准化处理过程复杂且耗时。此外，尽管数据集支持多语言，但非英语问题占比较低，可能限制了其在多语言任务中的应用效果。最后，数据集可能继承了源数据集的偏差，例如某些领域术语的过度集中，需用户在应用时加以注意。

常用场景

经典使用场景

BoundingDocs数据集在文档问答（Document Question Answering, DQA）领域具有广泛的应用。其经典使用场景包括通过空间注释增强文档理解能力，特别是在视觉丰富的文档（如发票、合同、表格等）中，模型能够精确定位答案的位置。该数据集通过将信息提取任务转化为问答任务，为大型语言模型（LLMs）的训练和评估提供了丰富的资源。

解决学术问题

BoundingDocs解决了文档理解领域中的多个学术问题，尤其是在空间注释和视觉文档理解方面。通过提供精确的边界框注释，该数据集显著减少了模型输出中的幻觉风险，并提升了模型对文档布局的理解能力。此外，其多语言支持为跨语言文档理解研究提供了重要数据基础，推动了多模态文档问答模型的发展。

实际应用

在实际应用中，BoundingDocs被广泛用于金融、法律和医疗等领域的文档自动化处理。例如，在发票处理中，模型可以通过空间注释快速定位金额、日期等关键信息；在法律合同分析中，模型能够准确提取条款内容及其位置。这些应用显著提高了文档处理的效率和准确性，为行业自动化提供了技术支持。

数据集最近研究