BoundingDocs

Name: BoundingDocs
Creator: 佛罗伦萨大学, LETXBE
Published: 2025-01-07 05:46:22
License: 暂无描述

arXiv2025-01-07 更新2025-01-09 收录

下载链接：

https://huggingface.co/datasets/letxbe/BoundingDocs

下载链接

链接失效反馈

官方服务：

资源简介：

BoundingDocs是一个由佛罗伦萨大学和LETXBE联合创建的文档问答数据集，旨在解决文档AI领域中的信息提取和视觉问答任务。该数据集整合了多个公开数据集，涵盖了丰富的文档类型和语言特征，提供了OCR文本和答案在文档图像中的精确位置信息。数据集通过统一现有数据集并增强布局注释，生成了适用于训练和评估大型语言模型的问答格式。数据集的应用领域包括文档理解、信息提取和视觉问答，旨在通过提供精确的空间坐标信息，减少模型幻觉并提升文档布局理解的准确性。

BoundingDocs is a document question answering dataset jointly created by the University of Florence and LETXBE, aimed at addressing information extraction and visual question answering tasks in the field of document AI. This dataset integrates multiple public datasets, covers diverse document types and rich linguistic characteristics, and provides precise spatial position information of OCR texts and answers within document images. By unifying existing datasets and augmenting layout annotations, the dataset constructs question-answering formats suitable for training and evaluating large language models. The application scenarios of this dataset cover document understanding, information extraction and visual question answering, and it aims to reduce model hallucinations and improve the accuracy of document layout understanding by providing precise spatial coordinate information.

提供机构：

佛罗伦萨大学, LETXBE

创建时间：

2025-01-07

搜集汇总

数据集介绍

构建方式

BoundingDocs数据集的构建基于多个公开的文档理解相关数据集，包括SP-DocVQA、MP-DocVQA、DUDE、Deepform等。这些数据集涵盖了多种文档类型和语言特征，提供了丰富的资源用于训练和评估文档AI模型。数据集的构建过程包括将不同数据集的注释统一为一致的问答格式，并通过OCR工具（如Amazon Textract）提取文档中的文本和空间信息。每个问题的答案不仅包含文本内容，还标注了其在文档图像中的精确位置（边界框）。此外，数据集还通过LLM（如Mistral 7B）对问题进行了重写，以增加问题的语言多样性。

特点

BoundingDocs数据集的主要特点在于其统一了多个文档理解任务为问答格式，并提供了精确的空间信息（边界框）。这使得该数据集特别适合用于训练和评估大型语言模型（LLMs）在文档理解任务中的表现。数据集涵盖了多种文档类型，如发票、收据、表格等，且问题形式多样，既有模板生成的问题，也有经过LLM重写的自然语言问题。此外，数据集还提供了多语言支持，尽管大部分问题为英文，但也包含了意大利语、西班牙语等其他语言的问题。

使用方法

BoundingDocs数据集的使用方法主要包括训练和评估文档理解模型。用户可以通过该数据集训练模型，使其能够根据文档内容回答自然语言问题，并利用边界框信息提高答案的精确性。数据集已按照80-10-10的比例划分为训练集、验证集和测试集，确保每个文档的所有问题都包含在同一集合中。用户可以使用该数据集进行模型微调，探索不同提示技术（如包含边界框信息）对模型性能的影响。此外，数据集还可用于研究多语言文档理解和复杂布局文档的处理能力。

背景与挑战

背景概述

BoundingDocs数据集由意大利佛罗伦萨大学和法国LETXBE的研究团队于2025年创建，旨在为文档问答（Document Question Answering, QA）任务提供一个统一的资源。该数据集整合了多个公开的文档AI和视觉丰富文档理解（VRDU）数据集，将信息抽取（IE）等任务重新表述为问答形式，使其适用于大语言模型（LLMs）的训练与评估。BoundingDocs的核心贡献在于其不仅提供了文档的OCR文本，还包含了答案在文档图像中的精确位置信息（边界框）。这一创新为文档理解任务提供了更丰富的空间上下文信息，推动了文档AI领域的发展。

当前挑战

BoundingDocs数据集面临的挑战主要体现在两个方面。首先，在领域问题方面，现有的文档问答数据集缺乏多样性和精确的空间坐标信息，这限制了模型在文档布局理解上的表现。BoundingDocs通过引入边界框信息，试图解决这一问题，但如何有效利用这些空间信息以提升模型性能仍是一个开放的研究问题。其次，在数据集构建过程中，整合不同来源的文档和注释格式带来了显著的技术挑战。不同数据集使用的OCR工具和注释标准不一致，导致数据格式和位置信息的统一化处理极为复杂。此外，生成多样化的问答对并确保其语法正确性和自然性，也是构建过程中的一大难点。

常用场景

经典使用场景

BoundingDocs数据集在文档问答（Document Question Answering, DQA）领域中被广泛用于训练和评估大型语言模型（LLMs）。该数据集通过结合多个公开的文档AI数据集，提供了丰富的视觉和文本信息，特别适用于研究文档布局分析与信息提取的结合。其经典使用场景包括文档图像分类、布局分析、视觉信息提取以及视觉问答等任务。通过提供精确的空间注释（如边界框），BoundingDocs能够帮助模型更好地理解文档的结构与内容，从而提升问答任务的准确性。

解决学术问题

BoundingDocs数据集解决了文档AI领域中的两个关键问题：一是现有数据集缺乏多样性和规模，难以支持复杂的文档问答任务；二是现有数据集通常缺少精确的空间坐标信息，导致模型在理解文档布局时表现不佳。通过提供统一的问答格式和精确的边界框注释，BoundingDocs显著提升了模型在文档理解任务中的表现，减少了幻觉现象（hallucination），并推动了文档问答任务的标准化与可重复性研究。

衍生相关工作

BoundingDocs数据集的发布推动了多个相关研究工作的进展。例如，基于该数据集的LayoutLMv3模型通过引入视觉补丁嵌入，显著提升了文档布局理解任务的性能。此外，LMDX模型利用边界框信息增强了文档信息提取的精度，减少了模型在复杂文档任务中的错误率。这些衍生工作不仅扩展了BoundingDocs的应用范围，还为文档AI领域的研究提供了新的方向与工具。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集