VRDU

Name: VRDU
Creator: 加州大学圣地亚哥分校
Published: 2023-09-17 01:52:27
License: 暂无描述

arXiv2023-09-17 更新2024-06-21 收录

下载链接：

https://github.com/google-research/google-research/tree/master/vrdu

下载链接

链接失效反馈

官方服务：

资源简介：

VRDU数据集是为视觉丰富文档理解而设计的新型基准，包含两个子数据集：Ad-buy Forms和Registration Forms，分别包含641和1915条记录。这些文档具有复杂的布局和多样化的模板，旨在模拟实际业务文档的复杂性。数据集通过高质量的OCR处理，并提供了详细的标记，包括实体的层次结构和重复性。VRDU数据集的应用领域包括自动化业务流程，如采购、银行和保险等，旨在解决从视觉丰富文档中提取结构化数据的挑战。

VRDU Dataset is a novel benchmark designed for visually rich document understanding, which comprises two subsets: Ad-buy Forms and Registration Forms, with 641 and 1915 records respectively. These documents feature complex layouts and diverse templates, aiming to simulate the complexity of real-world business documents. The dataset is processed with high-quality OCR and provides detailed annotations, including the hierarchical structures and repeatability of entities. The application scenarios of VRDU Dataset cover automated business processes such as procurement, banking, insurance and others, aiming to address the challenges of extracting structured data from visually rich documents.

提供机构：

加州大学圣地亚哥分校

创建时间：

2022-11-15

搜集汇总

数据集介绍

构建方式

在视觉丰富文档理解领域，VRDU基准的构建遵循严谨的学术规范，旨在反映实际业务文档的复杂性。数据集源自两个公开渠道：联邦通信委员会的政治广告购买表格和外国代理人注册法案的注册表格。通过专业标注团队对文档进行精细化处理，采用高质量OCR引擎确保文本与布局信息的准确提取，并辅以人工标注，为每个实体提供精确的词元级边界框标注，涵盖非重复、重复及层次化实体类型，从而构建出结构丰富、布局多样且标注质量高的数据集。

特点

VRDU数据集的核心特点在于其全面性与挑战性。它具备丰富的标注模式，包含多种数据类型如数值标识、日期、地址及货币金额，并引入了层次化实体以模拟真实文档中的复杂结构。文档布局设计复杂，融合表格、多栏排版及键值对等元素，显著区别于纯文本文档。同时，数据集涵盖多样化的模板，要求模型具备对新布局的泛化能力。此外，统一的高质量OCR输出消除了引擎差异对评估的干扰，而词元级标注则为序列标注模型提供了可靠的训练与评估基础。

使用方法

VRDU数据集的使用围绕其设计的三个渐进式任务展开，以评估模型在不同场景下的性能。在单模板学习任务中，训练与测试集共享同一模板，用于检验模型对固定布局的适应能力。混合模板学习任务则涉及同一文档类型下的多种模板，测试模型在已知模板集合内的泛化性。最具挑战性的未见模板学习任务要求模型从训练集中未出现的模板中提取信息，以衡量其对新布局的泛化能力。每个任务均提供不同规模的训练样本，并配备类型感知的匹配算法进行精确评估，确保结果的可比性与科学性。

背景与挑战

背景概述

在文档智能领域，视觉丰富文档理解（Visually-rich Document Understanding）已成为学术界与工业界共同关注的前沿课题。2023年，由加州大学圣地亚哥分校与谷歌研究院联合推出的VRDU（Visually-rich Document Understanding）基准数据集，旨在应对真实业务文档中结构化信息提取的复杂性。该数据集聚焦于政治广告购买表单和外国代理人注册表单，涵盖多样化的数据模式、复杂布局模板以及层次化实体标注，其核心研究问题在于提升多模态模型对未知模板的泛化能力、小样本场景下的数据效率以及复杂实体关系的解析精度。VRDU的构建不仅弥补了现有基准在现实应用场景中的不足，更为文档理解研究提供了贴近工业需求的高质量评估平台。

当前挑战

VRDU数据集所针对的视觉丰富文档结构化信息提取任务，面临多重挑战。在领域问题层面，模型需克服文档模板多样性带来的泛化难题，例如从已知布局迁移至全新模板时性能显著下降；同时，小样本学习场景下信息提取的准确率仍有较大提升空间，而层次化实体（如发票中的行项目）的解析尤为困难，现有模型对此类嵌套结构的处理能力薄弱。在构建过程中，挑战体现在确保标注模式的丰富性，包括日期、地址、货币等多种数据类型以及实体间的层次关系；此外，需统一高质量OCR引擎以消除识别误差对评估的干扰，并提供精确的词元级标注以避免文本重复导致的映射歧义，这些要求对数据收集与标注流程提出了极高标准。

常用场景

经典使用场景

在视觉丰富文档理解领域，VRDU数据集作为一项综合性基准，其经典使用场景聚焦于结构化信息提取任务。该数据集通过整合政治广告购买表单和外国代理人注册表单，模拟了真实业务文档中常见的复杂布局与多样模板。研究者通常利用VRDU评估多模态语言模型在应对表格、多栏排版及层次化实体时的性能，特别是在少样本学习与模板泛化场景下的表现。数据集设计的三种任务——单一模板学习、混合模板学习及未见模板学习——系统性地考察了模型从固定布局到未知布局的适应能力，为文档理解研究提供了层次分明的实验框架。

解决学术问题

VRDU数据集针对视觉丰富文档理解中的核心学术挑战，系统性地解决了现有基准在模式丰富性、布局复杂性和模板多样性方面的不足。该数据集通过引入包含数值ID、日期、地址、货币金额等多种数据类型的丰富模式，以及层次化实体（如发票中的行项目），突破了以往基准将实体简单视为文本字符串的局限。同时，其涵盖的表格、多栏布局等复杂模板，以及同一文档类型内的多样模板设计，有效模拟了真实业务场景中的文档异构性。这些特性使得VRDU能够精准评估模型在模式理解、布局解析和模板泛化等方面的能力，推动了文档信息提取研究向更贴近实际应用的方向发展。

衍生相关工作

VRDU数据集的发布催生了一系列围绕视觉丰富文档理解的衍生研究工作。基于其提供的丰富模式和高质量标注，研究者们开发了多种新型多模态模型架构，以应对层次化实体提取和模板泛化等挑战。例如，结合图神经网络与注意力机制的混合模型被提出，以更好地捕捉文档中的空间结构关系；针对少样本场景的元学习框架也被引入，以提升模型在有限训练数据下的性能。此外，VRDU的类型感知匹配算法激发了关于实体评估标准的新讨论，促使社区探索更精细的匹配策略，如基于语义的日期和数值比较。这些工作共同推动了文档理解领域向更鲁棒、更通用的方向发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集