Document Understanding Dataset and Evaluation (DUDE)
收藏arXiv2023-09-11 更新2024-06-21 收录
下载链接:
https://huggingface.co/datasets/jordyvl/DUDE_loader
下载链接
链接失效反馈官方服务:
资源简介:
数据集DUDE是由巴塞罗那自治大学的计算机视觉中心创建的,旨在为文档AI社区提供一个更实用的长期基准。该数据集包含5641个文档,覆盖多种行业、领域和页面,以及各种来源和日期。数据集设计了多种问题类型,包括多任务和多领域评估设置,以更准确地模拟现实世界中的情况。DUDE数据集的目标是推动文档理解领域的研究进展,特别是在处理视觉丰富的文档(VRDs)方面。此外,数据集还包括多种文档布局和视觉元素,如表格、图表、列表、复选框、邮票等,以评估模型对这些元素的理解能力。数据集的应用领域广泛,旨在解决文档理解中的实际挑战,如领域泛化、任务无关架构和文档内容及布局的高度变异性。
The DUDE dataset was created by the Computer Vision Center of the Autonomous University of Barcelona, aiming to provide a more practical long-term benchmark for the document AI community. This dataset contains 5,641 documents spanning diverse industries, domains, page types, sources, and publication dates. It features multiple question types, including multi-task and multi-domain evaluation settings, to more accurately simulate real-world scenarios. The goal of the DUDE dataset is to advance research in the field of document understanding, particularly in the processing of visually rich documents (VRDs). In addition, the dataset includes a wide range of document layouts and visual elements such as tables, charts, lists, checkboxes, stamps and more, to evaluate models' understanding capabilities towards these elements. The dataset has broad application scenarios, aiming to address practical challenges in document understanding, such as domain generalization, task-agnostic architectures, and the high variability of document content and layout.
提供机构:
计算机视觉中心,巴塞罗那自治大学
创建时间:
2023-05-15
搜集汇总
数据集介绍

构建方式
在视觉富文档理解领域,现有基准常局限于单一领域或任务,难以全面评估模型在真实场景中的泛化能力。DUDE数据集的构建旨在弥补这一空白,其构建过程遵循严谨的多阶段标注流程。文档来源涵盖多个行业与领域,通过聚合公开档案库如archive.org、Wikimedia Commons和DocumentCloud,并辅以关键词检索策略,确保文档在类型、布局和时间跨度上的多样性。标注工作由专业语言学家与亚马逊众包平台协同完成,采用多轮质量过滤机制,包括问题生成、答案验证与专家复审,最终形成包含抽象性、抽取性、列表型及不可回答问题的全面问答对。
特点
DUDE数据集在视觉富文档理解领域展现出显著的多样性与复杂性。其核心特点在于覆盖多行业、多领域及多页文档,时间跨度从1860年至2022年,包含原生数字与扫描文档的混合来源。问题设计极具挑战性,涵盖布局导航、图形密集、多跳推理及抽象生成等多种类型,其中超过90%的问题具有唯一性。答案类型亦十分丰富,包括文本、数值、日期、是非判断、列表及“无答案”类别,有效模拟了真实业务场景中可能遇到的各种情况。此外,数据集提供了详细的诊断子集,便于对模型在视觉证据、操作需求及答案形式等方面的能力进行细粒度分析。
使用方法
DUDE数据集主要服务于文档视觉问答任务的模型评估与推进。研究者可利用其划分清晰的训练集、验证集和测试集进行模型训练与性能评测。评估采用平均归一化莱文斯坦相似度作为核心指标,同时引入预期校准误差和风险-覆盖曲线下面积,以全面衡量模型答案的准确性与置信度校准水平。数据集支持零样本、少样本及微调等多种实验设置,尤其鼓励开发能够处理长文档、理解复杂布局并实现跨领域泛化的新型架构。通过在线提交系统,研究者可在盲测集上验证模型性能,推动文档理解技术向更实用、更鲁棒的方向发展。
背景与挑战
背景概述
文档理解数据集与评估(DUDE)由KU Leuven、Snowflake、Computer Vision Center等机构的研究团队于2023年提出,旨在应对视觉丰富文档理解领域研究进展停滞的困境。该数据集聚焦于多领域、多行业、多页面的视觉文档理解,通过文档视觉问答范式构建了一个大规模、多任务的评估基准。其核心研究问题在于推动文档人工智能模型在低资源环境下实现跨领域泛化与自适应能力,模拟真实世界中文档处理的复杂性。DUDE的创建标志着文档理解研究从单一任务、窄领域评估向实用化、综合性基准的重要转变,为后续研究提供了更贴近实际应用的评估框架。
当前挑战
DUDE致力于解决文档视觉问答中模型泛化能力不足的挑战,具体包括跨领域知识迁移、多页面布局导航以及复杂推理任务的实现。在构建过程中,研究团队面临多重困难:首先,需在严格许可约束下确保数据集的多样性,通过手动筛选来自多源公开档案的文档以覆盖不同行业、布局与年代。其次,标注流程涉及抽象性、抽取性、列表型及不可回答问题的平衡设计,需协调专业语言学家与众包工作者的协作,并通过多阶段验证保证标注质量。此外,数据集中包含大量视觉元素与多跳推理问题,对模型的视觉理解与逻辑推理能力提出了更高要求。
常用场景
经典使用场景
在文档智能研究领域,DUDE数据集被广泛用于评估多模态模型对视觉丰富文档的理解能力。其经典使用场景集中于文档视觉问答任务,要求模型基于多页、多领域的文档图像,回答涉及布局导航、图形解析和跨页推理的复杂问题。例如,模型需要从一份包含表格、图表和手写注释的法律合同中,准确识别“第二页中最大的表格包含多少行数据”这类问题,这考验了模型对视觉元素语义理解与空间关系的综合把握。
实际应用
在实际应用层面,DUDE数据集为金融、医疗、法律等行业的自动化文档处理提供了关键评估工具。例如,在保险理赔中,系统需从多页医疗报告与表格中提取特定数值并回答复合查询;在法律文档审核中,模型需识别合同条款的修订痕迹与签名位置。这些场景要求模型具备对混合版式、手写体及印章等视觉元素的精准理解,DUDE通过模拟真实文档的复杂性与多样性,助力开发能够直接部署于业务流程的可靠文档智能系统。
衍生相关工作
DUDE数据集催生了一系列围绕多模态文档理解的创新研究。基于其多页与多域特性,学者们提出了如Hi-VT5等层次化Transformer架构,以增强长文档序列建模能力;同时,针对数据集中引入的布局导航问题,衍生出融合二维位置编码与视觉特征的T5-2D模型。这些工作进一步拓展至文档置信度校准、选择性预测等方向,推动了如AURC与ECE等评估指标在文档理解领域的标准化应用,形成了从基准构建到方法创新的完整研究脉络。
以上内容由遇见数据集搜集并总结生成



