five

BuDDIE

收藏
arXiv2024-04-05 更新2024-08-06 收录
下载链接:
http://arxiv.org/abs/2404.04003v1
下载链接
链接失效反馈
官方服务:
资源简介:
BuDDIE是由J.P. Morgan AI Research创建的一个包含1665份真实世界商业文档的多任务数据集。该数据集特别之处在于它支持文档分类、关键实体提取和视觉问答等多个任务。文档来源于美国州政府网站,涵盖多种类型如表格、证书、报告等,具有丰富的格式和布局变化。数据集的创建过程涉及文档的收集、OCR文本提取和详细的标注工作,旨在为视觉丰富的文档理解领域提供一个全面的研究平台,推动模型在处理多样化和复杂文档任务上的性能提升。

BuDDIE is a multi-task dataset consisting of 1,665 real-world business documents, created by J.P. Morgan AI Research. What distinguishes this dataset is its support for multiple tasks including document classification, key entity extraction, and visual question answering. The documents are sourced from U.S. state government websites, covering various types such as tables, certificates, reports and more, with rich variations in format and layout. The dataset creation process involves document collection, OCR text extraction and detailed annotation work, which aims to provide a comprehensive research platform for the field of visually-rich document understanding and promote the improvement of model performance when handling diverse and complex document-related tasks.
提供机构:
J.P. Morgan AI Research
创建时间:
2024-04-05
搜集汇总
数据集介绍
main_image_url
构建方式
在视觉富文档理解领域,BuDDIE数据集的构建体现了对真实业务场景的深刻洞察。该数据集从美国各州政府网站系统性地收集了1,665份公开可用的结构化业务文档,涵盖表格、证书、报告等多种样式。文档处理阶段,研究团队采用光学字符识别技术提取文本元素,并仅保留首页内容以控制标注成本。经过严格的筛选流程,剔除了OCR质量不佳、实体数量不足或不符合预设文档类别的样本,最终通过分层抽样策略按70%、20%和10%的比例划分训练集、验证集和测试集,确保了数据分布的均衡性与代表性。
特点
BuDDIE数据集的核心特征在于其多任务协同标注体系与丰富的语义层次结构。作为首个同时支持文档分类、关键实体抽取和视觉问答三项任务的视觉富文档理解数据集,它突破了传统单任务数据集的局限性。数据集构建了包含69个细粒度实体标签的七层超类别本体,涵盖商业实体、关键人员、文件属性等语义范畴,形成了密集且层次分明的标注体系。文档来源覆盖美国多数州份的政府业务文件,其样式和版式的多样性为模型泛化能力提供了严峻考验,而高达0.976和0.889的科恩卡帕系数则验证了标注质量的高度一致性。
使用方法
该数据集为视觉富文档理解研究提供了多维度的评估基准。在文档分类任务中,研究者可利用五类业务文档标签评估模型对语义和结构特征的捕捉能力;关键实体抽取任务则通过七类超类别下的69种细粒度实体,支持对空间感知模型性能的精细测评。视觉问答任务创新地融合了跨度问答与布尔问答两种形式,其中跨度问答采用“What is the X?”的模板生成,布尔问答则以“Is the X Y?”的形式构建正负样本。数据集已提供基于BERT、LayoutLM系列及DocLLM等模型的基准性能,研究者可通过微调或零样本推理等方式,在多模态信息融合、文档布局理解等前沿方向开展探索。
背景与挑战
背景概述
在视觉丰富文档理解领域,多模态信息提取已成为推动智能文档处理的关键研究方向。2024年,摩根大通人工智能研究院的Ran Zmigrod、Dongsheng Wang等学者联合发布了BuDDIE数据集,旨在解决商业文档中多任务协同理解的复杂需求。该数据集收录了来自美国各州政府网站的1,665份真实商业文档,涵盖表格、证书、报告等多种结构化样式,并首次在同一数据集内集成了文档分类、关键实体提取和视觉问答三项核心任务。通过构建包含69个细粒度实体类别的层次化本体,BuDDIE为跨任务联合建模提供了密集且语义丰富的标注基准,显著拓展了传统单任务数据集的局限性,对金融、法律等领域的自动化文档分析产生了深远影响。
当前挑战
BuDDIE数据集面临的挑战主要体现在任务协同与数据构建两个维度。在领域问题层面,其核心挑战在于如何实现跨文档分类、实体提取与视觉问答的多任务统一建模,这要求模型同时理解文档的语义类别、细粒度实体关系及视觉布局的交互逻辑,而现有单任务模型难以直接迁移至此类复杂场景。构建过程中的挑战则更为具体:首先,文档来源的异构性导致样式与布局差异显著,需设计鲁棒的OCR与标注流程以应对扫描质量不均的问题;其次,多任务标注需要协调不同粒度的语义边界,例如在实体提取中平衡标注覆盖率与精确度的矛盾;此外,商业文档的隐私与版权限制进一步增加了数据收集与公开共享的合规性难度。
常用场景
经典使用场景
在视觉丰富文档理解领域,BuDDIE数据集因其多任务标注特性而成为评估模型综合性能的经典基准。该数据集汇集了来自美国各州政府网站的1,665份真实商业文档,涵盖表格、证书、报告等多种结构化样式,为文档分类、关键实体提取和视觉问答三项核心任务提供了密集且统一的标注框架。研究者通常利用BuDDIE验证多模态模型在复杂文档布局下的泛化能力,尤其是在处理风格迥异的商业文件时,模型能否同时完成语义分类、实体定位与问答推理,这直接反映了其在真实场景中的实用价值。
实际应用
在实际商业流程中,BuDDIE所针对的文档处理需求广泛存在于企业合规、金融审核与政务自动化等领域。例如,自动解析公司年报中的实体关系、从工商登记证书中提取关键信息、或基于视觉布局回答关于表单内容的查询,均可借助在此数据集上训练的模型实现高效处理。其多任务设计尤其契合现实场景中文档处理的综合性要求,如银行在审核企业信贷材料时,需同时完成文档归类、数据抽取与一致性验证,BuDDIE为开发此类端到端解决方案提供了可靠的训练与评估基础。
衍生相关工作
BuDDIE的发布促进了多模态文档理解模型的一系列创新探索。基于其多任务特性,研究者在LayoutLMv3、DocLLM等架构基础上,进一步开发了能够协同处理分类、抽取与问答的联合训练范式。该数据集也被用于评估大语言模型在文档理解中的零样本能力,如GPT-4在实体提取任务上的表现分析。此外,其丰富的实体标注体系启发了对文档语义本体的扩展研究,部分工作尝试将BuDDIE的标注框架迁移至其他语言或垂直领域,推动了跨域文档理解技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作