DocILE
收藏arXiv2023-05-04 更新2024-06-21 收录
下载链接:
https://github.com/rossumai/docile
下载链接
链接失效反馈官方服务:
资源简介:
DocILE数据集是由Rossum.ai创建的,是目前最大的商业文档信息定位与提取(KILE)及行项目识别(LIR)数据集。该数据集包含6700个标注的商业文档、10万个合成文档以及近100万个用于无监督预训练的未标注文档。DocILE数据集的特点包括:(i) 55个类别的标注,远超以往发布的KILE数据集的粒度;(ii) LIR任务代表了一个高度实用的信息提取任务,需要将关键信息分配到表格中的项目;(iii) 文档来自多种布局,测试集包括零样本和少样本情况,以及在训练集中常见的布局。
The DocILE dataset, created by Rossum.ai, is currently the largest dataset for commercial document information location and extraction (KILE) and line item recognition (LIR). This dataset includes 6,700 annotated commercial documents, 100,000 synthetic documents, and nearly 1 million unannotated documents for unsupervised pre-training. The characteristics of the DocILE dataset are as follows: (i) Annotations covering 55 categories, which far exceeds the annotation granularity of previously released KILE datasets; (ii) The LIR task represents a highly practical information extraction task that requires assigning key information to items in tables; (iii) The documents originate from diverse layouts, and the test set encompasses zero-shot and few-shot scenarios, as well as layouts commonly encountered in the training set.
提供机构:
Rossum.ai
创建时间:
2023-02-11
搜集汇总
数据集介绍

构建方式
在文档智能领域,构建高质量标注数据集是推动信息提取技术发展的关键。DocILE数据集的构建过程体现了严谨的学术方法,其核心标注集包含6,680份真实商业文档,均从UCSF行业文档库和公共检查文件等公开来源获取。为确保数据多样性与实用性,构建团队依据文档长度、语言、年代及布局聚类特征进行了严格筛选,并采用基于专有模型预测字段的布局聚类算法进行文档分类,再经人工校正。整个标注流程耗时约2,500小时,对关键信息定位提取和行项目识别任务进行了细粒度标注,涵盖55个类别。此外,数据集还包含10万份基于100份真实文档模板生成的合成文档以及93.2万份未标注文档,分别用于监督训练扩展和无监督预训练。
特点
DocILE数据集在商业文档信息提取领域具有显著特点。其最突出的优势在于标注的规模与细粒度,它提供了当前该领域最大的标注文档集,并定义了55个语义类别,远超以往数据集的标注粒度。数据集涵盖了发票、订单等多种商业文档类型,布局极为丰富。其测试集经过精心设计,包含零样本、少样本及多样本三种场景,能够全面评估模型在已知与未知布局上的泛化能力。行项目识别任务的引入,针对表格中商品或服务条目的结构化提取,极大地增强了数据集的实用价值。合成子集的加入,为研究合成数据在文档理解中的作用提供了首个大规模资源。
使用方法
该数据集主要服务于关键信息定位提取和行项目识别两大基准任务。研究者可利用提供的Python库便捷加载经预处理的PDF文档、JSON格式标注以及预计算的OCR结果。基准任务鼓励使用数据集内的标注集、合成集及未标注集进行模型开发与训练,但禁止使用外部文档数据集进行预训练以保障评估的公平性。评估体系科学严谨:KILE任务采用基于伪字符中心覆盖度的平均精度作为主要指标;LIR任务则采用在最佳行项目匹配下的微观F1分数。数据集的官方划分包含训练集、验证集和保留的测试集,测试集预测需通过竞赛平台提交以获得客观评估。提供的RoBERTa、LayoutLMv3及DETR等基线模型代码与权重,为后续研究提供了高效的起点。
背景与挑战
背景概述
在商业流程数字化浪潮中,半结构化文档的信息自动化提取成为提升效率的关键技术。DocILE数据集于2023年由Rossum.ai、捷克技术大学、拉罗谢尔大学及巴塞罗那自治大学计算机视觉中心联合发布,旨在构建面向商业文档的关键信息定位与提取及行项目识别的基准。该数据集包含6,680份标注文档、10万份合成文档及近百万未标注文档,涵盖55类细粒度标注类别,突破了以往数据集在标注粒度和任务覆盖上的局限。其核心研究问题聚焦于解决商业文档中语义理解、布局分析与上下文关联的复杂信息抽取需求,为文档智能领域提供了迄今规模最大、标注最丰富的公开资源,显著推动了基于视觉与语言多模态理解的文档分析研究。
当前挑战
DocILE数据集致力于解决商业文档关键信息定位与提取及行项目识别两大核心任务,其面临的领域挑战在于文档布局的高度多样性、语义信息的细粒度关联以及表格结构的复杂解析。具体而言,信息抽取需在保留空间位置的基础上实现跨模态对齐,而传统方法在零样本与少样本布局泛化上表现不足。在构建过程中,挑战主要体现于标注成本与数据质量的平衡:商业文档常包含敏感信息,公开获取受限;标注需同时处理边界框重叠、字段多义性及行项目跨表格行等复杂情况,耗时约2,500小时。此外,合成数据的生成需在视觉真实性与语义合理性间取得权衡,以支撑模型在未知布局上的泛化能力。
常用场景
经典使用场景
在文档智能研究领域,DocILE数据集为关键信息定位与提取以及行项目识别任务提供了标准化的评估基准。该数据集通过包含6,680份标注的商业文档、10万份合成文档及近百万未标注文档,构建了当前规模最大的半结构化商业文档资源库。其经典使用场景聚焦于训练和评估多模态文档理解模型,特别是针对发票、订单等商业文档的自动化信息提取系统,为学术界和工业界提供了统一的性能对比平台。
解决学术问题
DocILE数据集有效解决了文档信息提取领域长期存在的若干关键学术问题。首先,它填补了大规模、细粒度标注商业文档数据集的空白,通过涵盖55个类别的高粒度标注超越了以往数据集的标注范围。其次,该数据集明确区分了关键信息定位与提取任务,提供了精确的位置标注,支持人类在环验证等实际需求。再者,其引入的行项目识别任务专门针对表格化数据的结构化提取,解决了传统表格识别方法在语义关联上的局限性。这些贡献显著提升了文档理解任务的可复现性和研究深度。
衍生相关工作
围绕DocILE数据集已衍生出多项经典研究工作,推动了文档智能领域的技术演进。基于该数据集,研究者们系统评估了RoBERTa、LayoutLMv3和DETR等主流架构在关键信息提取任务上的性能边界,揭示了多模态预训练策略的有效性。同时,数据集的合成文档生成机制启发了基于规则与生成式方法结合的文档数据增强技术。在任务定义层面,其提出的伪字符中心评估指标为文本检测任务提供了新的评估范式。这些工作共同构建了文档信息提取领域的方法论体系,为后续的模型架构创新和跨领域迁移学习奠定了坚实基础。
以上内容由遇见数据集搜集并总结生成



