ds4sd/DocLayNet

Name: ds4sd/DocLayNet
Creator: ds4sd
Published: 2023-01-25 17:01:19
License: 暂无描述

Hugging Face2023-01-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/ds4sd/DocLayNet

下载链接

链接失效反馈

官方服务：

资源简介：

DocLayNet数据集提供了80863个独特页面的布局分割地面真实数据，使用边界框标注了11个不同的类别标签。该数据集的特点包括人工标注、布局多样性、详细的标签集、冗余标注和预定义的数据集划分。数据集还提供了PNG图像、COCO格式的边界框注释、单页PDF文件和JSON文件等数据资产。

The DocLayNet dataset provides layout segmentation ground truth data for 80863 unique pages, with 11 distinct category labels annotated using bounding boxes. The characteristics of this dataset include manual annotation, layout diversity, a detailed label set, redundant annotations, and predefined dataset splits. The dataset also offers various data assets including PNG images, COCO-format bounding box annotations, single-page PDF files, and JSON files.

提供机构：

ds4sd

原始信息汇总

数据集卡片 for DocLayNet

数据集描述

数据集概述

DocLayNet 提供了 80863 个独特页面的页面布局分割地面实况，使用边界框为 11 个不同的类别标签。它与 PubLayNet 或 DocBank 等现有工作相比具有以下独特特点：

人工标注：DocLayNet 由训练有素的专家手工标注，通过人类识别和解释每个页面布局，提供布局分割的金标准。
布局多样性：DocLayNet 包括来自金融、科学、专利、招标、法律文本和手册等多个公共来源的多样化和复杂布局。
详细的标签集：DocLayNet 定义了 11 个类别标签，以高细节区分布局特征。
冗余标注：DocLayNet 中的一部分页面进行了双重或三重标注，允许估计标注不确定性和机器学习模型可达到的预测准确性的上限。
预定义的训练、测试和验证集：DocLayNet 提供了固定的集合，以确保类别标签的比例表示，并避免独特布局风格在集合之间的泄露。

支持的任务和排行榜

我们将在 ICDAR 2023 上基于 DocLayNet 数据集举办竞赛。更多信息请参见 https://ds4sd.github.io/icdar23-doclaynet/。

数据集结构

数据字段

DocLayNet 提供了四种数据资产：

所有页面的 PNG 图像，调整为 1025 x 1025px 的正方形。
每个 PNG 图像的 COCO 格式边界框标注。
额外的：与每个 PNG 图像匹配的单页 PDF 文件。
额外的：与每个 PDF 页面匹配的 JSON 文件，提供带有坐标和内容的数字文本单元格。

COCO 图像记录定义如下示例：

js { "id": 1, "width": 1025, "height": 1025, "file_name": "132a855ee8b23533d8ae69af0049c038171a06ddfcac892c3c6d7e6b4091c642.png", "doc_category": "financial_reports", "collection": "ann_reports_00_04_fancy", "doc_name": "NASDAQ_FFIN_2002.pdf", "page_no": 9, "precedence": 0 }

doc_category 字段使用以下常量之一：

financial_reports, scientific_articles, laws_and_regulations, government_tenders, manuals, patents

数据分割

数据集提供了三个分割：

train
val
test

数据集创建

标注

标注过程

用于训练标注专家的标注指南可在 DocLayNet_Labeling_Guide_Public.pdf 获取。

标注者

标注是众包的。

附加信息

数据集策展人

数据集由 IBM Research 的 Deep Search 团队策展。

策展人：

Christoph Auer, @cau-git
Michele Dolfi, @dolfim-ibm
Ahmed Nassar, @nassarofficial
Peter Staar, @PeterStaar-IBM

许可信息

许可：CDLA-Permissive-1.0

引用信息

bib @article{doclaynet2022, title = {DocLayNet: A Large Human-Annotated Dataset for Document-Layout Segmentation}, doi = {10.1145/3534678.353904}, url = {https://doi.org/10.1145/3534678.3539043}, author = {Pfitzmann, Birgit and Auer, Christoph and Dolfi, Michele and Nassar, Ahmed S and Staar, Peter W J}, year = {2022}, isbn = {9781450393850}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, booktitle = {Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining}, pages = {3743–3751}, numpages = {9}, location = {Washington DC, USA}, series = {KDD 22} }

贡献

感谢 @dolfim-ibm, @cau-git 添加此数据集。

搜集汇总

数据集介绍

构建方式

DocLayNet数据集的构建基于人工标注，由经过专业训练的专家团队对80863个独特页面进行逐页布局分割标注，涵盖6种文档类别。该数据集通过详细的标注指南确保标注的一致性和准确性，并引入了冗余标注机制，部分页面进行了双重或三重标注，以评估标注的不确定性和模型预测的上限。此外，数据集预定义了训练、验证和测试集，确保各类标签的均衡分布，避免布局风格泄露。

特点

DocLayNet数据集的显著特点在于其高度的多样性和复杂性，涵盖了金融、科学、专利、招标、法律文本和手册等多种文档类型。其标注精细，定义了11个类别标签，能够细致区分页面布局特征。此外，数据集提供了冗余标注，允许对标注不确定性进行量化，并为模型性能评估提供了基准。

使用方法

DocLayNet数据集可用于文档布局分割任务，支持实例分割和对象检测等任务。用户可通过提供的PNG图像、COCO格式的边界框标注、单页PDF文件以及对应的JSON文本坐标文件进行模型训练和评估。数据集已预定义训练、验证和测试集，用户可直接使用这些划分进行实验，确保结果的可比性和公平性。

背景与挑战

背景概述

DocLayNet数据集由IBM Research的Deep Search团队于2022年创建，旨在解决文档布局分割领域中的关键问题。该数据集通过人工注释的方式，提供了80863页文档的详细布局分割标注，涵盖了金融报告、科学文章、法律文本、政府招标、手册和专利等六类文档。DocLayNet的独特之处在于其高度的注释准确性、多样化的文档布局以及详细的标签集，为文档理解领域的研究提供了宝贵的资源。该数据集的发布不仅推动了文档布局分割技术的发展，还为相关领域的研究者提供了标准化的基准数据集，促进了学术界与工业界的合作。

当前挑战

DocLayNet数据集在构建过程中面临了多重挑战。首先，文档布局的多样性和复杂性使得注释过程极为复杂，需要高度专业化的注释人员进行人工标注，以确保数据的准确性和一致性。其次，文档来源的广泛性导致了数据集的异质性，如何在不同类型的文档中保持标签的一致性是一个重要挑战。此外，数据集的规模和多样性也带来了存储和处理上的技术难题，尤其是在处理大规模PDF文件和图像数据时。最后，如何确保训练集、验证集和测试集之间的数据分布均衡，避免数据泄露，也是构建过程中需要解决的关键问题。

常用场景

经典使用场景

DocLayNet数据集在文档布局分割领域展现了其经典应用场景。通过提供高质量的人工标注和多样化的文档布局，该数据集为研究者提供了丰富的资源，用于训练和评估文档布局分割模型。其支持的任务包括实例分割和对象检测，特别适用于需要高精度布局理解的场景，如文档自动化处理和信息提取。

衍生相关工作

DocLayNet数据集的发布催生了一系列相关研究工作。研究者利用该数据集开发了多种文档布局分割模型，这些模型在精度和鲁棒性上均有显著提升。此外，DocLayNet还激发了对文档理解任务的深入研究，包括文档分类、信息提取和文档生成等。在学术竞赛和工业应用中，基于DocLayNet的模型表现尤为突出，推动了文档处理技术的整体进步。

数据集最近研究