five

ds4sd/DocLayNet

收藏
Hugging Face2023-01-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ds4sd/DocLayNet
下载链接
链接失效反馈
官方服务:
资源简介:
DocLayNet数据集提供了80863个独特页面的布局分割地面真实数据,使用边界框标注了11个不同的类别标签。该数据集的特点包括人工标注、布局多样性、详细的标签集、冗余标注和预定义的数据集划分。数据集还提供了PNG图像、COCO格式的边界框注释、单页PDF文件和JSON文件等数据资产。

The DocLayNet dataset provides layout segmentation ground truth data for 80863 unique pages, with 11 distinct category labels annotated using bounding boxes. The characteristics of this dataset include manual annotation, layout diversity, a detailed label set, redundant annotations, and predefined dataset splits. The dataset also offers various data assets including PNG images, COCO-format bounding box annotations, single-page PDF files, and JSON files.
提供机构:
ds4sd
原始信息汇总

数据集卡片 for DocLayNet

数据集描述

数据集概述

DocLayNet 提供了 80863 个独特页面的页面布局分割地面实况,使用边界框为 11 个不同的类别标签。它与 PubLayNet 或 DocBank 等现有工作相比具有以下独特特点:

  1. 人工标注:DocLayNet 由训练有素的专家手工标注,通过人类识别和解释每个页面布局,提供布局分割的金标准。
  2. 布局多样性:DocLayNet 包括来自金融、科学、专利、招标、法律文本和手册等多个公共来源的多样化和复杂布局。
  3. 详细的标签集:DocLayNet 定义了 11 个类别标签,以高细节区分布局特征。
  4. 冗余标注:DocLayNet 中的一部分页面进行了双重或三重标注,允许估计标注不确定性和机器学习模型可达到的预测准确性的上限。
  5. 预定义的训练、测试和验证集:DocLayNet 提供了固定的集合,以确保类别标签的比例表示,并避免独特布局风格在集合之间的泄露。

支持的任务和排行榜

我们将在 ICDAR 2023 上基于 DocLayNet 数据集举办竞赛。更多信息请参见 https://ds4sd.github.io/icdar23-doclaynet/。

数据集结构

数据字段

DocLayNet 提供了四种数据资产:

  1. 所有页面的 PNG 图像,调整为 1025 x 1025px 的正方形。
  2. 每个 PNG 图像的 COCO 格式边界框标注。
  3. 额外的:与每个 PNG 图像匹配的单页 PDF 文件。
  4. 额外的:与每个 PDF 页面匹配的 JSON 文件,提供带有坐标和内容的数字文本单元格。

COCO 图像记录定义如下示例:

js { "id": 1, "width": 1025, "height": 1025, "file_name": "132a855ee8b23533d8ae69af0049c038171a06ddfcac892c3c6d7e6b4091c642.png", "doc_category": "financial_reports", "collection": "ann_reports_00_04_fancy", "doc_name": "NASDAQ_FFIN_2002.pdf", "page_no": 9, "precedence": 0 }

doc_category 字段使用以下常量之一:

financial_reports, scientific_articles, laws_and_regulations, government_tenders, manuals, patents

数据分割

数据集提供了三个分割:

  • train
  • val
  • test

数据集创建

标注

标注过程

用于训练标注专家的标注指南可在 DocLayNet_Labeling_Guide_Public.pdf 获取。

标注者

标注是众包的。

附加信息

数据集策展人

数据集由 IBM Research 的 Deep Search 团队 策展。

策展人:

许可信息

许可:CDLA-Permissive-1.0

引用信息

bib @article{doclaynet2022, title = {DocLayNet: A Large Human-Annotated Dataset for Document-Layout Segmentation}, doi = {10.1145/3534678.353904}, url = {https://doi.org/10.1145/3534678.3539043}, author = {Pfitzmann, Birgit and Auer, Christoph and Dolfi, Michele and Nassar, Ahmed S and Staar, Peter W J}, year = {2022}, isbn = {9781450393850}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, booktitle = {Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining}, pages = {3743–3751}, numpages = {9}, location = {Washington DC, USA}, series = {KDD 22} }

贡献

感谢 @dolfim-ibm, @cau-git 添加此数据集。

搜集汇总
数据集介绍
main_image_url
构建方式
DocLayNet数据集的构建基于人工标注,由经过专业训练的专家团队对80863个独特页面进行逐页布局分割标注,涵盖6种文档类别。该数据集通过详细的标注指南确保标注的一致性和准确性,并引入了冗余标注机制,部分页面进行了双重或三重标注,以评估标注的不确定性和模型预测的上限。此外,数据集预定义了训练、验证和测试集,确保各类标签的均衡分布,避免布局风格泄露。
特点
DocLayNet数据集的显著特点在于其高度的多样性和复杂性,涵盖了金融、科学、专利、招标、法律文本和手册等多种文档类型。其标注精细,定义了11个类别标签,能够细致区分页面布局特征。此外,数据集提供了冗余标注,允许对标注不确定性进行量化,并为模型性能评估提供了基准。
使用方法
DocLayNet数据集可用于文档布局分割任务,支持实例分割和对象检测等任务。用户可通过提供的PNG图像、COCO格式的边界框标注、单页PDF文件以及对应的JSON文本坐标文件进行模型训练和评估。数据集已预定义训练、验证和测试集,用户可直接使用这些划分进行实验,确保结果的可比性和公平性。
背景与挑战
背景概述
DocLayNet数据集由IBM Research的Deep Search团队于2022年创建,旨在解决文档布局分割领域中的关键问题。该数据集通过人工注释的方式,提供了80863页文档的详细布局分割标注,涵盖了金融报告、科学文章、法律文本、政府招标、手册和专利等六类文档。DocLayNet的独特之处在于其高度的注释准确性、多样化的文档布局以及详细的标签集,为文档理解领域的研究提供了宝贵的资源。该数据集的发布不仅推动了文档布局分割技术的发展,还为相关领域的研究者提供了标准化的基准数据集,促进了学术界与工业界的合作。
当前挑战
DocLayNet数据集在构建过程中面临了多重挑战。首先,文档布局的多样性和复杂性使得注释过程极为复杂,需要高度专业化的注释人员进行人工标注,以确保数据的准确性和一致性。其次,文档来源的广泛性导致了数据集的异质性,如何在不同类型的文档中保持标签的一致性是一个重要挑战。此外,数据集的规模和多样性也带来了存储和处理上的技术难题,尤其是在处理大规模PDF文件和图像数据时。最后,如何确保训练集、验证集和测试集之间的数据分布均衡,避免数据泄露,也是构建过程中需要解决的关键问题。
常用场景
经典使用场景
DocLayNet数据集在文档布局分割领域展现了其经典应用场景。通过提供高质量的人工标注和多样化的文档布局,该数据集为研究者提供了丰富的资源,用于训练和评估文档布局分割模型。其支持的任务包括实例分割和对象检测,特别适用于需要高精度布局理解的场景,如文档自动化处理和信息提取。
衍生相关工作
DocLayNet数据集的发布催生了一系列相关研究工作。研究者利用该数据集开发了多种文档布局分割模型,这些模型在精度和鲁棒性上均有显著提升。此外,DocLayNet还激发了对文档理解任务的深入研究,包括文档分类、信息提取和文档生成等。在学术竞赛和工业应用中,基于DocLayNet的模型表现尤为突出,推动了文档处理技术的整体进步。
数据集最近研究
最新研究方向
在文档理解领域,DocLayNet数据集因其高质量的人工标注和多样化的文档布局而备受关注。该数据集通过提供详细的布局分割标注,推动了文档图像分析的前沿研究,特别是在实例分割和对象检测任务中。其独特的多重标注机制不仅提升了模型的鲁棒性,还为评估模型性能提供了基准。DocLayNet在ICDAR 2023竞赛中的应用,进一步凸显了其在文档处理技术中的重要性,尤其是在金融、法律和科学文献等复杂文档的自动解析与理解方面。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作