jordanparker6/publaynet
收藏Hugging Face2022-07-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jordanparker6/publaynet
下载链接
链接失效反馈官方服务:
资源简介:
---
title: PubLayNet
license: other
annotations_creators: []
language:
- en
size_categories:
- 100B<n<1T
source_datasets: []
task_categories:
- image-to-text
task_ids: []
---
# PubLayNet
PubLayNet is a large dataset of document images, of which the layout is annotated with both bounding boxes and polygonal segmentations. The source of the documents is [PubMed Central Open Access Subset (commercial use collection)](https://www.ncbi.nlm.nih.gov/pmc/tools/openftlist/). The annotations are automatically generated by matching the PDF format and the XML format of the articles in the PubMed Central Open Access Subset. More details are available in our paper ["PubLayNet: largest dataset ever for document layout analysis."](https://arxiv.org/abs/1908.07836).
The public dataset is in tar.gz format which doesn't fit nicely with huggingface streaming. Modifications have been made to optimise the delivery of the dataset for the hugginface datset api. The original files can be found [here](https://developer.ibm.com/exchanges/data/all/publaynet/).
Licence: [Community Data License Agreement – Permissive – Version 1.0 License](https://cdla.dev/permissive-1-0/)
Author: IBM
GitHub: https://github.com/ibm-aur-nlp/PubLayNet
@article{ zhong2019publaynet,
title = { PubLayNet: largest dataset ever for document layout analysis },
author = { Zhong, Xu and Tang, Jianbin and Yepes, Antonio Jimeno },
journal = { arXiv preprint arXiv:1908.07836},
year. = { 2019 }
}
---
标题:PubLayNet
许可证:其他
标注创作者:无
语言:英语
数据规模:100B < 样本量 < 1T
源数据集:无
任务类别:图像到文本
任务子项:无
---
# PubLayNet
PubLayNet是一款大规模文档图像数据集,其文档布局同时通过边界框(bounding box)与多边形分割(polygonal segmentation)进行标注。该数据集的文档源自[PubMed Central 开放获取子集(商业使用合集)](https://www.ncbi.nlm.nih.gov/pmc/tools/openftlist/)。标注通过匹配PubMed Central开放获取子集内文章的PDF格式与XML格式自动生成。更多细节可参阅我们的论文《PubLayNet:用于文档布局分析的超大规模数据集》(https://arxiv.org/abs/1908.07836)。
原始公开数据集采用tar.gz格式,与Hugging Face流式加载机制适配性不佳。本版本已针对Hugging Face数据集API的加载需求进行了优化调整。原始数据集文件可在此处获取:https://developer.ibm.com/exchanges/data/all/publaynet/。
许可证:[社区数据许可协议——宽松版——1.0版](https://cdla.dev/permissive-1-0/)
开发方:IBM
GitHub仓库:https://github.com/ibm-aur-nlp/PubLayNet
参考文献:
bibtex
@article{zhong2019publaynet,
title = {PubLayNet:用于文档布局分析的超大规模数据集},
author = {Zhong, Xu and Tang, Jianbin and Yepes, Antonio Jimeno},
journal = {arXiv预印本 arXiv:1908.07836},
year = {2019}
}
提供机构:
jordanparker6
原始信息汇总
PubLayNet 数据集概述
基本信息
- 标题: PubLayNet
- 许可证: Community Data License Agreement – Permissive – Version 1.0
- 语言: 英语 (en)
- 大小分类: 100B<n<1T
- 任务类别: 图像到文本 (image-to-text)
数据集描述
PubLayNet 是一个大型文档图像数据集,其布局通过边界框和多边形分割进行标注。数据来源于 PubMed Central Open Access Subset (商业用途集合)。标注是通过匹配 PubMed Central Open Access Subset 中的文章的 PDF 格式和 XML 格式自动生成的。
数据集来源
相关文献
- 论文: "PubLayNet: largest dataset ever for document layout analysis."
- 作者: Zhong, Xu; Tang, Jianbin; Yepes, Antonio Jimeno
- 发表年份: 2019
搜集汇总
数据集介绍

构建方式
在文档布局分析领域,PubLayNet的构建体现了自动化数据生成的先进理念。该数据集源自PubMed Central开放获取子集的商业用途集合,通过智能匹配学术文章的PDF格式与XML格式,自动生成了包含边界框和多边形分割的布局标注。这一过程不仅确保了标注的精确性,还显著提升了数据规模,使其成为当前最大的文档布局分析数据集,为后续研究奠定了坚实的数据基础。
特点
PubLayNet的显著特点在于其规模宏大与标注精细的完美结合。作为文档图像分析领域的重要资源,它提供了超过一百万张文档图像,每张图像均附有详细的布局注释,包括边界框和多边形分割,覆盖文本、标题、列表、表格和图形等常见元素。这种全面的标注方式使得数据集能够支持多种复杂的布局分析任务,同时其基于学术出版物的来源保证了数据的多样性和真实性,为模型训练提供了丰富的上下文信息。
使用方法
在应用层面,PubLayNet为文档布局分析任务提供了便捷的使用途径。用户可以通过Hugging Face数据集API高效访问优化后的数据版本,原始文件也可从指定链接获取。数据集适用于图像到文本的转换任务,研究人员可借助其进行布局检测、分割或识别模型的训练与评估。通过加载预处理的图像与标注,结合深度学习框架,能够快速构建和验证文档理解系统,推动自动化文档处理技术的发展。
背景与挑战
背景概述
文档布局分析作为计算机视觉与文档理解交叉领域的关键研究方向,旨在从扫描或数字文档图像中自动识别并分割出文本、标题、表格、图形等逻辑区域。2019年,IBM研究院的徐钟、唐建斌与Antonio Jimeno Yepes团队推出了PubLayNet数据集,其源数据取自PubMed Central开放获取子集的商业用途集合,通过匹配PDF与XML格式自动生成标注,成为当时规模最大的文档布局分析基准数据集。该数据集的创建显著推动了文档图像处理、光学字符识别下游任务以及智能文档处理系统的发展,为学术界与工业界提供了高质量的评估资源。
当前挑战
PubLayNet致力于解决文档布局分析中的核心挑战,即如何在多样化的文档格式与复杂的视觉结构中实现高精度区域检测与分割。具体而言,数据标注需应对文档版式的巨大差异性,包括多栏排版、嵌入表格与图像的不规则边界以及文本与背景的低对比度干扰。在构建过程中,研究团队面临自动化标注流程的可靠性问题,需通过PDF与XML的对齐确保边界框与多边形分割的准确性,同时处理大规模数据存储与高效分发的技术难题,以适配现代机器学习框架的流式数据加载需求。
常用场景
经典使用场景
在文档图像分析领域,PubLayNet作为规模最大的布局标注数据集,其经典使用场景集中于训练和评估深度学习模型进行文档布局解析。研究者利用其丰富的边界框和多边形分割标注,能够精确识别文档中的文本区域、标题、列表、表格及图形等元素,从而推动自动文档理解技术的发展。该数据集为模型提供了多样化的学术出版文档样本,确保了在复杂版面结构下的泛化能力。
解决学术问题
PubLayNet有效解决了文档布局分析中数据稀缺和标注质量不一的学术难题。通过自动化匹配PubMed Central的PDF与XML格式,它生成了大规模、高精度的布局标注,弥补了传统手工标注效率低下的不足。该数据集促进了布局检测、分割和光学字符识别等任务的融合研究,为文档图像领域的模型评估设立了标准化基准,显著提升了学术研究的可重复性和比较性。
衍生相关工作
基于PubLayNet,衍生了一系列经典研究工作,如LayoutLM系列模型,这些模型结合文本和视觉信息进行文档理解,推动了多模态学习的发展。其他研究包括文档图像分割网络和端到端的布局生成系统,进一步拓展了数据集在版面分析和合成中的应用。这些工作不仅丰富了文档分析领域的理论框架,还为实际部署提供了高效解决方案,持续影响着学术界和工业界的创新方向。
以上内容由遇见数据集搜集并总结生成



