PubLayNet

github2024-04-01 更新2024-05-31 收录

下载链接：

https://github.com/creative-graphic-design/huggingface-datasets_PubLayNet

下载链接

链接失效反馈

官方服务：

资源简介：

PubLayNet是一个用于文档布局分析的数据集。它包含研究论文和文章的图像以及这些研究论文图像中各种元素（如“文本”、“列表”、“图形”等）的注释。该数据集是通过自动匹配公开可用的PubMed Central上超过100万篇PDF文章的XML表示和内容获得的。

PubLayNet is a dataset designed for document layout analysis. It comprises images of research papers and articles, along with annotations for various elements within these images, such as 'text', 'lists', 'figures', and more. This dataset was acquired by automatically matching the XML representations and contents of over a million PDF articles available on PubMed Central.

创建时间：

2023-10-29

原始信息汇总

数据集概述

数据集名称

名称： PubLayNet

数据集属性

语言： 英语（en）
语言来源： 已发现（found）
多语言性： 单语（monolingual）
许可证： CDLA-Permissive-1.0

数据集任务

任务类别：
- 图像分类
- 图像分割
- 图像到文本
- 问答
- 其他
- 多选
- 令牌分类
- 表格到文本
- 对象检测
- 表格问答
- 文本分类
- 表格到文本
任务ID：
- 多标签图像分类
- 多类图像分类
- 语义分割
- 图像标题生成
- 抽取式问答
- 封闭领域问答
- 多选问答
- 命名实体识别

数据集描述

概述： PubLayNet是一个用于文档布局分析的数据集，包含研究论文和文章的图像，以及页面中各种元素（如“文本”、“列表”、“图形”等）的标注。该数据集通过自动匹配PubMed Central上公开可用的超过100万篇PDF文章的XML表示和内容获得。

数据集创建

标注创建者： 机器生成

数据集使用注意事项

许可证信息： 遵循CDLA-Permissive-1.0许可证
引用信息： bibtex @inproceedings{zhong2019publaynet, title={Publaynet: largest dataset ever for document layout analysis}, author={Zhong, Xu and Tang, Jianbin and Yepes, Antonio Jimeno}, booktitle={2019 International Conference on Document Analysis and Recognition (ICDAR)}, pages={1015--1022}, year={2019}, organization={IEEE} }
贡献者： 感谢ibm-aur-nlp/PubLayNet为创建此数据集所做的贡献。

搜集汇总

数据集介绍

构建方式

PubLayNet数据集的构建基于对PubMed Central上超过100万篇公开PDF文章的自动匹配处理。通过提取这些文章的XML表示形式与内容，系统生成了包含研究论文和文章图像的标注数据。这一过程主要依赖于机器生成的方式，确保了数据的高效性和一致性。

特点

PubLayNet数据集以其丰富的文档布局分析标注而著称，涵盖了页面中的多种元素，如文本、列表、图表等。该数据集为单语言（英语）设计，适用于图像分类、图像分割、图像到文本转换等多种任务。其规模庞大，标注精确，为文档布局分析领域的研究提供了坚实的基础。

使用方法

使用PubLayNet数据集时，可以通过Hugging Face的`datasets`库进行加载。用户需指定数据集路径，并选择是否解码Run-length Encoding（RLE）以转换为二进制掩码。加载后的数据集可直接应用于图像分类、分割等任务，为研究人员和开发者提供了便捷的实验平台。

背景与挑战

背景概述

PubLayNet数据集由IBM研究院于2019年推出，旨在推动文档布局分析领域的研究。该数据集基于PubMed Central上超过100万篇公开的PDF文章，通过自动匹配XML表示与图像内容，生成了包含研究论文和文章图像的丰富标注数据。其核心研究问题在于如何高效识别和分类文档中的不同元素，如文本、列表、图表等。PubLayNet的发布为文档布局分析任务提供了大规模、高质量的基准数据，显著提升了相关算法的性能，并在国际文档分析与识别会议（ICDAR）等重要学术平台上得到了广泛认可。

当前挑战

PubLayNet数据集在解决文档布局分析问题时面临多重挑战。首先，文档布局的多样性和复杂性使得精确识别和分类各类元素成为一项艰巨任务，尤其是在处理多列布局、嵌套结构或非标准格式时。其次，数据集的构建过程中，自动匹配XML与图像内容的技术难度较高，需确保标注的准确性和一致性。此外，尽管数据集规模庞大，但其来源局限于PubMed Central，可能导致数据分布偏向特定领域，限制了模型的泛化能力。这些挑战为研究者提供了进一步优化算法和扩展数据多样性的研究方向。

常用场景

经典使用场景

PubLayNet数据集在文档布局分析领域具有重要应用，尤其在研究论文和文章的自动布局识别中表现突出。该数据集通过自动匹配PubMed Central上超过100万篇PDF文章的XML表示和内容，生成了包含文本、列表、图表等元素的标注数据。研究人员利用这些标注数据，训练深度学习模型以实现文档布局的自动识别与分类，从而提升文档处理的效率与准确性。

实际应用

在实际应用中，PubLayNet数据集被广泛用于自动化文档处理系统，如智能文档编辑器、学术论文格式检查工具以及文档内容提取系统。通过利用该数据集训练的模型，企业能够实现文档布局的自动分析与优化，从而提高文档处理的自动化水平，降低人工成本，提升工作效率。

衍生相关工作

PubLayNet数据集的发布催生了一系列相关研究工作，如基于深度学习的文档布局生成、多模态文档理解以及文档元素关系建模。这些研究不仅扩展了文档布局分析的应用范围，还为相关领域的技术创新提供了新的思路。例如，基于PubLayNet的模型在文档生成与编辑任务中表现出色，为智能文档处理系统的开发奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集