agomberto/DoCLayNet-large-wt-image

Name: agomberto/DoCLayNet-large-wt-image
Creator: agomberto
Published: 2024-02-14 11:21:20
License: 暂无描述

Hugging Face2024-02-14 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/agomberto/DoCLayNet-large-wt-image

下载链接

链接失效反馈

官方服务：

资源简介：

DocLayNet数据集提供了80863个独特页面的页面布局分割地面实况，使用边界框标注了11个不同的类别标签，涵盖了6种文档类别。该数据集具有以下独特特点：1. 人类注释：由训练有素的专家手工注释，提供布局分割的黄金标准；2. 大布局变异性：包含来自金融、科学、专利、招标、法律文本和手册等多种公共来源的多样化和复杂布局；3. 详细标签集：定义了11个类别标签，以高细节区分布局特征；4. 冗余注释：部分页面进行了双重或三重注释，允许估计注释不确定性和机器学习模型可达到的预测精度的上限；5. 预定义的训练、测试和验证集：提供固定集以确保类别标签的比例表示，并避免独特布局风格在集合之间的泄漏。

提供机构：

agomberto

原始信息汇总

DocLayNet 数据集概述

数据集描述

数据集摘要

DocLayNet 是一个提供页面布局分割地面实况的数据集，使用边界框对 80863 个独特页面中的 11 个不同类别标签进行标注，涵盖 6 种文档类别。其独特特点包括：

人工标注：由训练有素的专家手工标注，提供布局分割的金标准。
布局多样性：包含来自金融、科学、专利、招标、法律文本和手册等多个公共来源的多样化和复杂布局。
详细标签集：定义了 11 个类别标签，以高细节区分布局特征。
冗余标注：部分页面进行双重或三重标注，以估计标注不确定性和机器学习模型可达到的预测准确性上限。
预定义训练、测试和验证集：提供固定集，确保类别标签的均衡表示，避免布局风格泄露。

支持的任务和排行榜

DocLayNet 数据集基于 ICDAR 2023 竞赛。更多信息请参见 ICDAR 2023 DocLayNet。

数据集结构

数据字段

DocLayNet 提供四种数据资产：

每个 PNG 图像的 COCO 格式边界框标注。
与每个 PNG 图像匹配的单页 PDF 文件。
与每个 PDF 页面匹配的 JSON 文件，提供带有坐标和内容的数字文本单元格。

COCO 图像记录示例如下：

js { "id": 1, "width": 1025, "height": 1025, "file_name": "132a855ee8b23533d8ae69af0049c038171a06ddfcac892c3c6d7e6b4091c642.png", "doc_category": "financial_reports", "collection": "ann_reports_00_04_fancy", "doc_name": "NASDAQ_FFIN_2002.pdf", "page_no": 9, "precedence": 0 }

doc_category 字段使用以下常量之一：

financial_reports, scientific_articles, laws_and_regulations, government_tenders, manuals, patents

数据分割

数据集提供三个分割：

train
val
test

数据集创建

标注

标注过程

用于训练标注专家的标注指南可在 DocLayNet_Labeling_Guide_Public.pdf 获取。

标注者

标注是众包完成的。

附加信息

数据集策展人

数据集由 IBM Research 的 Deep Search 团队策展。

策展人：

Christoph Auer, @cau-git
Michele Dolfi, @dolfim-ibm
Ahmed Nassar, @nassarofficial
Peter Staar, @PeterStaar-IBM

许可信息

许可证：CDLA-Permissive-1.0

引用信息

bib @article{doclaynet2022, title = {DocLayNet: A Large Human-Annotated Dataset for Document-Layout Segmentation}, doi = {10.1145/3534678.353904}, url = {https://doi.org/10.1145/3534678.3539043}, author = {Pfitzmann, Birgit and Auer, Christoph and Dolfi, Michele and Nassar, Ahmed S and Staar, Peter W J}, year = {2022}, isbn = {9781450393850}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, booktitle = {Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining}, pages = {3743–3751}, numpages = {9}, location = {Washington DC, USA}, series = {KDD 22} }

贡献

感谢 @dolfim-ibm, @cau-git 添加此数据集。

5,000+

优质数据集

54 个

任务类型

进入经典数据集