agomberto/DoCLayNet-large-wt-image
收藏DocLayNet 数据集概述
数据集描述
数据集摘要
DocLayNet 是一个提供页面布局分割地面实况的数据集,使用边界框对 80863 个独特页面中的 11 个不同类别标签进行标注,涵盖 6 种文档类别。其独特特点包括:
- 人工标注:由训练有素的专家手工标注,提供布局分割的金标准。
- 布局多样性:包含来自金融、科学、专利、招标、法律文本和手册等多个公共来源的多样化和复杂布局。
- 详细标签集:定义了 11 个类别标签,以高细节区分布局特征。
- 冗余标注:部分页面进行双重或三重标注,以估计标注不确定性和机器学习模型可达到的预测准确性上限。
- 预定义训练、测试和验证集:提供固定集,确保类别标签的均衡表示,避免布局风格泄露。
支持的任务和排行榜
DocLayNet 数据集基于 ICDAR 2023 竞赛。更多信息请参见 ICDAR 2023 DocLayNet。
数据集结构
数据字段
DocLayNet 提供四种数据资产:
- 每个 PNG 图像的 COCO 格式边界框标注。
- 与每个 PNG 图像匹配的单页 PDF 文件。
- 与每个 PDF 页面匹配的 JSON 文件,提供带有坐标和内容的数字文本单元格。
COCO 图像记录示例如下:
js { "id": 1, "width": 1025, "height": 1025, "file_name": "132a855ee8b23533d8ae69af0049c038171a06ddfcac892c3c6d7e6b4091c642.png", "doc_category": "financial_reports", "collection": "ann_reports_00_04_fancy", "doc_name": "NASDAQ_FFIN_2002.pdf", "page_no": 9, "precedence": 0 }
doc_category 字段使用以下常量之一:
financial_reports, scientific_articles, laws_and_regulations, government_tenders, manuals, patents
数据分割
数据集提供三个分割:
trainvaltest
数据集创建
标注
标注过程
用于训练标注专家的标注指南可在 DocLayNet_Labeling_Guide_Public.pdf 获取。
标注者
标注是众包完成的。
附加信息
数据集策展人
数据集由 IBM Research 的 Deep Search 团队 策展。
策展人:
- Christoph Auer, @cau-git
- Michele Dolfi, @dolfim-ibm
- Ahmed Nassar, @nassarofficial
- Peter Staar, @PeterStaar-IBM
许可信息
引用信息
bib @article{doclaynet2022, title = {DocLayNet: A Large Human-Annotated Dataset for Document-Layout Segmentation}, doi = {10.1145/3534678.353904}, url = {https://doi.org/10.1145/3534678.3539043}, author = {Pfitzmann, Birgit and Auer, Christoph and Dolfi, Michele and Nassar, Ahmed S and Staar, Peter W J}, year = {2022}, isbn = {9781450393850}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, booktitle = {Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining}, pages = {3743–3751}, numpages = {9}, location = {Washington DC, USA}, series = {KDD 22} }
贡献
感谢 @dolfim-ibm, @cau-git 添加此数据集。



