five

agomberto/DoCLayNet-large-wt-image

收藏
Hugging Face2024-02-14 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/agomberto/DoCLayNet-large-wt-image
下载链接
链接失效反馈
官方服务:
资源简介:
DocLayNet数据集提供了80863个独特页面的页面布局分割地面实况,使用边界框标注了11个不同的类别标签,涵盖了6种文档类别。该数据集具有以下独特特点:1. 人类注释:由训练有素的专家手工注释,提供布局分割的黄金标准;2. 大布局变异性:包含来自金融、科学、专利、招标、法律文本和手册等多种公共来源的多样化和复杂布局;3. 详细标签集:定义了11个类别标签,以高细节区分布局特征;4. 冗余注释:部分页面进行了双重或三重注释,允许估计注释不确定性和机器学习模型可达到的预测精度的上限;5. 预定义的训练、测试和验证集:提供固定集以确保类别标签的比例表示,并避免独特布局风格在集合之间的泄漏。

DocLayNet数据集提供了80863个独特页面的页面布局分割地面实况,使用边界框标注了11个不同的类别标签,涵盖了6种文档类别。该数据集具有以下独特特点:1. 人类注释:由训练有素的专家手工注释,提供布局分割的黄金标准;2. 大布局变异性:包含来自金融、科学、专利、招标、法律文本和手册等多种公共来源的多样化和复杂布局;3. 详细标签集:定义了11个类别标签,以高细节区分布局特征;4. 冗余注释:部分页面进行了双重或三重注释,允许估计注释不确定性和机器学习模型可达到的预测精度的上限;5. 预定义的训练、测试和验证集:提供固定集以确保类别标签的比例表示,并避免独特布局风格在集合之间的泄漏。
提供机构:
agomberto
原始信息汇总

DocLayNet 数据集概述

数据集描述

数据集摘要

DocLayNet 是一个提供页面布局分割地面实况的数据集,使用边界框对 80863 个独特页面中的 11 个不同类别标签进行标注,涵盖 6 种文档类别。其独特特点包括:

  1. 人工标注:由训练有素的专家手工标注,提供布局分割的金标准。
  2. 布局多样性:包含来自金融、科学、专利、招标、法律文本和手册等多个公共来源的多样化和复杂布局。
  3. 详细标签集:定义了 11 个类别标签,以高细节区分布局特征。
  4. 冗余标注:部分页面进行双重或三重标注,以估计标注不确定性和机器学习模型可达到的预测准确性上限。
  5. 预定义训练、测试和验证集:提供固定集,确保类别标签的均衡表示,避免布局风格泄露。

支持的任务和排行榜

DocLayNet 数据集基于 ICDAR 2023 竞赛。更多信息请参见 ICDAR 2023 DocLayNet

数据集结构

数据字段

DocLayNet 提供四种数据资产:

  1. 每个 PNG 图像的 COCO 格式边界框标注。
  2. 与每个 PNG 图像匹配的单页 PDF 文件。
  3. 与每个 PDF 页面匹配的 JSON 文件,提供带有坐标和内容的数字文本单元格。

COCO 图像记录示例如下:

js { "id": 1, "width": 1025, "height": 1025, "file_name": "132a855ee8b23533d8ae69af0049c038171a06ddfcac892c3c6d7e6b4091c642.png", "doc_category": "financial_reports", "collection": "ann_reports_00_04_fancy", "doc_name": "NASDAQ_FFIN_2002.pdf", "page_no": 9, "precedence": 0 }

doc_category 字段使用以下常量之一:

financial_reports, scientific_articles, laws_and_regulations, government_tenders, manuals, patents

数据分割

数据集提供三个分割:

  • train
  • val
  • test

数据集创建

标注

标注过程

用于训练标注专家的标注指南可在 DocLayNet_Labeling_Guide_Public.pdf 获取。

标注者

标注是众包完成的。

附加信息

数据集策展人

数据集由 IBM Research 的 Deep Search 团队 策展。

策展人:

许可信息

许可证:CDLA-Permissive-1.0

引用信息

bib @article{doclaynet2022, title = {DocLayNet: A Large Human-Annotated Dataset for Document-Layout Segmentation}, doi = {10.1145/3534678.353904}, url = {https://doi.org/10.1145/3534678.3539043}, author = {Pfitzmann, Birgit and Auer, Christoph and Dolfi, Michele and Nassar, Ahmed S and Staar, Peter W J}, year = {2022}, isbn = {9781450393850}, publisher = {Association for Computing Machinery}, address = {New York, NY, USA}, booktitle = {Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining}, pages = {3743–3751}, numpages = {9}, location = {Washington DC, USA}, series = {KDD 22} }

贡献

感谢 @dolfim-ibm, @cau-git 添加此数据集。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作