five

pierreguillou/DocLayNet-small

收藏
Hugging Face2023-05-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pierreguillou/DocLayNet-small
下载链接
链接失效反馈
官方服务:
资源简介:
DocLayNet small数据集是由IBM Research的Deep Search团队创建的一个用于文档布局分析的数据集。它包含了80863个独特页面的布局分割真实值,使用边界框进行标注,覆盖了11个不同的类别标签。这些页面来自6种文档类别,包括财务报告、手册、科学文章、法律与法规、专利和政府招标。数据集提供了PNG图像、COCO格式的边界框标注、单页PDF文件以及匹配每个PDF页面的JSON文件。数据集还提供了预定义的训练集、验证集和测试集,以确保类别标签的比例表示,并避免独特布局风格的泄漏。

DocLayNet small is a document layout analysis dataset developed by the Deep Search team at IBM Research. It contains layout segmentation ground truths for 80,863 unique pages, annotated with bounding boxes and spanning 11 distinct category labels. These pages are sourced from six document categories, namely financial reports, manuals, scientific articles, laws and regulations, patents, and government tenders. The dataset offers PNG images, bounding box annotations in COCO format, single-page PDF files, and JSON files corresponding to each PDF page. Additionally, the dataset provides predefined training, validation, and test sets to guarantee proportional representation of category labels and prevent data leakage involving unique layout styles.
提供机构:
pierreguillou
原始信息汇总

数据集概述

数据集名称

  • 名称: DocLayNet small
  • 别名: 无

数据集基本信息

  • 语言: 英语 (95%), 德语 (2.5%), 法语 (1.0%), 日语 (1.0%)
  • 许可证: CDLA-Permissive-1.0
  • 大小类别: 1K<n<10K

数据集内容

  • 类别: 金融报告, 手册, 科学文章, 法律与法规, 专利, 政府招标
  • 任务类别: 目标检测, 图像分割, 令牌分类
  • 任务ID: 实例分割

数据集结构

  • 训练集: 691个文档图像
  • 验证集: 64个文档图像
  • 测试集: 49个文档图像

数据集下载

数据集使用

  • 处理格式: 支持Hugging Face笔记本的格式
  • 使用场景: 用于IBM的ICDAR 2023竞赛,关于企业文档的鲁棒布局分割

数据集详细描述

  • 布局分割: 使用边界框为11个不同的类别标签提供页面布局分割的地面实况
  • 文档来源: 来自多个存储库的6个不同类别文档
  • 语言分布: 主要为英语,包含少量德语、法语和日语文档
  • 文档类别分布: 金融报告和手册是最大的两个类别,包含大量自由格式的布局

数据集特点

  • 人工标注: 由训练有素的专家手工标注,提供高质量的布局分割标准
  • 布局多样性: 包含从各种公共来源获取的多样化和复杂布局
  • 详细标签集: 定义了11个类别标签以区分布局特征的详细信息
  • 冗余标注: 部分页面进行了双重或三重标注,以估计标注不确定性和机器学习模型可达到的预测精度上限
  • 预定义分割: 提供固定的训练、验证和测试集,确保类别标签的均衡表示和避免布局风格的泄露

数据集附加信息

搜集汇总
数据集介绍
main_image_url
构建方式
DocLayNet-small数据集由Deep Search团队(IBM Research)创建,基于原始DocLayNet数据集的子集。该数据集通过从原始数据集中随机选择约1%的文档图像构建而成,包含691个训练样本、64个验证样本和49个测试样本。数据集的构建过程中,不仅保留了原始文档的图像和PDF文件,还通过OCR技术提取了文本内容,并将标注的边界框与文本进行了关联,确保了数据集在文档布局分析任务中的实用性。
特点
DocLayNet-small数据集的主要特点在于其多样性和复杂性。数据集涵盖了六种不同的文档类别,包括财务报告、手册、科学文章、法律与法规、专利和政府招标文件,每种类别均来自不同的公共资源,确保了布局的多样性。此外,数据集提供了11种详细的类别标签,用于区分不同的布局特征,并且部分页面进行了重复标注,以评估标注的不确定性和模型的预测精度。
使用方法
DocLayNet-small数据集适用于多种文档布局分析任务,如对象检测、图像分割和标记分类。用户可以通过Hugging Face的datasets库加载该数据集,并使用提供的PDF文件和文本内容进行模型训练和评估。数据集的格式经过优化,便于在Hugging Face的Notebook中使用,特别适用于LayoutLMv3或LiLT等布局模型的微调。此外,数据集还提供了详细的标注边界框,便于用户进行可视化和进一步分析。
背景与挑战
背景概述
DocLayNet-small数据集是由IBM Research的Deep Search团队创建的,旨在为文档布局分析提供高质量的标注数据。该数据集于2022年发布,包含了来自六大类文档(如财务报告、手册、科学文章、法律与法规、专利和政府招标文件)的80863个页面,每个页面都带有11个不同类别的边界框标注。DocLayNet的核心研究问题是如何通过人工标注的布局信息,提升文档布局分析的准确性和鲁棒性。该数据集的发布对文档处理领域,尤其是文档布局分析和对象检测任务,具有重要的推动作用。
当前挑战
DocLayNet-small数据集在构建过程中面临了多个挑战。首先,数据集的规模庞大,下载和处理这些数据需要大量的时间和存储资源,这对资源有限的实验者构成了限制。其次,文档的语言多样性(主要为英语,但也包含德语、法语和日语)可能对依赖文本特征的布局分析方法带来挑战。此外,数据集的标注过程复杂,涉及多个标注者的协作,确保标注一致性和质量是一个重要问题。最后,将数据集转换为适合Hugging Face笔记本使用的格式,需要额外的处理步骤和代码,增加了使用的复杂性。
常用场景
经典使用场景
DocLayNet-small数据集的经典使用场景主要集中在文档布局分析领域,尤其是在对象检测和图像分割任务中。该数据集提供了丰富的文档页面布局标注,包括11种不同的类别标签,适用于训练和评估文档布局分析模型。通过使用该数据集,研究人员可以有效地提升模型在处理复杂文档布局时的性能,尤其是在金融报告、科学文章、专利等领域的应用中。
解决学术问题
DocLayNet-small数据集解决了文档布局分析中的多个学术研究问题,特别是在复杂布局的识别和分割方面。通过提供高质量的人工标注数据,该数据集为研究者提供了一个标准化的基准,用于评估和比较不同布局分析模型的性能。此外,数据集中的冗余标注设计有助于估计标注的不确定性,从而为模型性能的上限提供了参考,推动了文档布局分析领域的研究进展。
衍生相关工作
DocLayNet-small数据集的发布催生了一系列相关的经典工作,尤其是在文档布局分析和文档理解领域。例如,基于该数据集的训练,研究者开发了多种先进的文档布局分析模型,如LayoutLMv3和LiLT,这些模型在多个文档理解任务中表现出色。此外,该数据集还为ICDAR 2023竞赛提供了基准,推动了文档处理技术的进一步发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作