pierreguillou/DocLayNet-large
收藏Hugging Face2023-05-17 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pierreguillou/DocLayNet-large
下载链接
链接失效反馈官方服务:
资源简介:
DocLayNet large数据集由IBM Research的Deep Search团队创建,主要用于文档布局分析。该数据集包含80863个唯一页面的布局分割标注,涵盖了6种文档类别(财务报告、手册、科学文章、法律与法规、专利和政府招标)和11个不同的类标签。数据集提供了PNG图像、COCO格式的边界框标注、单页PDF文件和JSON文件等数据资产。数据集经过处理,分为三个不同大小的子集(small、base、large),并提供了便于Hugging Face笔记本使用的格式。数据集的语言主要为英语,但也包含少量德语、法语和日语文档。
The DocLayNet large dataset was created by the Deep Search team at IBM Research, primarily for document layout analysis. It contains layout segmentation annotations for 80,863 unique pages, covering 6 document categories (financial reports, manuals, scientific articles, legal and regulatory documents, patents, and government tenders) and 11 distinct class labels. The dataset provides multiple data assets including PNG images, COCO-formatted bounding box annotations, single-page PDF files, and JSON files. It has been processed into three subsets of varying sizes (small, base, and large), and is offered in a format compatible with Hugging Face notebooks. The primary language of the dataset is English, but it also includes a small number of documents in German, French, and Japanese.
提供机构:
pierreguillou
原始信息汇总
数据集概述
数据集名称
- 名称: DocLayNet large
- 别名: DocLayNet
数据集属性
- 语言: 英语 (95%), 德语 (2.5%), 法语 (1.0%), 日语 (1.0%)
- 许可证: CDLA-Permissive-1.0
- 大小类别: 10K<n<100K
- 标签:
- DocLayNet, COCO, PDF, IBM, Financial-Reports, Finance, Manuals, Scientific-Articles, Science, Laws, Law, Regulations, Patents, Government-Tenders, object-detection, image-segmentation, token-classification
- 任务类别:
- object-detection, image-segmentation, token-classification
- 任务ID:
- instance-segmentation
数据集内容
- 描述: 提供80,863个独特页面的页面布局分割地面实况,使用边界框标注11个不同的类别标签。
- 文档类别:
- 财务报告
- 手册
- 科学文章
- 法律与法规
- 专利
- 政府招标
数据集下载
- 直接链接:
- doclaynet_core.zip (28 GiB)
- doclaynet_extra.zip (7.5 GiB)
- Hugging Face数据集库: DocLayNet
数据集处理
- 处理格式:
- 三个不同大小的数据集:
- DocLayNet small (< 1,000k 文档图像)
- DocLayNet base (< 10,000k 文档图像)
- DocLayNet large (< 100,000k 文档图像)
- 包含关联的文本和PDF(base64格式)
- 格式便于HF笔记本使用
- 三个不同大小的数据集:
数据集使用
- 使用场景:
- 用于IBM的ICDAR 2023竞赛,关于企业文档中的稳健布局分割。
数据集详细信息
- PDF语言分布:
- 英语 (95%), 德语 (2.5%), 法语 (1.0%), 日语 (1.0%)
- PDF类别分布:
- 六个不同类别,财务报告和手册是最大的两个类别。
数据集结构
- 数据字段:
- id, texts, bboxes_block, bboxes_line, categories, image, pdf, page_hash, original_filename, page_no, num_pages, original_width, original_height, coco_width, coco_height, collection, doc_category
- 数据分割:
- 训练集: 69,103个样本
- 验证集: 6,480个样本
- 测试集: 4,994个样本
数据集创建
- 注释创建者: 众包
- 注释过程: 使用DocLayNet_Labeling_Guide_Public.pdf作为训练注释专家的指南。
搜集汇总
数据集介绍

背景与挑战
背景概述
DocLayNet-large是一个用于文档布局分析的大规模数据集,包含约80,863个文档页面,涵盖财务报告、科学文章等六种文档类别,并使用11个类别标签进行人工标注的边界框注释。该数据集的特点包括高布局多样性、冗余注释以确保质量,以及预定义的数据分割,支持对象检测和图像分割等任务,主要语言为英语。
以上内容由遇见数据集搜集并总结生成



