five

M^{6}Doc

收藏
arXiv2023-05-21 更新2024-07-30 收录
下载链接:
https://github.com/HCIILAB/M6Doc
下载链接
链接失效反馈
官方服务:
资源简介:
M^{6}Doc是一个大规模的多格式、多类型、多布局、多语言、多标注类别数据集,用于现代文档布局分析。它包括扫描、拍照和PDF文档,涵盖科学文章、教科书、书籍、试卷、杂志、报纸和笔记等多种类型,支持中文和英文,具有74种标注标签,共237,116个标注实例,覆盖9,080个人工标注页面。

M⁶Doc is a large-scale multi-format, multi-type, multi-layout, multi-lingual, multi-annotation-category dataset for modern document layout analysis. It includes scanned, photographed and PDF documents, covering various types such as scientific articles, textbooks, books, examination papers, magazines, newspapers and notes. It supports both Chinese and English, has 74 annotation labels, a total of 237,116 annotation instances, and covers 9,080 manually annotated pages.
创建时间:
2023-05-15
原始信息汇总

M<sup>6</sup>Doc 数据集概述

数据集简介

M<sup>6</sup>Doc 数据集是由华南理工大学深度学习与视觉计算实验室发布的,用于现代文档布局分析研究的大型多格式、多类型、多布局、多语言、多标注类别数据集。该数据集包含9,080张现代文档图像,分为七个子集:科学文章(11%)、教科书(23%)、试卷(22%)、杂志(22%)、报纸(11%)、笔记(5.5%)和书籍(5.5%)。数据集包含三种格式:PDF(64%)、拍照文档(5%)和扫描文档(31%),总计237,116个标注实例。

数据集来源

M<sup>6</sup>Doc 数据集的来源包括arXiv、中国的人民日报官方网站和VKontakte等。不同子集的来源和组成如下:

  • 科学文章子集:通过在arXiv上搜索“Optical Character Recognition”和“Document Layout Analysis”关键词获取,下载PDF文件并转换为图像。
  • 教科书子集:包含2,080张扫描的教科书图像,涵盖小学、中学和高中三个年级以及九个科目。
  • 试卷子集:包含2,000张涵盖相同九个科目的考试试卷。
  • 杂志子集:包含1,000张中英文杂志的PDF格式图像,分别来自五个中国出版商和五个美国出版商。
  • 报纸子集:包含500张来自人民日报和华尔街日报的PDF文档图像。
  • 笔记子集:包含学生在九个科目中的手写笔记,共500张扫描页。
  • 书籍子集:包含500张拍照图像,来自50本书,每本书10页,每本书具有不同的布局。

数据标注

标签定义

为了确保文档布局元素定义的合理性和可追溯性,我们参考了相关信息和书籍《Page Design: New Layout & Editorial Design(2019)》,并参考了YouTube上关于杂志和报纸布局的视频解释。我们定义了74个详细的文档标注标签,这些标签的选择考虑了不同文档类型之间的标签共性和特异性、标签频率以及独立页面的识别。

标注指南

我们提供了详细的标注指南(超过170页)和一些典型的标注示例。47名标注人员严格按照指南进行标注任务。

目录格式

数据集的目录格式如下:

├── M6Doc ├── annotations │   ├── instances_train2017.json │   │── instances_val2017.json │   └── instances_test.json ├── train2017 │   ├── xxx.jpg │   └── ... ├── val2017 │   ├── xxx.jpg │   └── ... └── test2017    ├── xxx.jpg    └── ...

引用和联系方式

使用该数据集时,请引用我们的论文:

@InProceedings{Cheng_2023_CVPR, author = {Cheng, Hiuyi and Zhang, Peirong and Wu, Sihang and Zhang, Jiaxin and Zhu, Qiyuan and Xie, Zecheng and Li, Jing and Ding, Kai and Jin, Lianwen}, title = {M6Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout Analysis}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2023}, pages = {15138-15147} }

如有任何问题,请联系作者:eelwjin@scut.edu.cnlianwen.jin@gmail.com

搜集汇总
数据集介绍
main_image_url
构建方式
M6Doc数据集通过多源数据采集和多格式文档的整合构建而成。该数据集包含了9,080页现代文档图像,涵盖了多种文档类型,如科学文章、教科书、测试试卷、杂志、报纸和笔记等。文档格式包括PDF、扫描文档和拍摄文档,语言涵盖中文和英文。数据集的构建过程中,研究人员从多个来源获取文档,如arXiv、人民日报官网等,并通过手动标注的方式为每页文档添加了74种详细的标注类别,总计237,116个标注实例。这种多样化的文档类型、格式和语言使得M6Doc成为了一个高度多样化和真实场景下的文档布局分析数据集。
特点
M6Doc数据集的主要特点在于其多格式、多类型、多布局、多语言和多标注类别的特性。首先,数据集包含了PDF、扫描和拍摄三种格式的文档,能够更好地模拟真实世界中的文档多样性。其次,文档类型涵盖了科学文章、教科书、测试试卷、杂志、报纸和笔记等,具有广泛的适用性。此外,数据集支持中英文两种语言,并提供了74种详细的标注类别,涵盖了文档中的各种元素,如标题、段落、表格、公式等。这些特点使得M6Doc成为了一个高度精细化和多样化的文档布局分析数据集,能够有效支持模型在复杂场景下的泛化能力。
使用方法
M6Doc数据集适用于多种文档布局分析任务,包括物理布局分析和逻辑布局分析。研究人员可以使用该数据集训练和评估文档布局分析模型,特别是基于深度学习的模型。数据集提供了详细的标注信息,支持多任务学习,如文档实例分割、对象检测和分类等。使用者可以通过访问数据集的GitHub仓库获取数据,并根据提供的标注指南进行模型训练和评估。此外,数据集还提供了基于Transformer的文档布局分析方法TransDLANet,该方法通过自适应元素匹配机制和多任务学习分支,能够有效处理复杂的文档布局。研究人员可以基于该数据集进行模型优化和性能对比,推动文档布局分析技术的发展。
背景与挑战
背景概述
文档布局分析(Document Layout Analysis, DLA)是现代文档理解和数字化的关键预处理任务,近年来受到越来越多的关注。M6Doc数据集由华南理工大学、华为云计算技术有限公司和IntSig信息技术有限公司的研究人员共同开发,旨在解决现有公开数据集在文档格式、多样性、语言和注释类别等方面的局限性。M6Doc数据集于2023年发布,包含了多种格式(扫描、拍照和PDF文档)、多种类型(如科学文章、教科书、杂志等)、多种布局(矩形、曼哈顿、非曼哈顿等)、多种语言(中文和英文)以及74种细粒度的注释类别,总计237,116个注释实例。该数据集的创建旨在推动细粒度逻辑布局分析的发展,并为通用布局分析、公式识别和表格分析等任务提供基准。
当前挑战
M6Doc数据集的构建面临多方面的挑战。首先,现有公开数据集的规模较小,且主要集中在PDF格式文档上,缺乏真实场景中的多样化文档。其次,现有数据集的文档类型单一,主要集中在科学文章上,缺乏多样化的文档类型和布局,导致模型在处理复杂布局时表现不佳。此外,现有数据集的语言主要为英语,缺乏多语言支持,导致模型在处理不同语言文档时可能出现领域迁移问题。最后,现有数据集的注释类别不够细粒度,无法满足细粒度布局信息提取的需求。M6Doc数据集通过引入多格式、多类型、多布局、多语言和多注释类别的文档,解决了上述挑战,但其复杂性和多样性也使得模型在处理该数据集时面临更高的难度。
常用场景
经典使用场景
M6Doc数据集的经典使用场景主要集中在文档布局分析领域,尤其是在处理多格式、多类型、多布局、多语言的现代文档时表现尤为突出。该数据集包含了从扫描文档、拍照文档到PDF文档等多种格式,涵盖了科学文章、教科书、报纸、杂志等多种文档类型。通过使用M6Doc数据集,研究人员可以训练模型以识别和分割文档中的不同元素,如文本、图像、表格等,从而实现对文档内容的精确理解。
实际应用
M6Doc数据集在实际应用中具有广泛的应用场景。例如,在文档数字化过程中,该数据集可以帮助自动识别和分类文档中的不同元素,从而提高文档处理的效率和准确性。在法律、金融等领域,M6Doc可以用于自动提取合同、报告等文档中的关键信息,减少人工处理的工作量。此外,在教育领域,该数据集还可以用于自动批改试卷、提取学生笔记中的关键内容等任务。
衍生相关工作
M6Doc数据集的发布催生了一系列相关的经典工作。首先,基于该数据集,研究人员提出了TransDLANet模型,该模型利用Transformer架构进行文档布局分析,显著提升了模型的召回率和分割精度。其次,M6Doc的多样性和精细标注激发了更多关于多模态文档分析的研究,推动了视觉与文本特征融合技术的发展。此外,该数据集还为文档布局分析的基准测试提供了新的标准,促进了相关领域的技术进步。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作