M^{6}Doc
收藏M<sup>6</sup>Doc 数据集概述
数据集简介
M<sup>6</sup>Doc 数据集是由华南理工大学深度学习与视觉计算实验室发布的,用于现代文档布局分析研究的大型多格式、多类型、多布局、多语言、多标注类别数据集。该数据集包含9,080张现代文档图像,分为七个子集:科学文章(11%)、教科书(23%)、试卷(22%)、杂志(22%)、报纸(11%)、笔记(5.5%)和书籍(5.5%)。数据集包含三种格式:PDF(64%)、拍照文档(5%)和扫描文档(31%),总计237,116个标注实例。
数据集来源
M<sup>6</sup>Doc 数据集的来源包括arXiv、中国的人民日报官方网站和VKontakte等。不同子集的来源和组成如下:
- 科学文章子集:通过在arXiv上搜索“Optical Character Recognition”和“Document Layout Analysis”关键词获取,下载PDF文件并转换为图像。
- 教科书子集:包含2,080张扫描的教科书图像,涵盖小学、中学和高中三个年级以及九个科目。
- 试卷子集:包含2,000张涵盖相同九个科目的考试试卷。
- 杂志子集:包含1,000张中英文杂志的PDF格式图像,分别来自五个中国出版商和五个美国出版商。
- 报纸子集:包含500张来自人民日报和华尔街日报的PDF文档图像。
- 笔记子集:包含学生在九个科目中的手写笔记,共500张扫描页。
- 书籍子集:包含500张拍照图像,来自50本书,每本书10页,每本书具有不同的布局。
数据标注
标签定义
为了确保文档布局元素定义的合理性和可追溯性,我们参考了相关信息和书籍《Page Design: New Layout & Editorial Design(2019)》,并参考了YouTube上关于杂志和报纸布局的视频解释。我们定义了74个详细的文档标注标签,这些标签的选择考虑了不同文档类型之间的标签共性和特异性、标签频率以及独立页面的识别。
标注指南
我们提供了详细的标注指南(超过170页)和一些典型的标注示例。47名标注人员严格按照指南进行标注任务。
目录格式
数据集的目录格式如下:
├── M6Doc ├── annotations │ ├── instances_train2017.json │ │── instances_val2017.json │ └── instances_test.json ├── train2017 │ ├── xxx.jpg │ └── ... ├── val2017 │ ├── xxx.jpg │ └── ... └── test2017 ├── xxx.jpg └── ...
引用和联系方式
使用该数据集时,请引用我们的论文:
@InProceedings{Cheng_2023_CVPR, author = {Cheng, Hiuyi and Zhang, Peirong and Wu, Sihang and Zhang, Jiaxin and Zhu, Qiyuan and Xie, Zecheng and Li, Jing and Ding, Kai and Jin, Lianwen}, title = {M6Doc: A Large-Scale Multi-Format, Multi-Type, Multi-Layout, Multi-Language, Multi-Annotation Category Dataset for Modern Document Layout Analysis}, booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)}, month = {June}, year = {2023}, pages = {15138-15147} }
如有任何问题,请联系作者:eelwjin@scut.edu.cn 或 lianwen.jin@gmail.com。




