CnMFD_Dataset

github2022-12-21 更新2024-05-31 收录

下载链接：

https://github.com/breezedeus/CnMFD_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

CnMFD_Dataset是利用合成技术生成的包含数学公式的中文文档数据集，可用于训练数学公式检测模型。该数据集包含了不同字体的总共17500页文档，用于帮助开发和测试数学公式检测算法。

The CnMFD_Dataset is a synthetically generated dataset containing Chinese documents with mathematical formulas, designed for training mathematical formula detection models. This dataset comprises a total of 17,500 pages of documents in various fonts, aimed at facilitating the development and testing of mathematical formula detection algorithms.

创建时间：

2022-12-21

原始信息汇总

CnMFD_Dataset 数据集概述

数据集描述

CnMFD_Dataset 是一个利用合成技术生成的包含数学公式的中文文档数据集，主要用于训练数学公式检测模型。该数据集包含总共 17500 页文档，涵盖多种字体。

数据集内容

字体及文档页面数量

字体名称	文档页面数量
Adobe-SongTi-Std-L-2	2000
Arial Unicode	500
Fangsong	2000
Kaiti	2000
Microsoft Yahei	1000
msyh	1000
msyhbd	1000
PingFang	2000
Songti	2000
STHeiti Medium	2000
Zhongsong	2000

数据集结构

数据集主要分为两个部分：

images：存储不同字体对应的文档图片。
labels：存储同名文档图片对应的数学公式标签（所在位置）。

文件格式说明

标签格式

标签文件中每行对应一个数学公式类别和所在位置，格式如下：

python <class_id> <xmin> <ymin> <xmax> <ymin> <xmax> <ymax> <xmin> <ymax>

其中：

<class_id>：
- 0：行内公式（embedding formula）。
- 1：独立行公式（isolated formula）。
<xmin>、<xmax>、<ymin>、<ymax>：公式所在位置的坐标，已归一化。

数据集大小

完整数据集大小为 3.6G，样例数据可在 CnMFD_Dataset样例数据中查看。

数据集引用

使用 CnMFD_Dataset 时，请引用以下信息：

tex @misc{breezedeus_2022, title={CnMFD_Dataset}, url={https://www.kaggle.com/dsv/4752383}, DOI={10.34740/KAGGLE/DSV/4752383}, publisher={Kaggle}, author={breezedeus}, year={2022} }

开源协议

本数据集遵循 Attribution 4.0 International (CC BY 4.0) 开源协议。

搜集汇总

数据集介绍

构建方式

CnMFD_Dataset 是通过合成技术生成的中文文档数据集，专门用于数学公式检测模型的训练。该数据集包含了17500页文档，涵盖了多种常见中文字体，如Adobe-SongTi、Arial Unicode、Fangsong等。每页文档均通过合成技术生成，确保数学公式的多样性和复杂性。数据集中的数学公式标签通过精确的坐标标注，区分了行内公式和独立行公式，为模型训练提供了高质量的标注数据。

使用方法

使用 CnMFD_Dataset 时，用户可以通过 Kaggle 平台下载完整数据集。数据集包含两个主要文件夹：`images` 和 `labels`，分别存储文档图片和对应的数学公式标签。用户可以使用提供的 `visualize.py` 脚本对数据集进行可视化，该脚本依赖 Python 的 numpy、pillow 和 opencv 库。通过指定图片路径和标签路径，用户可以生成带有数学公式标注的可视化图像，便于进一步分析和模型训练。

背景与挑战

背景概述

CnMFD_Dataset是一个专门用于数学公式检测的中文文档数据集，由breezedeus于2022年创建并发布。该数据集通过合成技术生成，包含了17500页不同字体的中文文档，涵盖了Adobe-SongTi、Arial Unicode、Fangsong等多种常见字体。数据集的主要目的是为数学公式检测模型提供训练数据，特别是在中文文档中识别行内公式和独立行公式。CnMFD_Dataset的构建借鉴了IBEM Mathematical Formula Detection Dataset的数学公式数据，并结合了公开的Wiki文本数据，形成了一个具有广泛适用性的中文数学公式检测基准。该数据集的发布为中文文档处理领域的研究提供了重要的数据支持，推动了数学公式检测技术的发展。

当前挑战

CnMFD_Dataset在解决数学公式检测问题时面临的主要挑战包括：1) 中文文档中数学公式的多样性和复杂性，尤其是行内公式与独立行公式的区分；2) 不同字体对公式检测的影响，尤其是字体的多样性和排版差异可能导致检测模型的性能波动。在数据集的构建过程中，挑战主要来自于如何高效地生成大量包含数学公式的中文文档，并确保标签的准确性。此外，数据集的合成过程需要平衡真实性与多样性，以确保模型在实际应用中的泛化能力。这些挑战不仅影响了数据集的构建效率，也对后续模型的训练和评估提出了更高的要求。

常用场景

经典使用场景

CnMFD_Dataset 主要用于训练和评估数学公式检测模型，特别是在中文文档中的数学公式识别任务中。该数据集通过合成技术生成了包含多种字体的中文文档，涵盖了行内公式和独立行公式的检测场景，为研究者提供了一个标准化的测试平台。

解决学术问题

CnMFD_Dataset 解决了中文文档中数学公式检测的难题，尤其是在多字体环境下公式定位和分类的挑战。通过提供丰富的标注数据，该数据集显著提升了模型在复杂文档环境下的检测精度，推动了文档分析与理解领域的研究进展。

实际应用

在实际应用中，CnMFD_Dataset 可广泛应用于教育、出版和数字化档案管理等领域。例如，在教育场景中，该数据集可用于开发智能阅卷系统，自动识别学生作业中的数学公式；在出版领域，可用于自动化排版工具，提升文档处理的效率。

数据集最近研究