CnMFD_Dataset
收藏github2022-12-21 更新2024-05-31 收录
下载链接:
https://github.com/breezedeus/CnMFD_Dataset
下载链接
链接失效反馈官方服务:
资源简介:
CnMFD_Dataset是利用合成技术生成的包含数学公式的中文文档数据集,可用于训练数学公式检测模型。该数据集包含了不同字体的总共17500页文档,用于帮助开发和测试数学公式检测算法。
The CnMFD_Dataset is a synthetically generated dataset containing Chinese documents with mathematical formulas, designed for training mathematical formula detection models. This dataset comprises a total of 17,500 pages of documents in various fonts, aimed at facilitating the development and testing of mathematical formula detection algorithms.
创建时间:
2022-12-21
原始信息汇总
CnMFD_Dataset 数据集概述
数据集描述
CnMFD_Dataset 是一个利用合成技术生成的包含数学公式的中文文档数据集,主要用于训练数学公式检测模型。该数据集包含总共 17500 页文档,涵盖多种字体。
数据集内容
字体及文档页面数量
| 字体名称 | 文档页面数量 |
|---|---|
| Adobe-SongTi-Std-L-2 | 2000 |
| Arial Unicode | 500 |
| Fangsong | 2000 |
| Kaiti | 2000 |
| Microsoft Yahei | 1000 |
| msyh | 1000 |
| msyhbd | 1000 |
| PingFang | 2000 |
| Songti | 2000 |
| STHeiti Medium | 2000 |
| Zhongsong | 2000 |
数据集结构
数据集主要分为两个部分:
images:存储不同字体对应的文档图片。labels:存储同名文档图片对应的数学公式标签(所在位置)。
文件格式说明
标签格式
标签文件中每行对应一个数学公式类别和所在位置,格式如下:
python <class_id> <xmin> <ymin> <xmax> <ymin> <xmax> <ymax> <xmin> <ymax>
其中:
<class_id>:0:行内公式(embedding formula)。1:独立行公式(isolated formula)。
<xmin>、<xmax>、<ymin>、<ymax>:公式所在位置的坐标,已归一化。
数据集大小
完整数据集大小为 3.6G,样例数据可在 CnMFD_Dataset样例数据 中查看。
数据集引用
使用 CnMFD_Dataset 时,请引用以下信息:
tex @misc{breezedeus_2022, title={CnMFD_Dataset}, url={https://www.kaggle.com/dsv/4752383}, DOI={10.34740/KAGGLE/DSV/4752383}, publisher={Kaggle}, author={breezedeus}, year={2022} }
开源协议
本数据集遵循 Attribution 4.0 International (CC BY 4.0) 开源协议。
搜集汇总
数据集介绍

构建方式
CnMFD_Dataset 是通过合成技术生成的中文文档数据集,专门用于数学公式检测模型的训练。该数据集包含了17500页文档,涵盖了多种常见中文字体,如Adobe-SongTi、Arial Unicode、Fangsong等。每页文档均通过合成技术生成,确保数学公式的多样性和复杂性。数据集中的数学公式标签通过精确的坐标标注,区分了行内公式和独立行公式,为模型训练提供了高质量的标注数据。
使用方法
使用 CnMFD_Dataset 时,用户可以通过 Kaggle 平台下载完整数据集。数据集包含两个主要文件夹:`images` 和 `labels`,分别存储文档图片和对应的数学公式标签。用户可以使用提供的 `visualize.py` 脚本对数据集进行可视化,该脚本依赖 Python 的 numpy、pillow 和 opencv 库。通过指定图片路径和标签路径,用户可以生成带有数学公式标注的可视化图像,便于进一步分析和模型训练。
背景与挑战
背景概述
CnMFD_Dataset是一个专门用于数学公式检测的中文文档数据集,由breezedeus于2022年创建并发布。该数据集通过合成技术生成,包含了17500页不同字体的中文文档,涵盖了Adobe-SongTi、Arial Unicode、Fangsong等多种常见字体。数据集的主要目的是为数学公式检测模型提供训练数据,特别是在中文文档中识别行内公式和独立行公式。CnMFD_Dataset的构建借鉴了IBEM Mathematical Formula Detection Dataset的数学公式数据,并结合了公开的Wiki文本数据,形成了一个具有广泛适用性的中文数学公式检测基准。该数据集的发布为中文文档处理领域的研究提供了重要的数据支持,推动了数学公式检测技术的发展。
当前挑战
CnMFD_Dataset在解决数学公式检测问题时面临的主要挑战包括:1) 中文文档中数学公式的多样性和复杂性,尤其是行内公式与独立行公式的区分;2) 不同字体对公式检测的影响,尤其是字体的多样性和排版差异可能导致检测模型的性能波动。在数据集的构建过程中,挑战主要来自于如何高效地生成大量包含数学公式的中文文档,并确保标签的准确性。此外,数据集的合成过程需要平衡真实性与多样性,以确保模型在实际应用中的泛化能力。这些挑战不仅影响了数据集的构建效率,也对后续模型的训练和评估提出了更高的要求。
常用场景
经典使用场景
CnMFD_Dataset 主要用于训练和评估数学公式检测模型,特别是在中文文档中的数学公式识别任务中。该数据集通过合成技术生成了包含多种字体的中文文档,涵盖了行内公式和独立行公式的检测场景,为研究者提供了一个标准化的测试平台。
解决学术问题
CnMFD_Dataset 解决了中文文档中数学公式检测的难题,尤其是在多字体环境下公式定位和分类的挑战。通过提供丰富的标注数据,该数据集显著提升了模型在复杂文档环境下的检测精度,推动了文档分析与理解领域的研究进展。
实际应用
在实际应用中,CnMFD_Dataset 可广泛应用于教育、出版和数字化档案管理等领域。例如,在教育场景中,该数据集可用于开发智能阅卷系统,自动识别学生作业中的数学公式;在出版领域,可用于自动化排版工具,提升文档处理的效率。
数据集最近研究
最新研究方向
CnMFD_Dataset作为一个专门针对中文文档中数学公式检测的数据集,近年来在文档分析与识别领域引起了广泛关注。随着深度学习技术的快速发展,数学公式的自动检测与识别已成为文档处理中的关键挑战之一。CnMFD_Dataset通过提供多样化的字体和丰富的数学公式标注,为研究者提供了一个强大的工具,用于开发和评估数学公式检测模型。当前的研究方向主要集中在提高模型对复杂文档布局的适应性,以及在不同字体和排版风格下的泛化能力。此外,结合多模态学习方法,将文本与公式的语义信息进行融合,也成为提升检测精度的热点方向。CnMFD_Dataset的发布不仅推动了中文文档处理技术的发展,也为跨语言文档分析提供了重要的参考价值。
以上内容由遇见数据集搜集并总结生成



