five

CnMFD_Dataset

收藏
github2022-12-21 更新2024-05-31 收录
下载链接:
https://github.com/breezedeus/CnMFD_Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
CnMFD_Dataset是利用合成技术生成的包含数学公式的中文文档数据集,可用于训练数学公式检测模型。该数据集包含了不同字体的总共17500页文档,用于帮助开发和测试数学公式检测算法。

The CnMFD_Dataset is a synthetically generated dataset containing Chinese documents with mathematical formulas, designed for training mathematical formula detection models. This dataset comprises a total of 17,500 pages of documents in various fonts, aimed at facilitating the development and testing of mathematical formula detection algorithms.
创建时间:
2022-12-21
原始信息汇总

CnMFD_Dataset 数据集概述

数据集描述

CnMFD_Dataset 是一个利用合成技术生成的包含数学公式的中文文档数据集,主要用于训练数学公式检测模型。该数据集包含总共 17500 页文档,涵盖多种字体。

数据集内容

字体及文档页面数量

字体名称 文档页面数量
Adobe-SongTi-Std-L-2 2000
Arial Unicode 500
Fangsong 2000
Kaiti 2000
Microsoft Yahei 1000
msyh 1000
msyhbd 1000
PingFang 2000
Songti 2000
STHeiti Medium 2000
Zhongsong 2000

数据集结构

数据集主要分为两个部分:

  • images:存储不同字体对应的文档图片。
  • labels:存储同名文档图片对应的数学公式标签(所在位置)。

文件格式说明

标签格式

标签文件中每行对应一个数学公式类别和所在位置,格式如下:

python <class_id> <xmin> <ymin> <xmax> <ymin> <xmax> <ymax> <xmin> <ymax>

其中:

  • <class_id>
    • 0:行内公式(embedding formula)。
    • 1:独立行公式(isolated formula)。
  • <xmin><xmax><ymin><ymax>:公式所在位置的坐标,已归一化。

数据集大小

完整数据集大小为 3.6G,样例数据可在 CnMFD_Dataset样例数据 中查看。

数据集引用

使用 CnMFD_Dataset 时,请引用以下信息:

tex @misc{breezedeus_2022, title={CnMFD_Dataset}, url={https://www.kaggle.com/dsv/4752383}, DOI={10.34740/KAGGLE/DSV/4752383}, publisher={Kaggle}, author={breezedeus}, year={2022} }

开源协议

本数据集遵循 Attribution 4.0 International (CC BY 4.0) 开源协议。

搜集汇总
数据集介绍
main_image_url
构建方式
CnMFD_Dataset 是通过合成技术生成的中文文档数据集,专门用于数学公式检测模型的训练。该数据集包含了17500页文档,涵盖了多种常见中文字体,如Adobe-SongTi、Arial Unicode、Fangsong等。每页文档均通过合成技术生成,确保数学公式的多样性和复杂性。数据集中的数学公式标签通过精确的坐标标注,区分了行内公式和独立行公式,为模型训练提供了高质量的标注数据。
使用方法
使用 CnMFD_Dataset 时,用户可以通过 Kaggle 平台下载完整数据集。数据集包含两个主要文件夹:`images` 和 `labels`,分别存储文档图片和对应的数学公式标签。用户可以使用提供的 `visualize.py` 脚本对数据集进行可视化,该脚本依赖 Python 的 numpy、pillow 和 opencv 库。通过指定图片路径和标签路径,用户可以生成带有数学公式标注的可视化图像,便于进一步分析和模型训练。
背景与挑战
背景概述
CnMFD_Dataset是一个专门用于数学公式检测的中文文档数据集,由breezedeus于2022年创建并发布。该数据集通过合成技术生成,包含了17500页不同字体的中文文档,涵盖了Adobe-SongTi、Arial Unicode、Fangsong等多种常见字体。数据集的主要目的是为数学公式检测模型提供训练数据,特别是在中文文档中识别行内公式和独立行公式。CnMFD_Dataset的构建借鉴了IBEM Mathematical Formula Detection Dataset的数学公式数据,并结合了公开的Wiki文本数据,形成了一个具有广泛适用性的中文数学公式检测基准。该数据集的发布为中文文档处理领域的研究提供了重要的数据支持,推动了数学公式检测技术的发展。
当前挑战
CnMFD_Dataset在解决数学公式检测问题时面临的主要挑战包括:1) 中文文档中数学公式的多样性和复杂性,尤其是行内公式与独立行公式的区分;2) 不同字体对公式检测的影响,尤其是字体的多样性和排版差异可能导致检测模型的性能波动。在数据集的构建过程中,挑战主要来自于如何高效地生成大量包含数学公式的中文文档,并确保标签的准确性。此外,数据集的合成过程需要平衡真实性与多样性,以确保模型在实际应用中的泛化能力。这些挑战不仅影响了数据集的构建效率,也对后续模型的训练和评估提出了更高的要求。
常用场景
经典使用场景
CnMFD_Dataset 主要用于训练和评估数学公式检测模型,特别是在中文文档中的数学公式识别任务中。该数据集通过合成技术生成了包含多种字体的中文文档,涵盖了行内公式和独立行公式的检测场景,为研究者提供了一个标准化的测试平台。
解决学术问题
CnMFD_Dataset 解决了中文文档中数学公式检测的难题,尤其是在多字体环境下公式定位和分类的挑战。通过提供丰富的标注数据,该数据集显著提升了模型在复杂文档环境下的检测精度,推动了文档分析与理解领域的研究进展。
实际应用
在实际应用中,CnMFD_Dataset 可广泛应用于教育、出版和数字化档案管理等领域。例如,在教育场景中,该数据集可用于开发智能阅卷系统,自动识别学生作业中的数学公式;在出版领域,可用于自动化排版工具,提升文档处理的效率。
数据集最近研究
最新研究方向
CnMFD_Dataset作为一个专门针对中文文档中数学公式检测的数据集,近年来在文档分析与识别领域引起了广泛关注。随着深度学习技术的快速发展,数学公式的自动检测与识别已成为文档处理中的关键挑战之一。CnMFD_Dataset通过提供多样化的字体和丰富的数学公式标注,为研究者提供了一个强大的工具,用于开发和评估数学公式检测模型。当前的研究方向主要集中在提高模型对复杂文档布局的适应性,以及在不同字体和排版风格下的泛化能力。此外,结合多模态学习方法,将文本与公式的语义信息进行融合,也成为提升检测精度的热点方向。CnMFD_Dataset的发布不仅推动了中文文档处理技术的发展,也为跨语言文档分析提供了重要的参考价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作