数学公式检测数据集(MFD)
收藏魔搭社区2026-01-09 更新2024-11-16 收录
下载链接:
https://modelscope.cn/datasets/irhawks/math-det
下载链接
链接失效反馈官方服务:
资源简介:
由于当前OCR等识别技术的局限性,当前多数系统仍然需要从视觉丰富文档(Visually Rich Document)图像中检测出可被文本识别模型或公式识别模型接受的区域。本数学公式检测数据集只检测文档图像中的数学公式,分成行间公式和行内公式两类。目前对行间公式的标注,暂不包含公式的编号。这样,数学公式检测任务所得到的每个公式区域,都可以送入后续的数学公式识别模型得到识别结果。
Owing to the limitations of current recognition technologies such as OCR, most existing systems still need to detect regions in images of visually rich documents (VRDs) that can serve as valid inputs for text recognition models or mathematical formula recognition models. This mathematical formula detection dataset exclusively targets the detection of mathematical formulas within document images, which are classified into two categories: displayed formulas and inline formulas. Currently, the annotations for displayed formulas do not include equation numbers. In this manner, each formula region obtained from the mathematical formula detection task can be fed into subsequent mathematical formula recognition models to generate recognition results.
提供机构:
maas
创建时间:
2024-11-05
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个专门用于数学公式检测的数据集,旨在从视觉丰富文档图像中检测出行内公式和行间公式两类元素,以支持后续的数学公式识别模型。数据集包含多个相关任务,如单行内容检测和行内元素检测,但核心聚焦于数学公式检测,标注时行间公式区域不包含公式编号,便于直接用于识别流程。
以上内容由遇见数据集搜集并总结生成



