FormulaNet
收藏github2022-11-21 更新2024-05-31 收录
下载链接:
https://github.com/felix-schmitt/FormulaNet
下载链接
链接失效反馈官方服务:
资源简介:
FormulaNet是一个新的、大规模的数学公式检测数据集,包含来自arXiv的46,672页STEM文档,并具有13种不同的标签类型。数据集被分为训练集和验证集,用户可以通过提供的链接下载和处理数据。
FormulaNet is a novel, large-scale dataset for mathematical formula detection, comprising 46,672 pages of STEM documents sourced from arXiv, annotated with 13 distinct label types. The dataset is partitioned into training and validation sets, and users can download and process the data via the provided links.
创建时间:
2022-07-15
原始信息汇总
数据集概述
数据集名称
- FormulaNet
数据集描述
- FormulaNet 是一个大规模的数学公式检测数据集,包含来自 arXiv 的 46,672 页 STEM 文档。
数据集组成
- 训练集:44,338 页
- 验证集:2,334 页
数据集标签类型
- 内联公式
- 显示公式
- 标题
- 表格
- 图形
- 段落
- 标题
- 脚注
- 列表
- 参考文献
- 显示公式参考编号
- 带参考编号的显示公式
- 脚注参考编号
数据集获取方式
- 由于版权原因,仅提供论文列表下载链接,需自行下载并处理。
数据集使用环境
- Docker 选项:推荐使用 Docker 环境。
- 经典选项:推荐使用 Ubuntu 20.04.5 LTS 和 LaTeX 完整安装。
基准模型性能
| 模型 | mAP | mAP@50 | mAP@75 | mAP@inline | mAP@display |
|---|---|---|---|---|---|
| FCOS-50 | 0.754±0.03 | 0.921±0.02 | 0.84±0.02 | 0.752±0.02 | 0.755±0.02 |
| FCOS-101 | 0.755±0.03 | 0.920±0.02 | 0.841±0.02 | 0.756±0.02 | 0.749±0.03 |
许可证
引用信息
- 文章标题:FormulaNet: A Benchmark Dataset for Mathematical Formula Detection
- 作者:Felix M. Schmitt-Koopmann, Elaine M. Huang, Hans-Peter Hutter, Thilo Stadelmann, Alireza Darvishy
- 发表期刊:IEEE Access
- 年份:2022
- 卷号:10
- 页码:91588-91596
- DOI:10.1109/ACCESS.2022.3202639
搜集汇总
数据集介绍

构建方式
FormulaNet数据集的构建基于arXiv平台上的46,672页STEM文档,涵盖了13种不同类型的标签。数据集被划分为44,338页的训练集和2,334页的验证集。由于版权限制,数据集仅提供论文列表,用户需自行下载并处理相关文档。
使用方法
FormulaNet数据集的使用方法提供了两种选项:Docker方式和经典方式。Docker方式推荐使用Docker容器进行环境搭建,用户需克隆GitHub仓库并下载标注文件,随后通过Docker命令构建和运行容器。经典方式则要求用户在Ubuntu系统上安装LaTeX和Python环境,并通过脚本下载数据。两种方式均支持用户快速部署并使用该数据集进行数学公式检测任务。
背景与挑战
背景概述
FormulaNet数据集由Felix M. Schmitt-Koopmann等人于2022年创建,旨在为数学公式检测领域提供一个大规模、多样化的基准数据集。该数据集包含来自arXiv的46,672页STEM文档,涵盖了13种不同类型的标签,如内联公式、显示公式、标题、表格等。FormulaNet的创建不仅填补了数学公式检测领域数据集的空白,还为相关研究提供了丰富的实验数据,推动了该领域的技术进步。通过其开源性和广泛的应用场景,FormulaNet已成为数学公式检测研究的重要资源。
当前挑战
FormulaNet数据集在构建和应用过程中面临多重挑战。首先,数学公式的多样性和复杂性使得标注过程极为繁琐,尤其是公式与文本、图像等元素的混合布局增加了标注难度。其次,由于数据来源于arXiv,版权问题限制了数据集的直接分发,用户需自行下载和处理原始文档,增加了使用门槛。此外,数学公式检测任务本身具有较高的技术难度,尤其是在处理复杂的排版和公式结构时,现有模型的性能仍有待提升。这些挑战不仅体现在数据集的构建过程中,也反映了该领域在技术实现上的瓶颈。
常用场景
经典使用场景
FormulaNet数据集在数学公式检测领域具有广泛的应用,尤其是在处理科学、技术、工程和数学(STEM)文档时。该数据集通过提供大量标注的arXiv文档页面,支持研究人员开发和测试自动化公式检测算法。这些算法能够识别文档中的内联公式、显示公式以及其他文本元素,如表格、图表和段落,从而提升文档解析的准确性和效率。
解决学术问题
FormulaNet解决了数学公式检测中的关键问题,如公式的精确识别与分类。通过提供多样化的标注数据,该数据集帮助研究人员克服了传统方法在处理复杂文档布局时的局限性。其丰富的标注类型不仅支持公式检测,还为文档结构分析提供了基础,推动了文档理解技术的进步。
实际应用
FormulaNet的实际应用场景包括学术文献的自动化处理、科学文档的语义分析以及教育技术中的智能内容提取。例如,在学术搜索引擎中,该数据集可用于增强公式检索功能;在教育领域,它支持开发智能辅导系统,帮助学生更好地理解数学内容。此外,FormulaNet还可用于科学出版物的自动化排版和格式转换。
数据集最近研究
最新研究方向
FormulaNet数据集作为数学公式检测领域的重要资源,近年来在学术研究中得到了广泛应用。该数据集涵盖了来自arXiv的46,672页STEM文档,包含13种不同类型的标注,为数学公式检测任务提供了丰富的训练和验证数据。当前的研究方向主要集中在提升模型的检测精度和泛化能力,特别是在复杂文档环境下的公式识别。FCOS-50和FCOS-101等基线模型的引入,为后续研究提供了可靠的基准。FormulaNet的发布不仅推动了数学公式检测技术的发展,还为文档理解、信息提取等领域的交叉研究提供了新的可能性。
以上内容由遇见数据集搜集并总结生成



