CSFormula

arXiv2025-08-01 更新2025-08-05 收录

下载链接：

https://github.com/DocTron-hub/DocTron-Formula

下载链接

链接失效反馈

官方服务：

资源简介：

CSFormula数据集是一个大规模且具有挑战性的数据集，包含多学科和结构复杂的公式，覆盖了行、段落和页面级别的公式。数据集不仅包含单行公式，还包括多行和页面级别的复杂布局，使模型能够学习高级科学领域中丰富的结构和多样的表达，确保在现实世界的文档场景中具有鲁棒性。数据集分为三个层级：行级别、段落级别和页面级别，每个层级都有大量独特的公式样本。数据集的创建过程包括从多个学科领域收集复杂公式样本，使用高效的数据采集和处理工具进行清洗和组织。数据集可用于训练和评估模型，以实现高难度的结构复杂的公式的识别。

The CSFormula dataset is a large-scale and challenging dataset containing multi-disciplinary, structurally complex formulas, covering formulas at the line, paragraph, and page levels. The dataset not only includes single-line formulas, but also complex layouts of multi-line and page-level ones, enabling models to learn rich structures and diverse expressions in advanced scientific fields, and ensuring robustness in real-world document scenarios. The dataset is divided into three levels: line-level, paragraph-level, and page-level, each with a large number of unique formula samples. The dataset creation process involves collecting complex formula samples from multiple disciplinary fields, and cleaning and organizing them using efficient data collection and processing tools. The dataset can be used to train and evaluate models for high-difficulty, structurally complex formula recognition.

提供机构：

美团

创建时间：

2025-08-01

原始信息汇总

DocTron-Formula 数据集概述

数据集基本信息

名称: DocTron-Formula
类型: 数学公式识别数据集
开发者: Meituan Group
主要贡献者: Yufeng Zhong, Zhixiong Zeng†, Lei Chen, Longrong Yang, Liming Zheng, Jing Huang, Siqi Yang, Lin Ma*
许可证: Apache 2.0

数据集特点

规模: 大规模
复杂度: 包含多学科和结构复杂的公式
层级: 涵盖行级、段落级和页面级的公式识别

技术背景

框架: 基于通用视觉语言模型的统一框架
目标: 解决数学内容的结构多样性、复杂性和现实世界变异性问题
方法: 通过监督微调实现最先进的性能

性能

优势: 在准确性、鲁棒性和复杂科学文档的自动理解方面超越专业模型

使用示例

安装: 需要Python 3.10环境及相关依赖库
测试: 支持行级、段落级和页面级的公式识别测试

致谢

参考训练框架: LLaMA-Factory

引用

bibtex @misc{zhong2025doctronformulageneralizedformularecognition, title={DocTron-Formula: Generalized Formula Recognition in Complex and Structured Scenarios}, author={Yufeng Zhong and Zhixiong Zeng and Lei Chen and Longrong Yang and Liming Zheng and Jing Huang and Siqi Yang and Lin Ma}, year={2025}, eprint={2508.00311}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2508.00311}, }

搜集汇总

数据集介绍

构建方式

在科学文献智能处理领域，数学公式的光学字符识别（OCR）技术面临结构多样性和复杂性的重大挑战。为应对这一挑战，CSFormula数据集通过系统化的数据采集流程构建而成：研究团队首先从StackExchange网站爬取了580余万网页，运用正则表达式筛选包含LaTeX公式的页面，随后通过MathJax渲染引擎将公式转化为图像，最终形成包含图像-LaTeX对的标准化数据集。该数据集采用三级分类体系（行级、段落级和页面级），并经过严格去重处理，确保数据质量与多样性。

使用方法

该数据集支持端到端的公式识别模型训练与评估，研究者可通过监督微调（SFT）方式适配通用视觉语言模型。具体使用时，输入为包含公式的文档图像，输出为对应的LaTeX标记序列。评估阶段建议采用编辑距离（ED）和字符检测匹配（CDM）双指标体系，前者衡量字符级准确性，后者通过视觉相似度评估缓解等效LaTeX表达的偏差。数据集已按7:1比例划分训练测试集，支持行级、段落级和页面级的跨层级泛化能力测试。

背景与挑战

背景概述

CSFormula数据集由Meituan团队于2025年提出，旨在解决复杂场景下的数学公式识别问题。该数据集由Yufeng Zhong等学者构建，作为DocTron-Formula框架的核心组成部分，专注于多学科、多层级结构的数学表达式识别。其创新性体现在首次系统整合了行级、段落级和页级公式样本，覆盖数学、物理、化学等领域的复杂嵌套结构和专业符号系统，弥补了传统数据集在真实科学文献处理中的不足。该数据集的发布显著推动了视觉-语言模型在科技文档解析领域的发展，为跨模态理解建立了新的基准。

当前挑战

CSFormula数据集面临三重核心挑战：在领域问题层面，需解决复杂公式的结构多样性识别难题，包括多级嵌套、跨学科符号系统及混合排版布局的语义解析；在构建过程中，需克服学术资源中公式样本的标注一致性难题，特别是页级公式与文本交错区域的边界划分；技术实现上需平衡渲染保真度与数据规模，确保LaTeX渲染图像能准确反映原始文献的视觉特征。这些挑战使得该数据集成为测试模型跨域适应性和结构理解能力的试金石。

常用场景

经典使用场景

在科学文献数字化与智能分析领域，CSFormula数据集通过其跨学科、多层级的结构化公式样本，为复杂数学表达式的光学字符识别（OCR）研究提供了基准测试平台。该数据集特别适用于评估模型对嵌套结构、跨行公式以及页面级混合布局的解析能力，例如在物理、化学等学科文献中常见的矩阵方程与微分公式的识别。

解决学术问题

CSFormula有效解决了传统公式识别中三大核心问题：其一，突破了任务专用模型对特定架构的依赖，验证了通用视觉语言模型通过微调即可实现SOTA性能；其二，填补了现有数据集在跨学科复杂公式样本上的空白，涵盖多级嵌套、特殊运算符等真实场景挑战；其三，首次系统性地整合了行级、段落级和页面级公式结构，为文档级语义理解研究提供了数据基础。

实际应用

该数据集已成功应用于学术文献检索系统的公式索引构建，支持通过LaTeX表达式反向定位原文位置。在工业场景中，其衍生的DocTron-Formula模型被集成至科研协作平台，实现论文草稿的自动公式校对功能，显著提升数学内容编辑效率。教育领域则利用其多模态特性开发交互式教材，支持学生拍照获取复杂公式的解析步骤。

数据集最近研究