CSFormula

github2025-08-05 更新2025-08-06 收录

下载链接：

https://github.com/DocTron-hub/DocTron-Formula

下载链接

链接失效反馈

官方服务：

资源简介：

CSFormula是一个大规模且具有挑战性的数据集，涵盖了多学科和结构复杂的公式，包括行级、段落级和页面级的公式。

CSFormula is a large-scale and challenging dataset that covers formulas from multiple disciplines with complex structures, including line-level, paragraph-level and page-level formulas.

创建时间：

2025-07-24

原始信息汇总

DocTron-Formula 数据集概述

数据集基本信息

名称: DocTron-Formula
开发团队: Meituan Group
项目负责人: Zhixiong Zeng†
通讯作者: Lin Ma*
许可证: Apache 2.0
技术报告: arXiv:2508.00311

数据集简介

目的: 用于复杂结构化场景下的通用公式识别
特点:
- 包含多学科、结构复杂的公式
- 涵盖行级、段落级和页面级公式
- 具有现实世界中的多样性

数据集组成

CSFormula: 大规模挑战性数据集
其他数据集:
- Im2LaTeX-160k
- UniMER

模型信息

基础模型: Qwen2.5-VL-7B-Instruct
训练方式: 监督微调
下载地址: DocTron/DocTron-Formula

性能表现

优势:
- 超越专用模型
- 在准确性和鲁棒性方面表现优异
- 支持多种样式、科学领域和复杂布局

使用示例

安装: shell conda create -n DTFormula python=3.10 conda activate DTFormula pip install qwen_vl_utils torch transformers rapidfuzz
测试命令: shell python demo.py --input_file line-level python demo.py --input_file paragraph-level python demo.py --input_file page-level

致谢

参考训练框架: LLaMA-Factory

引用

bibtex @misc{zhong2025doctronformulageneralizedformularecognition, title={DocTron-Formula: Generalized Formula Recognition in Complex and Structured Scenarios}, author={Yufeng Zhong and Zhixiong Zeng and Lei Chen and Longrong Yang and Liming Zheng and Jing Huang and Siqi Yang and Lin Ma}, year={2025}, eprint={2508.00311}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2508.00311}, }

搜集汇总

数据集介绍

构建方式

在科学文献智能分析领域，数学公式的光学字符识别（OCR）面临着结构多样性和复杂性的挑战。CSFormula数据集通过系统性地收集多学科、多层级（行、段落、页面）的复杂数学公式构建而成，其数据来源于真实场景下的科学文档，涵盖了丰富的排版样式和领域知识。该数据集采用严格的标注流程，确保公式结构信息的完整性和准确性，为模型训练提供了高质量的监督信号。

特点

作为当前最具挑战性的数学公式识别数据集，CSFormula以其规模宏大和场景复杂著称。该数据集包含跨学科的公式样本，其结构复杂度从单行表达式延伸到整页数学推导，真实反映了科研文档中的排版多样性。特别值得注意的是，数据集覆盖了印刷体与手写体混合、多模态符号嵌套等现实场景中的难点案例，为评估模型的泛化能力提供了理想基准。

使用方法

基于Hugging Face平台的开源生态，研究者可通过下载预训练模型权重快速部署CSFormula数据集的应用。使用流程包含环境配置、模型加载和推理三个主要环节：首先创建Python虚拟环境并安装Qwen-VL工具链，随后加载DocTron-Formula预训练模型，最后通过JSON格式组织输入数据执行行级、段落级或页面级的公式识别。数据集配套提供的demo脚本支持快速验证模型在不同复杂度场景下的表现。

背景与挑战

背景概述

DocTron-Formula数据集由美团集团的研究团队于2025年发布，旨在解决科学文献中数学公式的光学字符识别（OCR）问题。该数据集的核心研究问题聚焦于跨学科、多层级（行、段落、页面）复杂结构公式的识别，填补了传统OCR技术在数学内容处理上的局限性。通过融合通用视觉-语言模型框架，该研究摒弃了专用架构需求，为科学文档的自动化理解建立了新范式。数据集的技术报告发表于arXiv平台，其创新性体现在对多领域复杂布局公式的覆盖，推动了科学文献智能分析领域的发展。

当前挑战

该数据集面临的挑战主要体现在两方面：领域问题上，数学公式具有极端的结构多样性和语义复杂性，传统任务专用模型难以处理跨学科符号体系与嵌套布局；构建过程中，需克服真实场景下公式的印刷质量差异、多尺度解析（如行内公式与独立公式的混合）以及标注一致性等难题。数据集通过整合Im2LaTeX-160k、UniMER等多源数据，采用监督微调策略，在保持模型通用性的同时提升了对噪声和复杂排版的鲁棒性。

常用场景

经典使用场景

在科学文献智能分析领域，CSFormula数据集为数学公式的光学字符识别（OCR）提供了丰富的实验场景。该数据集特别适用于处理多学科交叉、结构复杂的数学内容，涵盖行级、段落级和页面级公式识别任务。研究者可利用该数据集验证模型在真实学术文档中的泛化能力，尤其是在处理具有复杂布局和多样风格的公式时表现出的鲁棒性。

衍生相关工作

围绕CSFormula数据集衍生的研究形成了两大技术路线：以DocTron-Formula为代表的通用视觉语言模型优化方案，以及基于对抗训练的复杂布局增强方法。相关成果发表在CVPR、ICML等顶会，其中Qwen2.5-VL架构的改进版本被广泛应用于医疗报告解析、化学方程式识别等延伸场景，推动了跨模态理解技术的边界扩展。

数据集最近研究