CSFormula
收藏github2025-08-05 更新2025-08-06 收录
下载链接:
https://github.com/DocTron-hub/DocTron-Formula
下载链接
链接失效反馈官方服务:
资源简介:
CSFormula是一个大规模且具有挑战性的数据集,涵盖了多学科和结构复杂的公式,包括行级、段落级和页面级的公式。
CSFormula is a large-scale and challenging dataset that covers formulas from multiple disciplines with complex structures, including line-level, paragraph-level and page-level formulas.
创建时间:
2025-07-24
原始信息汇总
DocTron-Formula 数据集概述
数据集基本信息
- 名称: DocTron-Formula
- 开发团队: Meituan Group
- 项目负责人: Zhixiong Zeng†
- 通讯作者: Lin Ma*
- 许可证: Apache 2.0
- 技术报告: arXiv:2508.00311
数据集简介
- 目的: 用于复杂结构化场景下的通用公式识别
- 特点:
- 包含多学科、结构复杂的公式
- 涵盖行级、段落级和页面级公式
- 具有现实世界中的多样性
数据集组成
- CSFormula: 大规模挑战性数据集
- 其他数据集:
- Im2LaTeX-160k
- UniMER
模型信息
- 基础模型: Qwen2.5-VL-7B-Instruct
- 训练方式: 监督微调
- 下载地址: DocTron/DocTron-Formula
性能表现
- 优势:
- 超越专用模型
- 在准确性和鲁棒性方面表现优异
- 支持多种样式、科学领域和复杂布局
使用示例
-
安装: shell conda create -n DTFormula python=3.10 conda activate DTFormula pip install qwen_vl_utils torch transformers rapidfuzz
-
测试命令: shell python demo.py --input_file line-level python demo.py --input_file paragraph-level python demo.py --input_file page-level
致谢
- 参考训练框架: LLaMA-Factory
引用
bibtex @misc{zhong2025doctronformulageneralizedformularecognition, title={DocTron-Formula: Generalized Formula Recognition in Complex and Structured Scenarios}, author={Yufeng Zhong and Zhixiong Zeng and Lei Chen and Longrong Yang and Liming Zheng and Jing Huang and Siqi Yang and Lin Ma}, year={2025}, eprint={2508.00311}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2508.00311}, }
搜集汇总
数据集介绍

构建方式
在科学文献智能分析领域,数学公式的光学字符识别(OCR)面临着结构多样性和复杂性的挑战。CSFormula数据集通过系统性地收集多学科、多层级(行、段落、页面)的复杂数学公式构建而成,其数据来源于真实场景下的科学文档,涵盖了丰富的排版样式和领域知识。该数据集采用严格的标注流程,确保公式结构信息的完整性和准确性,为模型训练提供了高质量的监督信号。
特点
作为当前最具挑战性的数学公式识别数据集,CSFormula以其规模宏大和场景复杂著称。该数据集包含跨学科的公式样本,其结构复杂度从单行表达式延伸到整页数学推导,真实反映了科研文档中的排版多样性。特别值得注意的是,数据集覆盖了印刷体与手写体混合、多模态符号嵌套等现实场景中的难点案例,为评估模型的泛化能力提供了理想基准。
使用方法
基于Hugging Face平台的开源生态,研究者可通过下载预训练模型权重快速部署CSFormula数据集的应用。使用流程包含环境配置、模型加载和推理三个主要环节:首先创建Python虚拟环境并安装Qwen-VL工具链,随后加载DocTron-Formula预训练模型,最后通过JSON格式组织输入数据执行行级、段落级或页面级的公式识别。数据集配套提供的demo脚本支持快速验证模型在不同复杂度场景下的表现。
背景与挑战
背景概述
DocTron-Formula数据集由美团集团的研究团队于2025年发布,旨在解决科学文献中数学公式的光学字符识别(OCR)问题。该数据集的核心研究问题聚焦于跨学科、多层级(行、段落、页面)复杂结构公式的识别,填补了传统OCR技术在数学内容处理上的局限性。通过融合通用视觉-语言模型框架,该研究摒弃了专用架构需求,为科学文档的自动化理解建立了新范式。数据集的技术报告发表于arXiv平台,其创新性体现在对多领域复杂布局公式的覆盖,推动了科学文献智能分析领域的发展。
当前挑战
该数据集面临的挑战主要体现在两方面:领域问题上,数学公式具有极端的结构多样性和语义复杂性,传统任务专用模型难以处理跨学科符号体系与嵌套布局;构建过程中,需克服真实场景下公式的印刷质量差异、多尺度解析(如行内公式与独立公式的混合)以及标注一致性等难题。数据集通过整合Im2LaTeX-160k、UniMER等多源数据,采用监督微调策略,在保持模型通用性的同时提升了对噪声和复杂排版的鲁棒性。
常用场景
经典使用场景
在科学文献智能分析领域,CSFormula数据集为数学公式的光学字符识别(OCR)提供了丰富的实验场景。该数据集特别适用于处理多学科交叉、结构复杂的数学内容,涵盖行级、段落级和页面级公式识别任务。研究者可利用该数据集验证模型在真实学术文档中的泛化能力,尤其是在处理具有复杂布局和多样风格的公式时表现出的鲁棒性。
衍生相关工作
围绕CSFormula数据集衍生的研究形成了两大技术路线:以DocTron-Formula为代表的通用视觉语言模型优化方案,以及基于对抗训练的复杂布局增强方法。相关成果发表在CVPR、ICML等顶会,其中Qwen2.5-VL架构的改进版本被广泛应用于医疗报告解析、化学方程式识别等延伸场景,推动了跨模态理解技术的边界扩展。
数据集最近研究
最新研究方向
在科学文献智能分析领域,数学公式的光学字符识别(OCR)技术一直是研究热点。CSFormula数据集的推出为多学科复杂公式识别提供了新的基准。该数据集涵盖了行级、段落级和页面级的多层次结构公式,显著提升了模型在真实场景中的泛化能力。基于通用视觉语言模型的DocTron-Formula框架通过简单监督微调即达到最优性能,这一突破性进展为科学文档自动化理解开辟了新范式。当前研究聚焦于跨学科公式的语义解析、多模态联合建模以及在学术搜索引擎等实际场景中的应用,相关成果已推动教育科技和学术出版行业的智能化转型。
以上内容由遇见数据集搜集并总结生成



