five

CSFormula

收藏
github2025-08-05 更新2025-08-06 收录
下载链接:
https://github.com/DocTron-hub/DocTron-Formula
下载链接
链接失效反馈
官方服务:
资源简介:
CSFormula是一个大规模且具有挑战性的数据集,涵盖了多学科和结构复杂的公式,包括行级、段落级和页面级的公式。

CSFormula is a large-scale and challenging dataset that covers formulas from multiple disciplines with complex structures, including line-level, paragraph-level and page-level formulas.
创建时间:
2025-07-24
原始信息汇总

DocTron-Formula 数据集概述

数据集基本信息

  • 名称: DocTron-Formula
  • 开发团队: Meituan Group
  • 项目负责人: Zhixiong Zeng†
  • 通讯作者: Lin Ma*
  • 许可证: Apache 2.0
  • 技术报告: arXiv:2508.00311

数据集简介

  • 目的: 用于复杂结构化场景下的通用公式识别
  • 特点:
    • 包含多学科、结构复杂的公式
    • 涵盖行级、段落级和页面级公式
    • 具有现实世界中的多样性

数据集组成

  • CSFormula: 大规模挑战性数据集
  • 其他数据集:
    • Im2LaTeX-160k
    • UniMER

模型信息

性能表现

  • 优势:
    • 超越专用模型
    • 在准确性和鲁棒性方面表现优异
    • 支持多种样式、科学领域和复杂布局

使用示例

  • 安装: shell conda create -n DTFormula python=3.10 conda activate DTFormula pip install qwen_vl_utils torch transformers rapidfuzz

  • 测试命令: shell python demo.py --input_file line-level python demo.py --input_file paragraph-level python demo.py --input_file page-level

致谢

引用

bibtex @misc{zhong2025doctronformulageneralizedformularecognition, title={DocTron-Formula: Generalized Formula Recognition in Complex and Structured Scenarios}, author={Yufeng Zhong and Zhixiong Zeng and Lei Chen and Longrong Yang and Liming Zheng and Jing Huang and Siqi Yang and Lin Ma}, year={2025}, eprint={2508.00311}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2508.00311}, }

搜集汇总
数据集介绍
main_image_url
构建方式
在科学文献智能分析领域,数学公式的光学字符识别(OCR)面临着结构多样性和复杂性的挑战。CSFormula数据集通过系统性地收集多学科、多层级(行、段落、页面)的复杂数学公式构建而成,其数据来源于真实场景下的科学文档,涵盖了丰富的排版样式和领域知识。该数据集采用严格的标注流程,确保公式结构信息的完整性和准确性,为模型训练提供了高质量的监督信号。
特点
作为当前最具挑战性的数学公式识别数据集,CSFormula以其规模宏大和场景复杂著称。该数据集包含跨学科的公式样本,其结构复杂度从单行表达式延伸到整页数学推导,真实反映了科研文档中的排版多样性。特别值得注意的是,数据集覆盖了印刷体与手写体混合、多模态符号嵌套等现实场景中的难点案例,为评估模型的泛化能力提供了理想基准。
使用方法
基于Hugging Face平台的开源生态,研究者可通过下载预训练模型权重快速部署CSFormula数据集的应用。使用流程包含环境配置、模型加载和推理三个主要环节:首先创建Python虚拟环境并安装Qwen-VL工具链,随后加载DocTron-Formula预训练模型,最后通过JSON格式组织输入数据执行行级、段落级或页面级的公式识别。数据集配套提供的demo脚本支持快速验证模型在不同复杂度场景下的表现。
背景与挑战
背景概述
DocTron-Formula数据集由美团集团的研究团队于2025年发布,旨在解决科学文献中数学公式的光学字符识别(OCR)问题。该数据集的核心研究问题聚焦于跨学科、多层级(行、段落、页面)复杂结构公式的识别,填补了传统OCR技术在数学内容处理上的局限性。通过融合通用视觉-语言模型框架,该研究摒弃了专用架构需求,为科学文档的自动化理解建立了新范式。数据集的技术报告发表于arXiv平台,其创新性体现在对多领域复杂布局公式的覆盖,推动了科学文献智能分析领域的发展。
当前挑战
该数据集面临的挑战主要体现在两方面:领域问题上,数学公式具有极端的结构多样性和语义复杂性,传统任务专用模型难以处理跨学科符号体系与嵌套布局;构建过程中,需克服真实场景下公式的印刷质量差异、多尺度解析(如行内公式与独立公式的混合)以及标注一致性等难题。数据集通过整合Im2LaTeX-160k、UniMER等多源数据,采用监督微调策略,在保持模型通用性的同时提升了对噪声和复杂排版的鲁棒性。
常用场景
经典使用场景
在科学文献智能分析领域,CSFormula数据集为数学公式的光学字符识别(OCR)提供了丰富的实验场景。该数据集特别适用于处理多学科交叉、结构复杂的数学内容,涵盖行级、段落级和页面级公式识别任务。研究者可利用该数据集验证模型在真实学术文档中的泛化能力,尤其是在处理具有复杂布局和多样风格的公式时表现出的鲁棒性。
衍生相关工作
围绕CSFormula数据集衍生的研究形成了两大技术路线:以DocTron-Formula为代表的通用视觉语言模型优化方案,以及基于对抗训练的复杂布局增强方法。相关成果发表在CVPR、ICML等顶会,其中Qwen2.5-VL架构的改进版本被广泛应用于医疗报告解析、化学方程式识别等延伸场景,推动了跨模态理解技术的边界扩展。
数据集最近研究
最新研究方向
在科学文献智能分析领域,数学公式的光学字符识别(OCR)技术一直是研究热点。CSFormula数据集的推出为多学科复杂公式识别提供了新的基准。该数据集涵盖了行级、段落级和页面级的多层次结构公式,显著提升了模型在真实场景中的泛化能力。基于通用视觉语言模型的DocTron-Formula框架通过简单监督微调即达到最优性能,这一突破性进展为科学文档自动化理解开辟了新范式。当前研究聚焦于跨学科公式的语义解析、多模态联合建模以及在学术搜索引擎等实际场景中的应用,相关成果已推动教育科技和学术出版行业的智能化转型。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作