TexOCR
收藏github2026-04-20 更新2026-05-01 收录
下载链接:
https://github.com/QDRhhhh/TexOCR
下载链接
链接失效反馈官方服务:
资源简介:
TexOCR是第一个用于将科学PDF页面重建为可编译LaTeX的基准测试。它包含3,000篇跨多个领域的专家注释论文,以及一个评估套件,该套件集成了文本、方程和表格的组件级准确性,以及章节、引用和交叉参考的结构级检查,还有一个零接触编译测试。为了支持大规模训练,我们还发布了TexOCR-Train,包含404K对齐的页面-LaTeX监督对。
TexOCR is the first benchmark for reconstructing scientific PDF pages into compilable LaTeX documents. It contains 3,000 expert-annotated academic papers across multiple disciplines, along with an evaluation suite that integrates component-level accuracy metrics for text, equations and tables, structural-level checks for sections, citations and cross-references, as well as a zero-touch compilation test. To support large-scale training, we also release TexOCR-Train, which includes 404K aligned page-LaTeX supervised pairs.
创建时间:
2026-04-17
原始信息汇总
TexOCR 数据集详情
数据集简介
TexOCR 是首个用于科学 PDF 页面到可编译 LaTeX 重建的基准测试,收录于 ACL 2026 主会议。该数据集包含 3,000 篇专家标注的论文,覆盖多个学科领域,并配备了一套评估套件,能够检测文本、公式和表格的组件级准确性,以及章节、引用和交叉引用的结构级一致性,还包含零接触编译测试。
数据集规模
- TexOCR-Train 训练集:包含 404K 对齐的页面–LaTeX 监督对,用于大规模训练。
- TexOCR-Bench 评估集:包含 3,000 篇专家标注论文,用于评估模型性能。
数据集构成(Hugging Face 仓库)
| 阶段 | 仓库地址 | 内容说明 |
|---|---|---|
| 评估 | chengyewang/TexOCR_eval | arxiv 和 others 两个子集,包含图片压缩包、论文、query.json 和统计信息 |
| SFT (json) | chengyewang/TexOCR_SFT_json | sft.json 文件 |
| SFT (图片) | chengyewang/TexOCR_SFT_figures | 图片压缩包 figures_0000.zip 至 figures_0411.zip |
| RL (json) | chengyewang/TexOCR_RL_json | grpo.json 文件 |
| RL (图片) | chengyewang/TexOCR_RL_figures | 图片压缩包 figures_1.zip、figures_2.zip、figures_3.zip |
评估指标
使用 9 项指标 进行评分:
- 上下文匹配(Context Match)
- 公式精确度(Equation Precision)
- 表格精确度(Table Precision)
- 章节精确度(Section Precision)
- 引用精确度(Citation Precision)
- 标签精确度(Label Precision)
- 编辑距离(Edit Distance)
- 基线检查(Baseline Check)
- LaTeX 可编译性(LaTeX Compilability)
许可协议
- 代码:MIT 许可证
- Hugging Face 数据集:CC-BY-4.0
搜集汇总
数据集介绍

构建方式
TexOCR数据集源于对科学文献页面级重建为可编译LaTeX代码的迫切需求,其构建过程严谨且系统化。该数据集包含3000篇经过专家标注的论文,覆盖多元学科领域,并配套发布了一个包含40.4万对齐页面-LaTeX监督对的训练集TexOCR-Train。通过将页面图像与结构化LaTeX源码精准配对,并引入基于LaTeX单元测试的验证奖励机制,数据集的构建确保了编译一致性与引用完整性。整个构建流程分为评估、监督微调(SFT)和基于GRPO的强化学习三个阶段,分别对应不同的数据子集与优化目标。
特点
TexOCR数据集的核心特色在于其首创的页面级可编译LaTeX重建基准,不仅评估文本、公式与表格的组件级精度,更创新性地纳入结构级检查,涵盖章节一致性、引用正确性与交叉引用有效性。特别引入的零接触编译测试,通过实际调用pdflatex验证输出版本的完整性,确保了结果直接可用的实用价值。数据集包含九个评价指标,从上下文匹配到编辑距离,全面刻画模型性能。此外,其开放性设计支持任意视觉语言模型的评测与训练,显著降低了学术门槛。
使用方法
使用TexOCR数据集需遵循三阶段工作流,各阶段要求独立的环境配置。首先进行评测时,通过下载Hugging Face上的基准数据,运行推理脚本生成页面对应的LaTeX预测,再使用包含九个维度的评估工具进行打分,其中编译测试依赖本地TeX发行版。监督微调阶段则需将SFT数据转换为LLaMA-Factory格式,利用其平台训练Qwen系列视觉语言模型。强化学习阶段基于GRPO算法,通过torchrun启动训练,其奖励函数直接调用pdflatex进行编译验证,确保生成的LaTeX代码具备良好的结构完整性与可用性。
背景与挑战
背景概述
在科学文献数字化与自动化排版领域,将页面图像无损地转换为可编译的LaTeX源代码是一项极具挑战性的任务。传统的OCR技术虽能提取文本信息,却难以保留文档中复杂的结构化元素,如章节层次、数学公式、表格布局以及引用关系,导致转换后的LaTeX代码难以通过编译,限制了其在学术出版与文档处理中的实际应用。为解决这一困境,由Chengye Wang等研究人员于2026年在ACL 2026主会提出的TexOCR数据集应运而生。该数据集精心标注了3000篇涵盖多学科的科学论文页面,并配套发布了包含404K对齐页面-LaTeX对的训练语料库TexOCR-Train。TexOCR的创建不仅定义了首个面向页面级可编译LaTeX重建的标准化基准,还通过其全面评估体系与强化学习训练策略,为后续模型研发提供了关键参照,显著推动了文档OCR从简单转录向结构感知、编译就绪的深度理解迈进。
当前挑战
TexOCR数据集所面临的核心挑战首先源自领域问题的复杂性:科学文档的图像到LaTeX重建不仅要求高精度的字符识别,更需精准捕捉并复现段落格式、标题层级、浮动体定位及文献交叉引用等结构性约束,而现有系统在保持文档逻辑一致性与编译可靠性方面存在显著缺陷。其次,在数据集构建过程中,确保注释的准确性与一致性是一大难题,3000篇多领域论文的专家标注需耗费巨大的人力与时间,且对跨领域术语与排版规范的理解要求极高。此外,大规模训练语料库的同步与处理,以及针对不同模型架构的适配与优化,也为数据集的持续扩展与应用带来了技术挑战。如何进一步提升模型在长文档、密集公式及稀缺领域中的泛化能力,仍是TexOCR推动领域进步时需要持续攻克的关键问题。
常用场景
经典使用场景
在科学文献数字化与自动排版领域,TexOCR数据集被广泛用作从页面图像到可编译LaTeX代码的端到端重建基准。研究者利用其涵盖多学科的3000篇专家标注论文,评估视觉语言模型在文本、公式、表格等细粒度组件转录上的精度,同时验证章节结构、引用关系和交叉引用的完整性。该数据集引入的零接触编译测试,将LaTeX编译成功率作为核心质量指标,迫使模型不仅追求视觉还原,更要保证生成的代码语法正确且具备完整的文档逻辑,从而为文档结构重建任务树立了全新的评价范式。
衍生相关工作
TexOCR的发布催生了一系列衍生研究工作,围绕文档结构重建与可编译LaTeX生成形成了活跃的研究脉络。其中最具代表性的包括:基于监督微调(SFT)和组相对策略优化(GRPO)的强化学习方法,利用LaTeX单元测试设计九项奖励函数来直接优化编译约束和引用完整性的工作;面向大规模页面-LaTeX配对数据的高效训练管线研究,在LLaMA-Factory和TRL框架上实现了从数据准备到模型部署的完整流程。此外,该数据集促成了对21个前沿多模态模型的系统性对比分析,揭示了不同模型在文档不变量保持方面的性能差异,并启发了针对浮动体定位、标签引用链验证等子任务的专项优化方法。
数据集最近研究
最新研究方向
TexOCR聚焦于科学文献PDF页面到可编译LaTeX源码的端到端重建任务,这一方向在光学字符识别(OCR)领域尚属首次系统化探索。面对现有文档OCR模型在结构化完整性(如章节一致性、公式与表格的精确转换、标签-引用关系的有效性)上的显著短板,TexOCR通过构建包含3000篇专家标注论文的评测基准与404K组页面-LaTeX对齐的大规模训练语料,开创性地将LaTeX编译正确性与引用完整性纳入模型评估体系。其核心突破在于引入基于LaTeX单元测试的可验证奖励机制的强化学习策略(GRPO),使2B参数的TexOCR模型在细粒度转录保真度与结构层级一致性上超越21个前沿视觉语言模型,为科学文档的数字化、可复用重建提供了全新范式。该工作已被ACL 2026主会收录,其公开的评测基准、SFT语料与GRPO训练代码正推动领域从简单的文本提取迈向结构化、可编译的文档重建新阶段。
以上内容由遇见数据集搜集并总结生成



