UniRec40M
收藏arXiv2025-12-24 更新2025-12-26 收录
下载链接:
https://github.com/Topdu/OpenOCR
下载链接
链接失效反馈官方服务:
资源简介:
UniRec40M是由复旦大学和字节跳动联合构建的大规模文本与公式识别数据集,包含4000万中英文样本,涵盖纯文本、纯公式及混合内容。数据集融合了arXiv和Wikipedia的LaTeX源码、数字原生PDF文档及多个公开数据集(如LSVT、HWDB等),通过自动化标注和人工校验确保多层级(字符/行/段落)标注质量。其构建过程创新性地采用颜色标识的LaTeX渲染对齐技术,支持跨模态语义解耦。该数据集旨在训练轻量级统一模型UniRec-0.1B,解决文档解析中文本与公式的结构多样性及语义纠缠问题,适用于数字教育、信息检索等需要高效OCR的领域。
UniRec40M is a large-scale text and formula recognition dataset jointly constructed by Fudan University and ByteDance. It comprises 40 million Chinese and English samples covering pure text, pure formulas, and mixed content. The dataset integrates LaTeX source codes from arXiv and Wikipedia, digitally native PDF documents, as well as multiple public datasets such as LSVT, HWDB, etc. It ensures multi-level (character/line/paragraph) annotation quality through automated annotation and manual verification. Its construction process innovatively adopts color-coded LaTeX rendering alignment technology, supporting cross-modal semantic decoupling. This dataset is designed to train the lightweight unified model UniRec-0.1B, addressing the issues of structural diversity and semantic entanglement between text and formulas in document parsing, and is applicable to fields requiring efficient OCR such as digital education and information retrieval.
提供机构:
复旦大学, 字节跳动
创建时间:
2025-12-24
原始信息汇总
OpenOCR 数据集概述
数据集基本信息
- 项目名称:OpenOCR: A general OCR system with accuracy and efficiency
- 官方代码库:复旦大学FVL实验室OCR团队的官方代码库
- 核心目标:建立一个用于训练和评估场景文本检测与识别模型的统一基准,并在此基础上推出一个兼具准确性和效率的通用OCR系统。
主要特性与模型
1. OpenDoc-0.1B:超轻量级文档解析系统
- 参数量:0.1B(十亿)参数。
- 系统架构:两阶段流水线。
- 使用PP-DocLayoutV2进行版面分析。
- 使用内部模型UniRec-0.1B对文本、公式和表格进行统一识别。
- 支持语言:中文和英文文档解析。
- 性能:在OmniDocBench (v1.5)上达到90.57%,优于许多基于多模态大语言模型的文档解析模型。
2. UniRec-0.1B:统一的文本与公式识别模型
- 参数量:0.1B参数。
- 识别能力:识别纯文本(单词、行、段落)、公式(单行、多行)以及文本与公式混合的内容。
- 训练数据:在40M数据上从头开始训练,无需预训练。
- 支持语言:支持中文和英文的文本/公式识别。
3. OpenOCR:通用OCR系统
- 基础架构:基于SVTRv2构建的实用OCR系统。
- 性能对比:在OCR竞赛排行榜上,准确率比PP-OCRv4基线高出4.5%,同时保持了相近的推理速度。
- 功能特性:
- 支持中文和英文的文本检测与识别。
- 提供服务器模型和移动端模型。
- 支持在自定义数据集上进行微调。
- 支持导出ONNX模型以获得更广泛的兼容性。
4. SVTRv2:场景文本识别统一基准
- 基准特点:基于Union14M的大规模场景文本识别统一训练与评估基准。
- 支持方法:支持24种在大型真实数据集Union14M-L-Filter上从头开始训练的场景文本识别方法,并将持续添加最新方法。
- 性能提升:与基于合成数据集训练的模型相比,准确率提高了20-30%。
- 目标:使用单一视觉模型实现任意形状文本识别和语言建模。
包含的OCR算法
项目包含一系列自研及复现的OCR算法,涵盖文本识别、文档解析等多个方向,相关论文发表于ICCV、AAAI、TPAMI、IJCV等顶级会议与期刊。核心算法包括UniRec-0.1B、MDiff4STR、CMER、TextSSR、SVTRv2、IGTR、CPPD、SMTR&FocalSVTR、DPTR、CDistNet、MRN、TPS++、SVTR、NRTR等。
快速开始
系统支持ONNX和PyTorch两种推理框架,环境相互隔离。
ONNX推理
- 安装:
pip install openocr-python onnxruntime - 使用:通过
OpenOCR(backend=onnx)初始化引擎并进行推理。
PyTorch推理
- 环境要求:PyTorch >= 1.13.0,Python >= 3.7。
- 安装方式:
- 通过PyPI安装:
pip install openocr-python - 克隆代码库:
git clone https://github.com/Topdu/OpenOCR.git,并安装依赖及下载模型权重。
- 通过PyPI安装:
- 使用方式:
- 通过Python API使用。
- 或使用项目提供的脚本进行端到端、检测、识别推理。
- ONNX模型导出与推理:支持将PyTorch模型导出为ONNX格式,并使用ONNXRuntime进行推理。
- 本地演示:支持通过Gradio启动本地Web演示界面。
场景文本识别方法复现
项目计划复现大量经典的场景文本识别方法,并已在统一基准上完成了多项方法的训练与评估,包括CRNN、ASTER、NRTR、SAR、MORAN、DAN、RobustScanner、AutoSTR、SRN、SEED等。
搜集汇总
数据集介绍

构建方式
在文档解析领域,构建高质量的大规模数据集是推动统一文本与公式识别技术发展的基石。UniRec40M数据集通过整合多元数据源精心构建而成,其核心流程涵盖三个关键环节:首先,从arXiv的TeX源文件及转换后的维基百科HTML页面中提取约200万份TeX文档,通过为每个文本或公式令牌分配独特颜色并渲染为PDF,实现了基于颜色对齐的单词、行及段落级自动标注。其次,收集行业研究报告与报纸等原生数字PDF,利用PyMuPDF提取文本块及其对应图像区域,补充了多领域、多层次的文本识别数据。最后,融合了LSVT、MTWI等公开场景文本数据集,以及CASIA-HWDB、TAL等手写数据集,并引入经大模型标注与人工修正的手写笔记,确保了数据在语言、模态与场景上的广泛覆盖。整个数据集最终包含4000万样本,其中英文约3000万、中文约1000万,涵盖纯文本、纯公式及混合内容,为模型训练提供了坚实的数据基础。
特点
UniRec40M数据集在统一文本与公式识别任务中展现出鲜明的多维特性。其规模宏大且构成均衡,4000万样本量显著超越了以往同类数据集,并通过比例平衡采样策略确保了文本、公式及混合样本在训练中的稳定分布。数据模态与层次极为丰富,不仅同时涵盖中文与英文,还无缝集成印刷体、手写体、数字文档与扫描图像等多种形态,并支持从字符、单词、行、段落到多段落的全粒度标注。尤为突出的是,数据集深度嵌入了层次化监督信号,专门引入了行级(<|ln|>)与段落级(<|pn|>)监督令牌,显式建模文档的层级空间结构,为模型理解复杂布局提供了关键引导。这些特征共同使该数据集成为训练轻量级统一识别模型的理想资源。
使用方法
UniRec40M数据集主要用于训练与评估轻量化的统一文本与公式识别模型。在模型训练阶段,数据集通过层次化监督训练(HST)机制被直接利用,模型在学习内容识别的同时,必须解析并预测嵌入标签序列中的行与段落分隔令牌,从而掌握文档的层级结构。同时,基于该数据集训练得到的语义解耦分词器(SDT)为文本和公式模态构建了独立的词汇表,有效消除了跨模态语义纠缠,提升了小模型的表现。在评估方面,该数据集支撑了UniRec-Bench基准的构建,该基准从OmniDocBench中提取文本、公式及混合块,并按层次、语言和领域进行细粒度分类,为全面衡量模型在多种真实场景下的识别能力提供了标准。此外,训练所得的UniRec-0.1B模型可无缝集成到如MinerU2.5等多阶段文档解析系统中,替代原有的识别模块,以显著提升整体系统的解析速度与精度。
背景与挑战
背景概述
UniRec40M数据集由复旦大学与字节跳动的研究团队于2025年构建,旨在解决文档解析领域内文本与数学公式统一识别的研究空白。该数据集包含4000万中英文样本,涵盖纯文本、纯公式及混合内容,支持从字符到文档的多层次识别任务。其创建动机源于现有视觉语言模型参数量庞大、计算成本高昂的局限,而文本与公式在文档中占比超过97%,提升二者的识别效率对加速文档解析至关重要。UniRec40M通过整合arXiv论文、维基百科、数字原生PDF及多个公开数据集,构建了规模宏大、模态多样的数据基础,为训练轻量级统一识别模型UniRec-0.1B提供了关键支撑,显著推动了高效文档理解技术的发展。
当前挑战
UniRec40M数据集致力于解决文档解析中文本与公式的统一识别问题,其核心挑战在于多粒度结构差异与跨模态语义纠缠。文档元素在不同层级(如字符、行、段落)呈现显著的结构多样性,模型需同时适应多种粒度表示;而文本与公式在语义上存在耦合,传统方法使用共享词表处理两者,导致相同标记在不同语境下语义混淆,尤其对轻量模型造成性能下降。数据构建过程中,研究团队面临大规模高质量标注数据的稀缺,需通过LaTeX源码渲染、颜色对齐及多源数据融合等技术,自动化生成多层次、多场景的样本,并设计均衡采样策略以平衡不同模态与语言的数据分布,确保模型训练的全面性与鲁棒性。
常用场景
经典使用场景
在文档解析领域,文本与公式作为核心信息载体,其统一识别是构建高效文档理解系统的关键。UniRec40M数据集通过整合四千万个多层级、多模态样本,为轻量级统一识别模型提供了坚实的数据基础。该数据集最经典的使用场景在于训练能够同时处理字符、单词、行、段落及文档级别文本与公式的识别模型,尤其适用于学术论文、技术报告等富含混合内容的复杂文档。其覆盖了数字生成文档、扫描页面及手写内容等多种真实场景,确保了模型在多样化环境下的鲁棒性与泛化能力。
解决学术问题
UniRec40M数据集有效解决了文档解析中文本与公式识别长期分离的学术难题,实现了多粒度与多模态的统一建模。传统方法通常将文本识别与公式识别视为独立任务,依赖专用模型,导致系统复杂且效率低下。该数据集通过提供大规模、层级化的标注数据,支持模型学习文本与公式在结构上的变异性与语义上的纠缠性,从而促进了轻量级模型在保持高精度的同时显著提升推理速度。这一突破不仅推动了文档解析向高效、一体化方向发展,也为资源受限环境下的实际部署提供了可行性。
衍生相关工作
基于UniRec40M数据集,研究者提出了UniRec-0.1B这一轻量级统一识别模型,并衍生出一系列创新工作。该模型引入了层级监督训练与语义解耦分词器两项核心技术,前者通过显式注入层级标记增强了模型对文档结构的理解,后者则通过分离文本与公式的词汇表征消除了模态间的语义混淆。这些技术启发了后续如PaddleOCR-VL等模型在效率与精度平衡上的改进。同时,围绕该数据集构建的UniRec-Bench评估基准,推动了文档解析领域向更细粒度、多语言、多领域的评测方向发展,为后续研究提供了重要的性能衡量标准与优化方向。
以上内容由遇见数据集搜集并总结生成



