five

MonkeyDoc

收藏
arXiv2025-06-06 更新2025-06-08 收录
下载链接:
https://github.com/Yuliang-Liu/MonkeyOCR
下载链接
链接失效反馈
官方服务:
资源简介:
MonkeyDoc是一个用于文档解析的综合性数据集,由华中科技大学和金山办公共同创建。该数据集包含390万个实例,涵盖了超过十种文档类型,包括中文和英文。MonkeyDoc是迄今为止最全面的文档解析数据集,支持多任务、多领域和双语的训练与评估。数据集的构建过程包括多阶段的数据生成流程,结合了现有的公共数据集、精细的手工标注、程序化数据合成和专家模型驱动的自动标注,确保了高质量、多样性和可扩展性。MonkeyDoc旨在为文档解析模型的训练、基准测试和部署提供坚实的基础资源。

MonkeyDoc is a comprehensive dataset for document parsing, jointly created by Huazhong University of Science and Technology and Kingsoft Office. This dataset contains 3.9 million instances, covering more than ten document types, including both Chinese and English. MonkeyDoc is the most comprehensive document parsing dataset to date, supporting multi-task, multi-domain and bilingual training and evaluation. The construction process of the dataset adopts a multi-stage data generation pipeline, which combines existing public datasets, fine-grained manual annotation, programmable data synthesis, and expert model-driven automatic annotation, ensuring high quality, diversity and scalability. MonkeyDoc aims to provide a solid foundational resource for the training, benchmarking and deployment of document parsing models.
提供机构:
华中科技大学, 金山办公
创建时间:
2025-06-06
原始信息汇总

MonkeyOCR 数据集概述

基本信息

  • 名称: MonkeyOCR
  • 类型: 文档解析数据集
  • 发布年份: 2025
  • 论文标题: MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm
  • 论文链接: arXiv:2506.05218
  • 模型权重:

核心特点

  • 方法: 采用Structure-Recognition-Relation (SRR) 三元范式
  • 优势:
    • 相比模块化方法简化了多工具流程
    • 避免了使用大型多模态模型处理全页文档的低效问题
  • 性能:
    • 在9种中英文文档上平均提升5.1%
    • 公式识别提升15.0%,表格识别提升8.6%
    • 处理速度达0.84页/秒

支持文档类型

  • 书籍
  • 幻灯片
  • 财务报告
  • 教科书
  • 考试试卷
  • 杂志
  • 学术论文
  • 笔记
  • 报纸

基准测试结果

1. 端到端评估

  • 最佳模型: MonkeyOCR-3B*
    • 中文文档总体编辑距离: 0.277
    • 英文文档总体编辑距离: 0.140

2. 文本识别性能

  • 最佳总体表现: MonkeyOCR-3B* (0.120)
  • 最佳单类表现:
    • 书籍: MonkeyOCR-3B (0.046)
    • 幻灯片: InternVL3-8B (0.056)

使用限制

  • 不支持拍摄文档
  • 当前部署在单GPU上,高流量时可能出现延迟
  • 仅限非商业用途

引用格式

BibTeX @misc{li2025monkeyocrdocumentparsingstructurerecognitionrelation, title={MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm}, author={Zhang Li and Yuliang Liu and Qiang Liu and Zhiyin Ma and Ziyang Zhang and Shuo Zhang and Zidun Guo and Jiarui Zhang and Xinyu Wang and Xiang Bai}, year={2025}, eprint={2506.05218}, archivePrefix={arXiv}, primaryClass={cs.CV}, url={https://arxiv.org/abs/2506.05218}, }

相关资源

搜集汇总
数据集介绍
main_image_url
构建方式
在文档解析领域,数据集的构建质量直接影响模型的性能边界。MonkeyDoc通过多阶段混合标注策略实现了规模与精度的平衡:首先整合了M6Doc、DocLayNet等8.8万页公开数据集,采用统一标签映射与嵌套框过滤确保结构检测一致性;其次运用Gemini 2.5 Pro进行文档元素转录,结合PubTabNet等专业数据集筛选,构建190万内容识别样本;针对中文数据稀缺问题,创新性地采用程序化合成技术生成52.6万表格/公式样本,并通过arXiv论文LaTeX源码提取增强学术场景覆盖。关系预测模块则融合DocGenome自动标注优化与15.4万页中文文档人工标注,形成层次化的阅读顺序标注体系。
特点
作为当前最全面的文档解析基准,MonkeyDoc展现出三大核心特征:多维度覆盖性包含10+文档类型(学术论文、财务报表等)与中英双语支持,突破传统数据集单语言单场景的局限;任务完整性首次统一布局检测、公式识别等5大核心任务,支持端到端文档理解流程验证;质量可控性通过混合标注策略,在390万样本规模下保持人工校验比例,关键中文数据人工修正率达46%。特别在跨页表格、手写公式等挑战性场景的标注密度较同类数据集提升3倍,为模型提供细粒度学习信号。
使用方法
该数据集支持三种典型应用范式:研究者可通过分阶段加载(结构/内容/关系子集)验证模块化改进效果,利用任务专属评估指标(如TEDS表格得分、CDM公式指标)进行细粒度分析;工业界开发者可直接使用完整数据流训练端到端系统,其提供的GPU优化数据加载器支持单卡3090环境下的高效训练;针对特定场景迁移需求,开放的中英语料分离接口允许自定义训练比例,合成数据标识功能则有助于提升领域适应性。评估时建议采用OmniDocBench的多维度测试协议,注意区分单页/多页文档的性能差异。
背景与挑战
背景概述
MonkeyDoc数据集由华中科技大学与金山办公团队于2025年联合发布,是目前最全面的文档解析基准数据集。该数据集针对多模态文档理解的核心难题,提出了Structure-Recognition-Relation三重解析范式,旨在解决传统OCR技术在复杂文档结构分析中的局限性。其创新性体现在融合了3.9万个跨十类文档类型的标注实例,支持中英双语处理,覆盖学术论文、财务报表等专业场景。作为MonkeyOCR模型的训练基础,该数据集通过程序合成与人工校验相结合的方式,显著提升了模型在公式识别(+15%)和表格解析(+8.6%)等复杂任务的性能,推动了文档智能领域从单一文本识别向结构化语义理解的范式转变。
当前挑战
在领域问题层面,MonkeyDoc需应对三大核心挑战:多模态文档中文本、公式与表格的跨模态关联建模,中英混合排版下的语义连贯性保持,以及高密度版面(如报刊)的层级结构解析。构建过程中面临标注一致性难题,包括不同文档类型(如手写笔记与学术论文)的标注标准统一、程序合成数据与真实文档的分布对齐,以及跨页元素(如连续表格)的逻辑关系标注。特别在中文文档处理中,存在专业术语识别准确率较英文低7.4%的性能差距,反映出非拉丁语系文档解析的特殊挑战。
常用场景
经典使用场景
在文档智能分析领域,MonkeyDoc数据集凭借其跨语言、多模态的特性,成为评估文档解析系统性能的黄金标准。该数据集特别适用于验证模型对学术论文、财务报表等复杂版式文档的结构化解析能力,研究者常通过端到端的布局分析、内容识别和逻辑关系重建任务,全面测试模型在真实场景下的鲁棒性。其3.9百万个涵盖10余种文档类型的标注实例,为比较不同算法在表格识别准确率(TEDS)、公式重建(CDM)等核心指标上的差异提供了丰富素材。
解决学术问题
该数据集有效解决了文档智能领域三个关键学术问题:一是突破了传统数据集单任务、单语种的局限,通过中英双语标注支持跨语言联合建模研究;二是针对管道式方法中错误传播的痛点,其细粒度的结构-识别-关系三元标注体系允许独立评估各模块性能;三是通过合成数据与真实标注的混合策略,缓解了复杂版式(如多栏报纸、跨页表格)样本稀缺的问题。这些特性显著提升了学界对文档多模态关联理解机制的认识,推动了如SRR范式等新型架构的发展。
衍生相关工作
该数据集直接催生了DocGenome等跨文档知识图谱构建研究,并推动了一系列基于SRR范式的改进工作:如Mathpix在其公式识别服务中集成MonkeyDoc的合成数据增强策略;Marker文档解析工具链通过迁移学习该数据集的布局特征,显著提升多栏版式处理能力。后续研究如LayoutReaderV2等阅读顺序预测模型,均采用其关系标注数据作为核心训练资源,验证了该数据集在文档逻辑推理任务中的基础性价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作