five

DocParsingBench

收藏
github2026-04-17 更新2026-04-19 收录
下载链接:
https://github.com/SoMarkAI/DocParsingBench
下载链接
链接失效反馈
官方服务:
资源简介:
一个用于智能文档解析产品的基准工具包

A benchmark toolkit for intelligent document parsing products
创建时间:
2026-04-16
原始信息汇总

DocParsingBench 数据集概述

数据集基本信息

  • 数据集名称:DocParsingBench
  • 发布机构:SoMarkAI
  • 访问地址
    • GitHub: https://github.com/SoMarkAI/DocParsingBench
    • Hugging Face: https://huggingface.co/datasets/SoMarkAI/DocParsingBench
    • ModelScope: https://modelscope.cn/datasets/SoMark/DocParsingBench
  • 发布日期:2026年3月9日(数据集发布)
  • 许可证:Apache 2.0

数据集内容与规模

  • 总样本量:1400页文档
  • 语言覆盖:中文、英文、双语
  • 行业覆盖:金融、法律、科研、制造、教育
  • 布局覆盖:单栏、双栏、三栏、混合布局
  • 数据特点:系统收集并标注了真实业务流程中的文档样本,保留了扫描噪声、印章遮挡和模糊字符等真实场景特征。

标注格式与规范

  • 标注格式:Markdown
  • 化学标注规范:使用 SoMarkdown 规范,结合SMILES与LaTeX实现化学结构式的完整渲染。

评估工具包特性

DocParsingBench是一个专为智能文档解析产品构建的评估工具包,连接学术界与真实工业界。

  • 行业对齐:基于真实企业文档构建,非纯学术数据集。
  • 兼容性强:直接比较GT Markdown与预测Markdown,适用于任何解析解决方案。
  • 最优片段匹配:按文本、行内公式和表格进行分段,然后在同类型内匹配。比全文字符串比较更准确。
  • 工程友好:提供CLI、快速启动和可视化仪表板,易于集成到模型实验流程中进行快速迭代。

评估指标体系

片段分类

  • text(含行内公式)
  • display_formula(显示公式)
  • table(表格)
  • image(当前评估中暂不计入)

匹配与度量

  • 分割方式:文本和显示公式按行边界分割;表格由<table> ... </table>界定。
  • 匹配算法:在每个类别内使用匈牙利匹配算法,配合配置的匹配度量(NEDCDMTEDS)。
  • 度量包装器NED/CERCDMTEDS/TEDS-S
  • 整体指标:DPB(Document Parsing Benchmark),加权平均值,默认权重为α=0.5, β=0.3, γ=0.2

DPB计算公式

math egin{aligned} text_score &= alpha cdot avg(1 - NED) + (1 - alpha) cdot avg(CDM)
display_formula_score &= avg(CDM)
table_score &= avg(TEDS)
DPB &= alpha cdot text_score + eta cdot display_formula_score + gamma cdot table_score end{aligned}

评估排行榜(示例)

排名 方法 DPB 文本 公式 表格
1 PaddleOCR-1.5 0.8535 0.8959 0.7527 0.7104
2 MonkeyOCR-Pro-3B 0.8260 0.8669 0.7206 0.7014
3 MinerU2.5 0.8164 0.8426 0.7993 0.7557
4 Qwen3-VL-235B-Instruct 0.7971 0.8496 0.4355 0.6691
5 ChandraOCR-2 0.7906 0.8361 0.7772 0.7242

工具使用与开发

  • 环境要求:Python 3.8+
  • 安装方式pip install . 或开发模式 pip install -e .
  • 主要功能模块
    • eval:评估(支持单文件和批量)
    • segment:片段测试
    • visualize:可视化分析
    • summary-chart:生成汇总条形图
    • leaderboard-html:生成交互式HTML排行榜
  • 模型运行脚本:提供多种OCR模型(如DeepSeek OCR、PaddleOCR、Qwen3-VL等)的运行脚手架,支持统一管道:扫描图像目录 -> 调用模型 -> 后处理 -> 输出Markdown。

性能评估设计

项目为性能基准测试预留了钩子和统一输出模式。

  • 在CLI eval中,当perf.enable=true时,会记录:
    • 分割时间、匹配时间、各度量时间、总时间
    • 文档数量和吞吐量(docs/s
  • 输出写入result.jsonperf字段中。
搜集汇总
数据集介绍
main_image_url
构建方式
在智能文档解析领域,DocParsingBench数据集的构建过程体现了严谨的工业级数据采集与标注范式。该数据集系统性地从金融、法律、科研、制造及教育等真实业务场景中收集了1400页文档样本,并完整保留了扫描噪声、印章遮挡及模糊字符等实际工业环境中的复杂干扰因素。其标注严格遵循SoMarkdown规范,将文本、行内公式、独立公式及表格等元素统一编码为Markdown格式,并创新性地采用SMILES与LaTeX结合的方式对化学结构式进行完整渲染,确保了标注的精确性与可解析性。
特点
DocParsingBench数据集的核心特点在于其卓越的工业对齐性与评估的细粒度设计。数据集不仅覆盖了多语言、多栏式及混合版式的文档,更通过按文本、公式和表格类型进行最优片段匹配的评估机制,显著超越了传统的全文字符串对比方法。其评估工具包集成了NED、CDM及TEDS等多种度量标准,并提出了综合性的DPB(Document Parsing Benchmark)指标,通过加权平均的方式对解析模型的整体性能进行量化,为学术界与工业界提供了一个兼具通用性与精确性的统一评估基准。
使用方法
该数据集的使用流程高度工程化,提供了命令行接口与可视化分析工具以无缝集成至模型实验管线。用户可通过`dpb eval`命令对预测与标注的Markdown文件进行批量评估,系统将自动执行片段分割、匈牙利匹配及多维度评分,并输出详细的JSON格式结果。同时,工具包支持生成交互式排行榜与性能摘要图表,便于研究者进行模型对比与可视化分析。对于新模型的集成,项目提供了标准化的基类接口,开发者仅需实现核心解析逻辑即可接入统一的评估框架,极大提升了实验迭代效率。
背景与挑战
背景概述
随着数字化办公的普及,智能文档解析技术成为连接非结构化文档与结构化信息的关键桥梁。DocParsingBench数据集由SoMarkAI团队于2026年3月正式发布,旨在构建一个面向真实工业场景的评估基准。该数据集系统性地采集了金融、法律、科研、制造及教育等领域的1400页文档样本,并保留了扫描噪声、印章遮挡与模糊字符等实际挑战。其核心研究问题在于如何精准评估文档解析模型对文本、公式与表格等多模态元素的综合解析能力,通过引入基于SoMarkdown规范的标注格式与最优分段匹配机制,为学术界与工业界提供了统一的性能衡量标准,显著推动了智能文档处理技术的实用化进程。
当前挑战
在文档解析领域,模型需应对复杂版式、多语言混合及专业符号识别等核心难题。DocParsingBench针对文本、内联公式、独立公式与表格的联合解析任务,要求模型在保持高精度字符识别的同时,还需理解化学结构式等专业内容的语义表示。数据构建过程中,团队面临真实业务文档的多样性挑战,包括扫描件质量参差、印章与手写批注干扰,以及多栏布局与跨页内容的连贯性处理。此外,标注工作需兼顾Markdown的结构化表达与视觉渲染一致性,尤其在化学公式标注中需融合SMILES与LaTeX规范,确保评估结果既符合学术严谨性,又贴近工程实践需求。
常用场景
经典使用场景
在文档智能解析领域,DocParsingBench数据集作为评估基准,被广泛应用于多模态文档理解模型的性能评测。该数据集通过涵盖金融、法律、科研、制造与教育等行业的真实业务文档,构建了包含文本、内联公式、显示公式及表格的结构化标注体系。研究者利用其提供的标准化评估流程,能够系统性地衡量模型在复杂版面布局下的解析精度,特别是在处理扫描噪声、印章遮挡与模糊字符等实际挑战时的鲁棒性。
实际应用
在实际工业场景中,DocParsingBench直接服务于智能文档处理产品的迭代优化。企业可借助其评估工具链,对OCR引擎、版面分析算法及多模态解析模型进行端到端测试。该数据集支持的批量评估、可视化分析及排行榜生成功能,显著降低了工程团队集成验证的复杂度,助力金融合同自动审核、科研文献结构化抽取、教育试卷数字化等垂直领域解决方案的性能提升与快速部署。
衍生相关工作
围绕DocParsingBench数据集,已衍生出一系列经典研究工作与开源工具。例如,基于其评估框架优化的PaddleOCR-1.5与MonkeyOCR-Pro-3B模型在公开排行榜中表现领先;同时,其配套的SoMarkdown标注规范与FastCDM公式匹配算法,已成为文档解析社区的重要基础设施。这些工作共同推动了如MinerU、Qwen3-VL等多模态大模型在文档理解任务上的能力演进与标准化评测。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作