DocParsingBench

github2026-04-17 更新2026-04-19 收录

下载链接：

https://github.com/SoMarkAI/DocParsingBench

下载链接

链接失效反馈

官方服务：

资源简介：

一个用于智能文档解析产品的基准工具包

A benchmark toolkit for intelligent document parsing products

创建时间：

2026-04-16

原始信息汇总

DocParsingBench 数据集概述

数据集基本信息

数据集名称：DocParsingBench
发布机构：SoMarkAI
访问地址：
- GitHub: https://github.com/SoMarkAI/DocParsingBench
- Hugging Face: https://huggingface.co/datasets/SoMarkAI/DocParsingBench
- ModelScope: https://modelscope.cn/datasets/SoMark/DocParsingBench
发布日期：2026年3月9日（数据集发布）
许可证：Apache 2.0

数据集内容与规模

总样本量：1400页文档
语言覆盖：中文、英文、双语
行业覆盖：金融、法律、科研、制造、教育
布局覆盖：单栏、双栏、三栏、混合布局
数据特点：系统收集并标注了真实业务流程中的文档样本，保留了扫描噪声、印章遮挡和模糊字符等真实场景特征。

标注格式与规范

标注格式：Markdown
化学标注规范：使用 SoMarkdown 规范，结合SMILES与LaTeX实现化学结构式的完整渲染。

评估工具包特性

DocParsingBench是一个专为智能文档解析产品构建的评估工具包，连接学术界与真实工业界。

行业对齐：基于真实企业文档构建，非纯学术数据集。
兼容性强：直接比较GT Markdown与预测Markdown，适用于任何解析解决方案。
最优片段匹配：按文本、行内公式和表格进行分段，然后在同类型内匹配。比全文字符串比较更准确。
工程友好：提供CLI、快速启动和可视化仪表板，易于集成到模型实验流程中进行快速迭代。

评估指标体系

片段分类

text（含行内公式）
display_formula（显示公式）
table（表格）
image（当前评估中暂不计入）

匹配与度量

分割方式：文本和显示公式按行边界分割；表格由<table> ... </table>界定。
匹配算法：在每个类别内使用匈牙利匹配算法，配合配置的匹配度量（NED、CDM、TEDS）。
度量包装器：NED/CER、CDM、TEDS/TEDS-S。
整体指标：DPB（Document Parsing Benchmark），加权平均值，默认权重为α=0.5, β=0.3, γ=0.2。

DPB计算公式

math egin{aligned} text_score &= alpha cdot avg(1 - NED) + (1 - alpha) cdot avg(CDM)
display_formula_score &= avg(CDM)
table_score &= avg(TEDS)
DPB &= alpha cdot text_score + eta cdot display_formula_score + gamma cdot table_score end{aligned}

评估排行榜（示例）

排名	方法	DPB	文本	公式	表格
1	PaddleOCR-1.5	0.8535	0.8959	0.7527	0.7104
2	MonkeyOCR-Pro-3B	0.8260	0.8669	0.7206	0.7014
3	MinerU2.5	0.8164	0.8426	0.7993	0.7557
4	Qwen3-VL-235B-Instruct	0.7971	0.8496	0.4355	0.6691
5	ChandraOCR-2	0.7906	0.8361	0.7772	0.7242

工具使用与开发

环境要求：Python 3.8+
安装方式：pip install . 或开发模式 pip install -e .
主要功能模块：
- eval：评估（支持单文件和批量）
- segment：片段测试
- visualize：可视化分析
- summary-chart：生成汇总条形图
- leaderboard-html：生成交互式HTML排行榜
模型运行脚本：提供多种OCR模型（如DeepSeek OCR、PaddleOCR、Qwen3-VL等）的运行脚手架，支持统一管道：扫描图像目录 -> 调用模型 -> 后处理 -> 输出Markdown。

性能评估设计

项目为性能基准测试预留了钩子和统一输出模式。

在CLI eval中，当perf.enable=true时，会记录：
- 分割时间、匹配时间、各度量时间、总时间
- 文档数量和吞吐量（docs/s）
输出写入result.json的perf字段中。

搜集汇总

数据集介绍

构建方式

在智能文档解析领域，DocParsingBench数据集的构建过程体现了严谨的工业级数据采集与标注范式。该数据集系统性地从金融、法律、科研、制造及教育等真实业务场景中收集了1400页文档样本，并完整保留了扫描噪声、印章遮挡及模糊字符等实际工业环境中的复杂干扰因素。其标注严格遵循SoMarkdown规范，将文本、行内公式、独立公式及表格等元素统一编码为Markdown格式，并创新性地采用SMILES与LaTeX结合的方式对化学结构式进行完整渲染，确保了标注的精确性与可解析性。

特点

DocParsingBench数据集的核心特点在于其卓越的工业对齐性与评估的细粒度设计。数据集不仅覆盖了多语言、多栏式及混合版式的文档，更通过按文本、公式和表格类型进行最优片段匹配的评估机制，显著超越了传统的全文字符串对比方法。其评估工具包集成了NED、CDM及TEDS等多种度量标准，并提出了综合性的DPB（Document Parsing Benchmark）指标，通过加权平均的方式对解析模型的整体性能进行量化，为学术界与工业界提供了一个兼具通用性与精确性的统一评估基准。

使用方法

该数据集的使用流程高度工程化，提供了命令行接口与可视化分析工具以无缝集成至模型实验管线。用户可通过`dpb eval`命令对预测与标注的Markdown文件进行批量评估，系统将自动执行片段分割、匈牙利匹配及多维度评分，并输出详细的JSON格式结果。同时，工具包支持生成交互式排行榜与性能摘要图表，便于研究者进行模型对比与可视化分析。对于新模型的集成，项目提供了标准化的基类接口，开发者仅需实现核心解析逻辑即可接入统一的评估框架，极大提升了实验迭代效率。

背景与挑战

背景概述

随着数字化办公的普及，智能文档解析技术成为连接非结构化文档与结构化信息的关键桥梁。DocParsingBench数据集由SoMarkAI团队于2026年3月正式发布，旨在构建一个面向真实工业场景的评估基准。该数据集系统性地采集了金融、法律、科研、制造及教育等领域的1400页文档样本，并保留了扫描噪声、印章遮挡与模糊字符等实际挑战。其核心研究问题在于如何精准评估文档解析模型对文本、公式与表格等多模态元素的综合解析能力，通过引入基于SoMarkdown规范的标注格式与最优分段匹配机制，为学术界与工业界提供了统一的性能衡量标准，显著推动了智能文档处理技术的实用化进程。

当前挑战

在文档解析领域，模型需应对复杂版式、多语言混合及专业符号识别等核心难题。DocParsingBench针对文本、内联公式、独立公式与表格的联合解析任务，要求模型在保持高精度字符识别的同时，还需理解化学结构式等专业内容的语义表示。数据构建过程中，团队面临真实业务文档的多样性挑战，包括扫描件质量参差、印章与手写批注干扰，以及多栏布局与跨页内容的连贯性处理。此外，标注工作需兼顾Markdown的结构化表达与视觉渲染一致性，尤其在化学公式标注中需融合SMILES与LaTeX规范，确保评估结果既符合学术严谨性，又贴近工程实践需求。

常用场景

经典使用场景

在文档智能解析领域，DocParsingBench数据集作为评估基准，被广泛应用于多模态文档理解模型的性能评测。该数据集通过涵盖金融、法律、科研、制造与教育等行业的真实业务文档，构建了包含文本、内联公式、显示公式及表格的结构化标注体系。研究者利用其提供的标准化评估流程，能够系统性地衡量模型在复杂版面布局下的解析精度，特别是在处理扫描噪声、印章遮挡与模糊字符等实际挑战时的鲁棒性。

实际应用

在实际工业场景中，DocParsingBench直接服务于智能文档处理产品的迭代优化。企业可借助其评估工具链，对OCR引擎、版面分析算法及多模态解析模型进行端到端测试。该数据集支持的批量评估、可视化分析及排行榜生成功能，显著降低了工程团队集成验证的复杂度，助力金融合同自动审核、科研文献结构化抽取、教育试卷数字化等垂直领域解决方案的性能提升与快速部署。

衍生相关工作

围绕DocParsingBench数据集，已衍生出一系列经典研究工作与开源工具。例如，基于其评估框架优化的PaddleOCR-1.5与MonkeyOCR-Pro-3B模型在公开排行榜中表现领先；同时，其配套的SoMarkdown标注规范与FastCDM公式匹配算法，已成为文档解析社区的重要基础设施。这些工作共同推动了如MinerU、Qwen3-VL等多模态大模型在文档理解任务上的能力演进与标准化评测。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集