DocParsingBench
收藏github2026-04-17 更新2026-04-19 收录
下载链接:
https://github.com/SoMarkAI/DocParsingBench
下载链接
链接失效反馈官方服务:
资源简介:
一个用于智能文档解析产品的基准工具包
A benchmark toolkit for intelligent document parsing products
创建时间:
2026-04-16
原始信息汇总
DocParsingBench 数据集概述
数据集基本信息
- 数据集名称:DocParsingBench
- 发布机构:SoMarkAI
- 访问地址:
- GitHub: https://github.com/SoMarkAI/DocParsingBench
- Hugging Face: https://huggingface.co/datasets/SoMarkAI/DocParsingBench
- ModelScope: https://modelscope.cn/datasets/SoMark/DocParsingBench
- 发布日期:2026年3月9日(数据集发布)
- 许可证:Apache 2.0
数据集内容与规模
- 总样本量:1400页文档
- 语言覆盖:中文、英文、双语
- 行业覆盖:金融、法律、科研、制造、教育
- 布局覆盖:单栏、双栏、三栏、混合布局
- 数据特点:系统收集并标注了真实业务流程中的文档样本,保留了扫描噪声、印章遮挡和模糊字符等真实场景特征。
标注格式与规范
- 标注格式:Markdown
- 化学标注规范:使用 SoMarkdown 规范,结合SMILES与LaTeX实现化学结构式的完整渲染。
评估工具包特性
DocParsingBench是一个专为智能文档解析产品构建的评估工具包,连接学术界与真实工业界。
- 行业对齐:基于真实企业文档构建,非纯学术数据集。
- 兼容性强:直接比较GT Markdown与预测Markdown,适用于任何解析解决方案。
- 最优片段匹配:按文本、行内公式和表格进行分段,然后在同类型内匹配。比全文字符串比较更准确。
- 工程友好:提供CLI、快速启动和可视化仪表板,易于集成到模型实验流程中进行快速迭代。
评估指标体系
片段分类
text(含行内公式)display_formula(显示公式)table(表格)image(当前评估中暂不计入)
匹配与度量
- 分割方式:文本和显示公式按行边界分割;表格由
<table> ... </table>界定。 - 匹配算法:在每个类别内使用匈牙利匹配算法,配合配置的匹配度量(
NED、CDM、TEDS)。 - 度量包装器:
NED/CER、CDM、TEDS/TEDS-S。 - 整体指标:DPB(Document Parsing Benchmark),加权平均值,默认权重为
α=0.5, β=0.3, γ=0.2。
DPB计算公式
math
egin{aligned}
text_score &= alpha cdot avg(1 - NED) + (1 - alpha) cdot avg(CDM)
display_formula_score &= avg(CDM)
table_score &= avg(TEDS)
DPB &= alpha cdot text_score + eta cdot display_formula_score + gamma cdot table_score
end{aligned}
评估排行榜(示例)
| 排名 | 方法 | DPB | 文本 | 公式 | 表格 |
|---|---|---|---|---|---|
| 1 | PaddleOCR-1.5 | 0.8535 | 0.8959 | 0.7527 | 0.7104 |
| 2 | MonkeyOCR-Pro-3B | 0.8260 | 0.8669 | 0.7206 | 0.7014 |
| 3 | MinerU2.5 | 0.8164 | 0.8426 | 0.7993 | 0.7557 |
| 4 | Qwen3-VL-235B-Instruct | 0.7971 | 0.8496 | 0.4355 | 0.6691 |
| 5 | ChandraOCR-2 | 0.7906 | 0.8361 | 0.7772 | 0.7242 |
工具使用与开发
- 环境要求:Python 3.8+
- 安装方式:
pip install .或开发模式pip install -e . - 主要功能模块:
eval:评估(支持单文件和批量)segment:片段测试visualize:可视化分析summary-chart:生成汇总条形图leaderboard-html:生成交互式HTML排行榜
- 模型运行脚本:提供多种OCR模型(如DeepSeek OCR、PaddleOCR、Qwen3-VL等)的运行脚手架,支持统一管道:扫描图像目录 -> 调用模型 -> 后处理 -> 输出Markdown。
性能评估设计
项目为性能基准测试预留了钩子和统一输出模式。
- 在CLI
eval中,当perf.enable=true时,会记录:- 分割时间、匹配时间、各度量时间、总时间
- 文档数量和吞吐量(
docs/s)
- 输出写入
result.json的perf字段中。
搜集汇总
数据集介绍

构建方式
在智能文档解析领域,DocParsingBench数据集的构建过程体现了严谨的工业级数据采集与标注范式。该数据集系统性地从金融、法律、科研、制造及教育等真实业务场景中收集了1400页文档样本,并完整保留了扫描噪声、印章遮挡及模糊字符等实际工业环境中的复杂干扰因素。其标注严格遵循SoMarkdown规范,将文本、行内公式、独立公式及表格等元素统一编码为Markdown格式,并创新性地采用SMILES与LaTeX结合的方式对化学结构式进行完整渲染,确保了标注的精确性与可解析性。
特点
DocParsingBench数据集的核心特点在于其卓越的工业对齐性与评估的细粒度设计。数据集不仅覆盖了多语言、多栏式及混合版式的文档,更通过按文本、公式和表格类型进行最优片段匹配的评估机制,显著超越了传统的全文字符串对比方法。其评估工具包集成了NED、CDM及TEDS等多种度量标准,并提出了综合性的DPB(Document Parsing Benchmark)指标,通过加权平均的方式对解析模型的整体性能进行量化,为学术界与工业界提供了一个兼具通用性与精确性的统一评估基准。
使用方法
该数据集的使用流程高度工程化,提供了命令行接口与可视化分析工具以无缝集成至模型实验管线。用户可通过`dpb eval`命令对预测与标注的Markdown文件进行批量评估,系统将自动执行片段分割、匈牙利匹配及多维度评分,并输出详细的JSON格式结果。同时,工具包支持生成交互式排行榜与性能摘要图表,便于研究者进行模型对比与可视化分析。对于新模型的集成,项目提供了标准化的基类接口,开发者仅需实现核心解析逻辑即可接入统一的评估框架,极大提升了实验迭代效率。
背景与挑战
背景概述
随着数字化办公的普及,智能文档解析技术成为连接非结构化文档与结构化信息的关键桥梁。DocParsingBench数据集由SoMarkAI团队于2026年3月正式发布,旨在构建一个面向真实工业场景的评估基准。该数据集系统性地采集了金融、法律、科研、制造及教育等领域的1400页文档样本,并保留了扫描噪声、印章遮挡与模糊字符等实际挑战。其核心研究问题在于如何精准评估文档解析模型对文本、公式与表格等多模态元素的综合解析能力,通过引入基于SoMarkdown规范的标注格式与最优分段匹配机制,为学术界与工业界提供了统一的性能衡量标准,显著推动了智能文档处理技术的实用化进程。
当前挑战
在文档解析领域,模型需应对复杂版式、多语言混合及专业符号识别等核心难题。DocParsingBench针对文本、内联公式、独立公式与表格的联合解析任务,要求模型在保持高精度字符识别的同时,还需理解化学结构式等专业内容的语义表示。数据构建过程中,团队面临真实业务文档的多样性挑战,包括扫描件质量参差、印章与手写批注干扰,以及多栏布局与跨页内容的连贯性处理。此外,标注工作需兼顾Markdown的结构化表达与视觉渲染一致性,尤其在化学公式标注中需融合SMILES与LaTeX规范,确保评估结果既符合学术严谨性,又贴近工程实践需求。
常用场景
经典使用场景
在文档智能解析领域,DocParsingBench数据集作为评估基准,被广泛应用于多模态文档理解模型的性能评测。该数据集通过涵盖金融、法律、科研、制造与教育等行业的真实业务文档,构建了包含文本、内联公式、显示公式及表格的结构化标注体系。研究者利用其提供的标准化评估流程,能够系统性地衡量模型在复杂版面布局下的解析精度,特别是在处理扫描噪声、印章遮挡与模糊字符等实际挑战时的鲁棒性。
实际应用
在实际工业场景中,DocParsingBench直接服务于智能文档处理产品的迭代优化。企业可借助其评估工具链,对OCR引擎、版面分析算法及多模态解析模型进行端到端测试。该数据集支持的批量评估、可视化分析及排行榜生成功能,显著降低了工程团队集成验证的复杂度,助力金融合同自动审核、科研文献结构化抽取、教育试卷数字化等垂直领域解决方案的性能提升与快速部署。
衍生相关工作
围绕DocParsingBench数据集,已衍生出一系列经典研究工作与开源工具。例如,基于其评估框架优化的PaddleOCR-1.5与MonkeyOCR-Pro-3B模型在公开排行榜中表现领先;同时,其配套的SoMarkdown标注规范与FastCDM公式匹配算法,已成为文档解析社区的重要基础设施。这些工作共同推动了如MinerU、Qwen3-VL等多模态大模型在文档理解任务上的能力演进与标准化评测。
以上内容由遇见数据集搜集并总结生成



