PureDocBench

github2026-05-08 更新2026-05-10 收录

下载链接：

https://github.com/zhihengli-casia/puredocbench

下载链接

链接失效反馈

官方服务：

资源简介：

PureDocBench 是一个源可追踪的 OCR / 文档解析 benchmark。数据由 HTML/CSS 源文件渲染而来，GT 标注从同源结构中抽取，覆盖 clean、digital-degraded、real-degraded 三条图像轨道。

PureDocBench is a source-traceable OCR and document parsing benchmark. The dataset is generated by rendering HTML/CSS source files, with ground truth (GT) annotations extracted from the homologous source structures, covering three image tracks: clean, digital-degraded, and real-degraded.

创建时间：

2026-05-08

原始信息汇总

PureDocBench 数据集概述

数据集简介

PureDocBench 是一个面向 OCR 和文档解析的源可追踪基准测试数据集，用于评估文档解析系统在干净、数字退化及真实退化三种场景下的表现。数据由 HTML/CSS 源文件渲染生成图像，并从同一源结构中抽取真实标注（GT），有效减少了标注噪声。

数据规模

项目	数量
官方页面（Official pages）	1,475
官方图像（Official images）	4,425
顶级领域（Top-level domains）	10
细分子类别（Fine-grained subcategories）	66
图像轨道（Image tracks）	clean, digital-degraded, real-degraded
评分结构（Scored structures）	text, formulas, tables, reading order

数据构成

图像轨道：包含三条图像轨道——干净（clean）、数字退化（digital-degraded）和真实退化（real-degraded）。
评分结构：对文本（text）、公式（formulas）、表格（tables）和阅读顺序（reading order）四种结构进行评分。

评价指标

论文在三条轨道上分别报告以下指标：

Overall：整体分数
TextEdit：文本编辑距离
FormulaCDM：公式识别性能
TableTEDS：表格结构相似度
ROEdit：阅读顺序编辑距离
Avg3：三条轨道 Overall 分数的平均值

系统评测概况

论文评估了 40 个系统，涵盖流水线专用模型（pipeline specialists）、端到端文档解析器（end-to-end document parsers）以及通用视觉语言模型（general-purpose VLMs）。结果通过主排行榜（Main Leaderboard）进行展示。

下载与验证

完整数据集（图像、真实标注、HTML 源文件）托管在 Hugging Face 平台上。下载后需通过 SHA256 校验和验证，并可使用提供的 Python 脚本进行分卷归档验证和发布清单验证。

推理与评分工具

PureDocBench 提供公开的命令行工具（CLI）用于模型无关的推理（inference）和轻量级评分（scoring），并支持导出为 OmniDocBench 格式。

引用信息

bibtex @misc{puredocbench, title = {How Far Is Document Parsing from Solved? PureDocBench: A Source-Traceable Benchmark across Clean, Degraded, and Real-World Settings}, author = {Li, Zhiheng and collaborators}, year = {2026}, howpublished = {url{https://github.com/zhihengli-casia/puredocbench}}, note = {Dataset and benchmark release} }

搜集汇总

数据集介绍

构建方式

PureDocBench的构建过程独具匠心，它以HTML/CSS文档源文件为隐性锚点，将每个页面渲染为图像，并直接从同一结构化源中抽取真实标注。这一创新设计使得文本、表格、公式、标题以及阅读顺序等元素的评分能够在较少后处理注释噪声干扰下进行。数据集涵盖清洁、数字化退化与真实退化三条图像轨道，包含1,475个官方页面、4,425张图像，覆盖10个顶级域名和66个细粒度子类别，为文档解析研究提供了丰富且可控的评测素材。

使用方法

用户可通过Hugging Face下载完整的图像、标注与HTML源文件，并使用提供的SHA256校验与验证脚本确保数据完整性。Python CLI工具支持模型无关的推理和轻量级评分，用户只需指定图像路径与模型推理命令模板即可完成评测。例如，使用'puredocbench infer'命令进行推理，再用'puredocbench score'命令依据指定清单和轨道计算评分，整个过程简洁高效，便于在不同文档解析系统间公平比较。

背景与挑战

背景概述

文档解析作为连接非结构化视觉信息与结构化数据的关键技术，在学术文献数字化、商业文档管理及金融报告处理等领域扮演着核心角色。然而，现有基准测试多受限于人工标注噪声与领域覆盖不足，难以精确衡量模型在复杂真实场景下的解析能力。PureDocBench数据集由中国科学院自动化研究所的zhihengli-casia团队于2026年创建，其核心创新在于利用HTML/CSS源文件作为隐性锚点，将同源渲染图像与结构化标注对齐，构建了包含1475个官方页面、4425张图像、覆盖10个顶级领域与66个细分子类别的多轨道基准。该数据集涵盖清洁、数字退化与真实退化三条图像轨道，系统评估了40种模型在文本、公式、表格及阅读顺序等方面的表现，为文档解析领域提供了首个源可追踪的评估框架，显著推动了OCR与文档理解技术的标准化评测进程。

当前挑战

PureDocBench面临的挑战主要源于文档解析领域的复杂性与数据构建的精密需求。在领域问题层面，公式识别被诊断为当前所有系统的最大单一瓶颈，尤其是复杂符号结构与嵌套表达式的准确解析仍缺乏鲁棒性；真实退化环境下的排名变动显著高于数字退化，表明模型在应对自然老化、污渍、模糊等真实世界噪声时性能急剧下降，通用视觉语言模型(VLM)在此场景下尤为脆弱。在构建过程中，需确保同源HTML/CSS渲染图像与结构化标注的毫厘级对齐，避免人工后验标注的污染噪声；同时需要系统性设计确定性退化操作谱系，在保持内容语义不变的前提下生成可控的数字与真实退化样本，这一过程涉及对扫描噪声、光照不均、形变等多维度因素的精确模拟与验证。

常用场景

经典使用场景

在文档智能解析领域，PureDocBench 凭借其独特的源可追踪设计，成为评估光学字符识别（OCR）与文档解析系统性能的权威基准。该数据集通过 HTML/CSS 源文件渲染生成页面图像，并直接从同源结构中提取标注信息，覆盖了干净、数字退化与真实退化三种图像轨道。研究者利用纯净文档、公式、表格及阅读顺序等多维度结构化评分指标，对传统流水线模型、端到端文档解析器以及通用视觉语言模型进行系统评测，从而揭露当前技术在复杂退化场景中的真实鲁棒性与局限性。

解决学术问题

PureDocBench 精准回应当前文档解析领域缺乏可控、可溯源且覆盖多种退化类型标准化基准的痛点。传统基准多依赖人工标注，易引入噪声且难以精确归因误差来源；而该数据集从源头保证了图像与标注的一致性，使得对文本、公式、表格及阅读顺序的评估结果更加可靠。通过系统评测 40 个模型在三条图像轨道上的表现，研究揭示了公式识别作为当前最大瓶颈的事实，并指明了真实退化对系统排名的显著影响，为后续研究提供了明确的方向。

实际应用

在实际应用中，PureDocBench 能够有力推动金融报告、学术论文、商业合同与产品证书等高价值文档的自动化解析进程。其涵盖的多种退化场景模拟了真实办公环境中因扫描质量、纸张老化或拍摄条件不佳引起的文档劣化状况，使依赖该基准优化的模型可直接迁移至企业级文档数字化平台、智能审计系统及电子档案管理工具。此外，数据集提供的轻量级推理与评分 CLI 便于工业界快速评估并迭代自有模型，显著缩短了从学术研究到产业落地的转化周期。

数据集最近研究