PureDocBench
收藏PureDocBench 数据集概述
数据集简介
PureDocBench 是一个面向 OCR 和文档解析的源可追踪基准测试数据集,用于评估文档解析系统在干净、数字退化及真实退化三种场景下的表现。数据由 HTML/CSS 源文件渲染生成图像,并从同一源结构中抽取真实标注(GT),有效减少了标注噪声。
数据规模
| 项目 | 数量 |
|---|---|
| 官方页面(Official pages) | 1,475 |
| 官方图像(Official images) | 4,425 |
| 顶级领域(Top-level domains) | 10 |
| 细分子类别(Fine-grained subcategories) | 66 |
| 图像轨道(Image tracks) | clean, digital-degraded, real-degraded |
| 评分结构(Scored structures) | text, formulas, tables, reading order |
数据构成
- 图像轨道:包含三条图像轨道——干净(clean)、数字退化(digital-degraded)和真实退化(real-degraded)。
- 评分结构:对文本(text)、公式(formulas)、表格(tables)和阅读顺序(reading order)四种结构进行评分。
评价指标
论文在三条轨道上分别报告以下指标:
- Overall:整体分数
- TextEdit:文本编辑距离
- FormulaCDM:公式识别性能
- TableTEDS:表格结构相似度
- ROEdit:阅读顺序编辑距离
- Avg3:三条轨道 Overall 分数的平均值
系统评测概况
论文评估了 40 个系统,涵盖流水线专用模型(pipeline specialists)、端到端文档解析器(end-to-end document parsers)以及通用视觉语言模型(general-purpose VLMs)。结果通过主排行榜(Main Leaderboard)进行展示。
下载与验证
完整数据集(图像、真实标注、HTML 源文件)托管在 Hugging Face 平台上。下载后需通过 SHA256 校验和验证,并可使用提供的 Python 脚本进行分卷归档验证和发布清单验证。
推理与评分工具
PureDocBench 提供公开的命令行工具(CLI)用于模型无关的推理(inference)和轻量级评分(scoring),并支持导出为 OmniDocBench 格式。
引用信息
bibtex @misc{puredocbench, title = {How Far Is Document Parsing from Solved? PureDocBench: A Source-Traceable Benchmark across Clean, Degraded, and Real-World Settings}, author = {Li, Zhiheng and collaborators}, year = {2026}, howpublished = {url{https://github.com/zhihengli-casia/puredocbench}}, note = {Dataset and benchmark release} }




